?

Log in

No account? Create an account

Previous Entry | Next Entry

Возьмем словарь синонимов и антонимов. Для каждого слова (или значения слова) даются синонимические значения и противоположные. Какую интересную информацию о языке можно выделить, механически получить, переработав этот словарь? В статье [1] описывается удивительно простой и изящный подход, приведший к получению весьма нетривиального результата.

Возьмем все слова из словаря, расположим их в вершинах графа, и проведем ребра в соответствии с отношениями синонимии/антонимии. Затем доработаем граф так, чтобы все отношения были симметричными (если глокий синоним кузявого, то и кузявый синоним глокого). На этом этапе будут устранены некоторые ошибки словаря: если пара слов записана и синонимами, и антонимами, то такое ребро графа стирается. Иными словами, если глокий записан в словаре синонимом кузявого, а кузявый числится антонимом глокого, то сочтем это ошибкой и уберем обе ссылки этих слов друг на друга.

Вполне вероятно, что граф наш распадется на несколько компонент связности: каждая компонента — подмножество графа, по ребрам которого можно дойти из одной вершины в другую. Самую большую из этих компонент авторы называют ядром, и, для всех исследованных словарей, следующая за ней по размеру компонента довольно мала. Размер ядра для английских словарей составил 15—20 тыс. слов. От любого слова до любого можно добраться по связям: пустой — антоним полного, полный — синоним толстого, худой — антоним толстого, добрый — антоним худого, и так далее.

Затем авторы разворачивают полученный граф в многомерном пространстве (скажем, 25-мерном), так что каждая вершина получает свое положение в пространстве, радиус-вектор xi. Затем определяется функционал энергии системы этих точек в пространстве, следующим образом:

,

где значение Wi,j=Wj,i равно 1, если слова i и j суть синонимы, −1, если антонимы, и 0 в противном случае. Иными словами, W есть матрица связности нашего графа, где веса ребер равны 1 для синонимов и −1 для антонимов.

Первый член суммы определяет стремление синонимов кучковаться по одну сторону начала координат, так что их радиус-векторы сонаправленны (в этом случае скалярное произведение максимально, и данная пара синонимов, при коэффициенте W=1, вносит наибольший отрицательный вклад в суммарную энергию (а ищется минимум этой энергии). Точно так же, радиус-векторы антонимов стремятся выстроиться в линию, но противопоставленно, благодаря смене знака W=−1. Второй член — простая регуляризация, она тянет центр всей системы частиц к началу координат, и не дает ей разбегаться. Чем выше степень при норме вектора, тем круче возрастает энергия за пределами гиперсферы единичного радиуса.

В результате численного решения уравнения, мы найдем все координаты (25-мерный вектор) для каждого из, скажем, 20 тыс. слов. Поскольку формула сферически симметрична, то это решение может выстроиться в пространстве в любой ориентации, и, к тому же, зеркально отраженным по любой из координат. Чтобы разобраться в том, что у нас вышло, следует упростить решение, выбросив из него незначащую информацию. Математически это делается методом главных компонент (МГК, англ. PCA). Этот метод позволяет существенно сократить размерность данных, если данные «спюснуты» вдоль одной или нескольких осей. Например, если наши точки выстроятся вдоль диагонали трехмерного куба, то на самом деле это не трехмерные данные, а одномерные: проведем новую ось X вдоль диагонали, а оси Y и Z нам и не потребуются, потому что новые эти координаты все равно окажутся нулевыми. На практике, значения координат по «лишним» осям ненулевые, но и невелики; обычно это экспериментальный шум, которым можно пренебречь. МГК дает ответ также, какую точность мы потеряем, уменьшив число координат до некоего взятого. Например, если оказывается, что в 20-мерном наборе данных самая главная новая координата опишет 55% информации, две первых опишут 70%, три — 99,5%, а четыре и более все больше приближают нас к исходным 100%, то мы можем смело отбросить последние 17 координат и разглядеть в данных трехмерный набор — выбросив тем самым только 0,5% информации (которая может быть полезной, а может и просто шумом).

Так вот, после того, как авторы обработали полученное решение с помощью МГК, выяснилось, что данные можно сжать до трехмерных с точностью 95%, или четырехмерных с точностью 99%. Иными словами, сопоставив каждому слову в решении только 4 независимых числа, можно сохранить практически все свойства этого решения (максимальное сближение синонимов и расхождение антонимов).

До сих пор мы рассматривали только математический трюк, позволивший нам сопоставить 4 числа (тяготеющих к диапазону [-1, 1] благодаря регуляризации) с каждым словом. Но неожиданно оказывается, что у каждой из этих 4 осей имеется явный смысл, причем (для первых 3) один и тот же в разных языках! Первая, самая главная ось, раскладывает слова по шкале «хороший-плохой» по их эмоциональным коннотациям. Вторая ось — шкала «возбуждения», от «успокаивающего» до «возбуждающего», а третья — шкала «свободы», от «закрытого» до «открытого». Первые три оси несут 95% информации из решения. Четвертая ось имеет переменный смысл, в зависимости от языка и словаря. В целом, интервал значений по каждой оси уменьшается с ее номером, то есть слова собираются в более тесные группы ближе к 0. Выходит, что наибольшее количество информации, заключенное в слове, соответствует тому, насколько «хорошее/плохое» обозначается этим словом.

По построению, оси перпендикулярны и независимы: «успокаивающее» слово может быть и «хорошим», и «плохим», а «плохое» — и «успокаивающим», и «возбуждающим». Например, первые две координаты «успокаивающих» слов soothing, умиротворяющий равны (0,69; −1,19), а boring, скучный — (−1,31; −0,94): слово умиротворяющий, таким образом, весьма положительного значения, «хорошее», а скучный — отрицательного, «плохого». Авторы численно сопоставили эти значения с корпусом аффективных норм, где слова оценены респондентами по разным шкалам, и получили замечательную корреляцию со своими механически вычисленными осями.

Не следует думать, будто бы перед нами способ квантифицировать, описать числами любое слово. Мы можем сопоставить числа слову, но перейти от чисел к слову нельзя, информация теряется: вблизи одного слова оказывается другое, совершенно не близкое ему по значению (например, рядом со злым могут оказаться квадратный и фиолетовый). Семантизированные корпуса пока что вычисляются только для узких смысловых областей, и включают в себя векторы очень высоких (десятки-сотни координат) размерностей.

Как и любое интересное открытие, большое и малое, данная находка ставит больше вопросов, чем дает ответов. Интересно поразмыслить, что же именно здесь обнаружено, какого рода это явление?

Одна крайняя точка зрения базируется на произвольности знака. Поскольку отношения синонимии все-таки определяются между значениями, а не знаками, то обнаруженное явление лишь артефакт метода. Эта точка зрения неверна, потому что многие значения одного слова связаны не произвольно. Например, слово худой будет иметь антонимами два разных слова, толстый и добрый, в двух разных значениях. Но значения эти собраны в одном слове не произвольным образом — не следует произвольность знака возводить в абсолют в любой ситуации. Безусловно, значения худой в смысле плохой и тонкий (фигурой) связаны, и этимологически, и семантически.

Другой крайностью было бы утверждать, что обнаружено некое языковое явление. Нужно сказать, что возразить против нее нечего, но нечем ее и подтвердить. Слишком уж много стоит на пути от языка до словаря синонимов. Словарь составляется человеком, который следует определенной, разработанной им же или другими людьми методологии, на основе неким методологическим же образом отобранного корпуса текстов, и так далее. Что в интересной обнаруженной закономерности от языка, а что от мышления человека, составляющего словарь? На эти вопросы ответа нет. Если бы у нас был способ автоматического, вычислительного составления словаря синонимов, это дало бы хороший способ разделить факторы, влияющие на конечную модель. Но такие способы пока еще неизвестны.

Узкопрактически метод можно применять для верификации словарей синонимов и нескольких других вещей (в статье они описаны), но в теоретической части, можно сказать, обнаружено что-то очень интересное, но непонятное. В понимании языка мы продвинулись, конечно, несколько дальше греческих грамматиков, но, увы, отнюдь не так далеко, как хотелось бы.

_________________________________
1. Samsonovic AV, Ascoli GA (2010) Principal Semantic Components of Language and the Measurement of Meaning. PLoS ONE 5(6): e10921. doi:10.1371/journal.pone.0010921

Comments

( 112 comments — Leave a comment )
Page 1 of 3
<<[1] [2] [3] >>
komar28
Nov. 5th, 2012 06:15 am (UTC)
Подход интересный. Если бы я только ещё умела заниматься математикой)).
Больше не умею. И вообще числа для меня вполне
nebulous and unclear entities. ))

Вот мне интересно: есть факторы, которые не так постоянно: например коннотации и факт, что чистых синонимов нет в языке.

Хм, вообще никогда не думала о том, верные антонимы ли есть в языке. Но это не точно по теме.
fregimus
Nov. 5th, 2012 06:27 am (UTC)
Нет, почему же, очень в тему. Чистых синонимов, конечно, практически нет — они избыточны и исчезают, обычно значение одного из синонимов изменяется. Но этот метод показал себя очень устойчивым. Например, угол между векторами синонимов должен быть в идеале 0°. Авторы обнаружили слова, торчащие под почти прямым углом, которые числились синонимами, но по смыслу явно не подходили (посмотрите, статья очень интересная). То есть, система выстроилась несмотря на ошибки, а ошибки эти стали заметны.
livejournal
Nov. 5th, 2012 06:20 am (UTC)
Просто интересно
User alex_bykov referenced to your post from Просто интересно saying: [...] Оригинал взят у в Семантические координаты [...]
alexeim
Nov. 5th, 2012 06:26 am (UTC)
А значения четвертой оси для разных языков они приводят? Может быть, четвертая ось отражает национальный характер ;).
fregimus
Nov. 5th, 2012 06:28 am (UTC)
Да, приводят. Copioous/essential, избыточный-необходимый в одном из случаев. Посмотрите статью, если будет время. там намного больше и интереснее.
(no subject) - komar28 - Nov. 5th, 2012 06:51 am (UTC) - Expand
stoshagownozad
Nov. 5th, 2012 06:49 am (UTC)
интересно, каков "физический смысл" этой энергии системы...


мне напоминает, на моем чудовищно низком уровне знаний и представлений, те штуки, которые, наверное, математики и физики делают, когда рассматривают теорию суперструн - измерений-то может быть и 17, и 25, и не помню сколько там ещё... но с очень большой вероятностью весь реальный мир укладывается в четыре...а остальные "вырождаются"...

может ли быть, это свойство примененной математики? т.е., тех правил (аксиом?), которые лежат в основе модели?

я даже слов боюсь, которые я тут написала, но просто аналогия поразила... что геометрия любого пространства - будь то пространство физическое или языковое - сводится все равно к 4 измерениям...
fregimus
Nov. 5th, 2012 06:57 am (UTC)
Физический смысл очень простой. Член с произведением векторов при W=1 максимален (энергия минимальна), когда векторы сонаправленны, при W=-1 — когда противонаправленны. Все остальные пары не вносят в энергию никакого вклада (W=0). Полная энергия будет минимальна, когда антонимы максимально растопырятся, а синонимы максимально сойдутся. Второй член, с 4 степенью, всего лишь нужен, чтобы частицы не разбегались далеко. Он симметричен, и поэтому не сказывается на направлении векторов.

Модель совершенно симметрична сферически, H не меняется при повороте всех векторов вместе, поэтому никаких тенденций к сворачиванию решения к меньшему числу измерений она не вносит. Так что это именно свойство системы связей синонимов-антонимов.

Сложность возникает дальше — это свойство языка? Или человека, думающего над словарем? Или методологии построения словаря? Или, может быть, методологии отбора корпуса, который он обрабатывал? Все эти вещи, и многие другие, потенциально вносили свой вклад, и как их вычленить и учесть — задача куда более сложная.

Доб. То, что именно 4 измерения — безусловно, простое совпадение. Да и оставшиеся измерения вовсе не так плотно свернуты, как измерения в теории струн (там все-таки доли процента остаются, вполне ощутимая величина, а в физике струн — там порядки чуть ли не планковские).

Edited at 2012-11-05 06:59 am (UTC)
(no subject) - stoshagownozad - Nov. 5th, 2012 07:20 am (UTC) - Expand
(no subject) - lenivtsyn - Nov. 5th, 2012 09:16 am (UTC) - Expand
(no subject) - golosptic - Nov. 7th, 2012 02:36 am (UTC) - Expand
levkonoe
Nov. 5th, 2012 07:15 am (UTC)
очень интересно.
fregimus
Nov. 5th, 2012 08:12 am (UTC)
Рад, спасибо.
toothedgoo
Nov. 5th, 2012 07:18 am (UTC)
Интересно, несколько реально вместо того, чтобы натягивать граф на плоское пространство, взаимно натянуть друг на друга этот граф и как-нибудь заданное многообразие. Ждать чего-то эвклидового от этих двух горстей студня как-то по-маниловски. Я тут как раз хожу кругами вокруг методов главных многообразий.
toothedgoo
Nov. 5th, 2012 07:30 am (UTC)
Хотя первое вполне эквивалентно сделанному. Если вспомнить общую теория относительности (гравитация и метрика пространства эквивалентны), то введением гравитации между словами уже введена некоторая неэвклидова метрика пространства
shuurrsh
Nov. 5th, 2012 08:26 am (UTC)
немного напоминает семантический дифференциал Осгуда, но именно что немного: ось "оценка" совпадает, оси "сила" и "активность" не очень понятным образом слиплись в ось "возбуждение", а откуда возникла ось "свободы" - непонятно, но красиво:)
Правда, у Осгуда вроде бы тоже особых объяснений нет - вот мы нашли похожее на разном материале, значит, это универсалии.
fregimus
Nov. 5th, 2012 10:11 am (UTC)
Да, и они верифицировали с подобным корпусом. Оси разные еще, возможно, потому, что аффективные корпуса строятся с фиксированным набором осей, поэтому различаются.
burrru
Nov. 5th, 2012 08:40 am (UTC)
Невероятно интересно!! Спасибо.
fregimus
Nov. 5th, 2012 10:10 am (UTC)
Пожалуйста, очень приятно.
arno1251
Nov. 5th, 2012 08:55 am (UTC)
Полагаю, какие-то выводы можно будет сделать, применив эту методику еще к нескольким языкам, лучше из разных языковых групп.
Что будет с размерностями? Останутся они в количестве трех с половиною?
fregimus
Nov. 5th, 2012 10:03 am (UTC)
Не проверяли. Они, похоже, не лингвисты совсем — из нейроинформатики. Английский, французский, немецкий, испанский — весь джентльменский набор.
(no subject) - arno1251 - Nov. 5th, 2012 12:18 pm (UTC) - Expand
(no subject) - fregimus - Nov. 5th, 2012 06:27 pm (UTC) - Expand
(no subject) - arno1251 - Nov. 5th, 2012 07:37 pm (UTC) - Expand
(no subject) - efimpp - Nov. 5th, 2012 04:09 pm (UTC) - Expand
(no subject) - p_govorun - Nov. 5th, 2012 06:02 pm (UTC) - Expand
(no subject) - efimpp - Nov. 5th, 2012 06:57 pm (UTC) - Expand
(no subject) - p_govorun - Nov. 5th, 2012 07:05 pm (UTC) - Expand
(no subject) - fregimus - Nov. 6th, 2012 04:41 am (UTC) - Expand
yurvor
Nov. 5th, 2012 09:36 am (UTC)
"чтобы все отношения были транзитивными (если глокий синоним кузявого, то и кузявый синоним глокого)."

Только это не транзитивность, а рефлексивность :) А метод интересный. Годный метод :)
lithovore
Nov. 5th, 2012 09:40 am (UTC)
Симметричность :) Рефлексивность была бы, если бы каждое слово было синонимом себя.
(no subject) - fregimus - Nov. 5th, 2012 10:10 am (UTC) - Expand
(no subject) - yurvor - Nov. 5th, 2012 10:19 am (UTC) - Expand
(no subject) - fregimus - Nov. 5th, 2012 10:01 am (UTC) - Expand
alisa_lebovski
Nov. 5th, 2012 10:00 am (UTC)
Чрезвычайно интересно. Это, безусловно, некоторые свойства человеческой психологии, выражающиеся и в языке, и в составлении словарей и т.д.
fregimus
Nov. 5th, 2012 10:14 am (UTC)
Конечно, но отделить язык от психологии составителя словаря было бы куда как интереснее! Пока что это все довольно размыто — где-то тут (неопределенно помавает рукой) четыре главных компоненты.
(no subject) - stoshagownozad - Nov. 5th, 2012 10:31 am (UTC) - Expand
(no subject) - fregimus - Nov. 5th, 2012 10:40 am (UTC) - Expand
(no subject) - stoshagownozad - Nov. 5th, 2012 11:05 am (UTC) - Expand
aosypov
Nov. 5th, 2012 10:43 am (UTC)
Потрясающе! Огромное спасибо.

Мне, как биологу, эксплуатирующему математику на сугубо пользовательском (правда еще и невысоком) уровне, кажется, что совпадение количества и смысла главных осей в разных языках - хороший признак того, что найдено свойство не составителей словарей, а самих языков. Устойчивость у языков повыше будет, чем у множества составителей - вряд ли их мышление так систематически будет совпадать друг с другом и перебивать реальную структуру языка. Не говоря уже про очевидное соответствие этого мышления устройству языка, которое вроде бы не должно портить картину ни по одному из принятых представлений о связи языка и мышления (поправьте?).

Пока не взялся за трудное дело чтения статьи в оригинале - область совсем не моя, даже лексики не знаю, ни лингвистической, ни математической. По-русски в Вашем изложении все понятно, кроме одного перехода - не могли бы Вы пояснить вот этот момент:
> разворачивают полученный граф в многомерном пространстве (скажем, 25-мерном), так что каждая вершина получает свое положение в пространстве, радиус-вектор xi
Каким образом задаются исходные значения координат по каждому измерению?
fregimus
Nov. 5th, 2012 11:35 am (UTC)
Вообще, там нет исходных значений, просто уравнение решается, где каждое значение xi — неизвестная переменная. На самом деле, конкретный метод решения может требовать начальных значений, тогда случайные вполне подходят. Ну, это как найти минимум функции H=x2-4x. Ответ x=2, но никакого «начального» значения x тут нет.
aosypov
Nov. 5th, 2012 10:51 am (UTC)
А нет ли (полу-)автоматических находилок синонимов?
И было бы интересно натравить этот метод на подмножества словаря, взятые из разных корпусов, которые лингвистами традиционно считаются существенно различающимися. Ну там детская речь, научная, религиозная, пресса, авторы разные, еще какой-нибудь зоопарк - вам виднее.
stoshagownozad
Nov. 5th, 2012 11:08 am (UTC)
жаргоны хорошо ещё помучить, там синонимия иногда ну очень неожиданная бывает, насколько я представляю... хотя бы пара good - cool... А как вспомню, скажем, "пятый элемент", там вообще употребляли "green" как синоним "cool" в смысле good!
(no subject) - aosypov - Nov. 5th, 2012 11:57 am (UTC) - Expand
(no subject) - golosptic - Nov. 7th, 2012 02:40 am (UTC) - Expand
(no subject) - fregimus - Nov. 5th, 2012 11:37 am (UTC) - Expand
sezam_lj
Nov. 5th, 2012 11:17 am (UTC)
Интересно, как они с многозначными словами обходились?
sezam_lj
Nov. 5th, 2012 11:35 am (UTC)
А, понял, тут неважно, у многозначных просто синонимических связей больше.
(no subject) - fregimus - Nov. 5th, 2012 11:38 am (UTC) - Expand
livejournal
Nov. 5th, 2012 11:20 am (UTC)
Семантические координаты
User alex_mashin referenced to your post from Семантические координаты saying: [...] Оригинал взят у в Семантические координаты [...]
Page 1 of 3
<<[1] [2] [3] >>
( 112 comments — Leave a comment )