?

Log in

No account? Create an account

Previous Entry | Next Entry

200 тысяч слов для снега

Говорят, в английском языке слов втрое больше, чем в русском: 300 тыс. против 100 тыс. То же говорят и о сравнении английского и романских языков. Как сосчитать?

Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.

Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.

Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.

Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.

Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.

В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?

Comments

( 64 comments — Leave a comment )
Page 1 of 2
<<[1] [2] >>
kcmamu
Sep. 19th, 2011 02:01 am (UTC)
Словарь Зализняка из 100000 слов порождает около 2 млн словоформ.

Гугльбуксовая база для русскоязычных изданий содержит около 4 млн словоформ, встретившихся с частотой >= 40. Но там есть имена собственные и всякий мусор из-за старой орфографии и ошибок распознавания. Несмотря на это, "нормальных" слов из этого хозяйства должно получиться сильно больше, чем 100000 (потому что для не самых частых слов будет встречена не вся парадигма, а малая ее часть). Думаю, можно ожидать где-то 500000 слов.
fregimus
Sep. 19th, 2011 02:49 am (UTC)
Ничего не понял. Прежде всего, что с чем сравнивать — и почему?
(no subject) - kcmamu - Sep. 19th, 2011 03:23 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 04:15 am (UTC) - Expand
(no subject) - kcmamu - Sep. 19th, 2011 05:37 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 05:44 am (UTC) - Expand
(no subject) - kcmamu - Sep. 19th, 2011 06:15 am (UTC) - Expand
profpr
Sep. 19th, 2011 02:31 am (UTC)
Верхняя граница английского словаря еще выше. Вот у меня маленькое обсуждение, посвященное прохождению Английского через миллионное слово. http://profpr.livejournal.com/147019.html
greenjumpingcat
Sep. 19th, 2011 03:09 am (UTC)
когда-то уже натыкался на этот вопрос, если не ошибаюсь, объяснение сводилось к тому, что в наших и английских словарях разные традиции того, какие формы считать одним словом, а какие разными.
fregimus
Sep. 19th, 2011 05:36 am (UTC)
Да, известное отличие, причем таких качественных различий в традициях можно найти несколько. Но понимание их, к сожалению, ничего не дает для методики количественного сравнения.
l_i_d_y_a
Sep. 19th, 2011 04:17 am (UTC)
Когда я ходила на курсы английского, преподаватель объясняла, что английский (в отличие от некотрых других языков) очень легко выучить до базового уровня и очень трудно потом совершенствовать - именно из-за огромного количества все новых и новых слов. Объясняла она это исторически: в английском одно и то же слово может описываться кельтским, латинским и французским словом. При этом латинские более длинные и используются в более официальной речи.
fregimus
Sep. 19th, 2011 04:44 am (UTC)
Дело тут вот в чем — очень трудно это подтвердить или опровергнуть. Пожалуй, для случайного слова я не подберу трех синонимов — германского, кельтского и латинского — а ведь обещается втрое больше слов! Это к каждому, получается, по два синонима. Вот и ищу методику составления количественно сравнимых словарей.

Кельтских корней в английском очень мало, кстати.
(no subject) - l_i_d_y_a - Sep. 19th, 2011 05:41 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 05:48 am (UTC) - Expand
(no subject) - alexandre_putt - Sep. 19th, 2011 09:44 am (UTC) - Expand
(no subject) - cmike - Sep. 19th, 2011 12:47 pm (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 19th, 2011 01:27 pm (UTC) - Expand
(no subject) - cmike - Sep. 19th, 2011 01:43 pm (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 19th, 2011 06:01 pm (UTC) - Expand
fregimus
Sep. 19th, 2011 05:33 am (UTC)
Re: в тему и не
Спасибо. Да, ответы лингвистов типичные — нельзя сравнивать, потому что непонятно как. И действительно ведь непонятно; нужна методика. Если кто-то уже проделал эту работу, хорошо б найти. Если нет — безнадега, слишком серьезно для исследования «по выходным».
watertank
Sep. 19th, 2011 04:50 am (UTC)
я не могу найти никакого разумного способа сравнить лексиконы двух языков.

лексикон английского в Америке вполне разумно определяется требованиями SAT. в Китае есть свои тесты лексикона, например, требования для поступления в университет. если в России есть аналогичный тест, то их можно легко сравнить. и даже посмотреть распределение, кто сколько знает.
fregimus
Sep. 19th, 2011 05:38 am (UTC)
Нет, совершенно не годится. Сравнивать же надо естественно сложившиеся лексиконы, они куда больше, чем минимальный словарный запас, требуемый императорскими экзаменами. Там несколько тысяч слов всего будет, ну, и примерно одинаково в любой культуре. Я ж говорю о сравнении этих самых якобы сотен тысяч слов.
(no subject) - l_i_d_y_a - Sep. 19th, 2011 05:44 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 05:52 am (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 19th, 2011 06:54 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 05:52 pm (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 19th, 2011 05:59 pm (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 06:22 pm (UTC) - Expand
(no subject) - kcmamu - Sep. 19th, 2011 07:12 am (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 19th, 2011 10:06 am (UTC) - Expand
(no subject) - kcmamu - Sep. 19th, 2011 10:19 am (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 19th, 2011 01:31 pm (UTC) - Expand
(no subject) - watertank - Sep. 19th, 2011 06:32 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 06:40 am (UTC) - Expand
(no subject) - watertank - Sep. 19th, 2011 06:51 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 06:54 am (UTC) - Expand
(no subject) - watertank - Sep. 19th, 2011 07:21 pm (UTC) - Expand
klausnick
Sep. 19th, 2011 05:40 am (UTC)
В английские толковые словари попадают даже узко специальные слова, такие как химические термины. В русских словарях им не место, а ведь речь идёт о сотнях тысяч слов.
fregimus
Sep. 19th, 2011 06:11 am (UTC)
Да, и это тоже. А все-таки, как сравнивать?
(no subject) - klausnick - Sep. 19th, 2011 07:26 am (UTC) - Expand
(no subject) - fregimus - Sep. 19th, 2011 07:28 am (UTC) - Expand
roman_shmarakov
Sep. 19th, 2011 06:24 am (UTC)
немного нарциссическое
Какой у меня богатый лексикон, оказывается. Даже пламеннозарный там есть. А вот гуманизму - с гулькин хрен. Но ведь за всем же не уследишь, правильно?
fregimus
Sep. 19th, 2011 06:39 am (UTC)
Re: немного нарциссическое
Если лексикон схлестнется с гуманизьмом, кто кого сборет?

А что у Вас не так с гуманизмом?
bangor_flying
Sep. 19th, 2011 07:03 am (UTC)
Причина в огромном числе заимствований -в максимально широком словарном составе английского языка наверняка окажутся и практически все латинские слова, и все французские (не забывая о том, что французский был там государственным несколько столетий), и греческий, испанский, итальянский, а также слова всех стран, где были английские/американские колонии, слова из языков эмигрантов США, карибские, австралийские и т.д. И все это могло когда-то кем-то употребляться
fregimus
Sep. 19th, 2011 07:31 am (UTC)
Когда-то кем-то — да, но в OED, говорят, не 200 ли тысяч слов без пометы «устар.».
(no subject) - bangor_flying - Sep. 19th, 2011 07:48 am (UTC) - Expand
alexandre_putt
Sep. 19th, 2011 09:38 am (UTC)
В английском свободное словообразование, т.е. новые слова свободно придумываются на ходу. Но вообще говоря сравнивать словари бессмысленнно, так как в разных языках отличается словообразование. И что считать словом? Можно конечно только на корни смотреть, но это тоже неправильно.
serendipitous_t
Sep. 19th, 2011 09:38 am (UTC)
для исследования "на выходные" можно сослаться на Ципфа, и то, что на окраинах большинства языков есть миллионы слов. На каждый underload в английском есть свой недозаправленный (реальные слова на границе списка в 200 тыс слов). Можно лекго оценить покрытие, например, первые 200 тыс слов в английском покрывают 95.87% английского интернета (включая и всех русских и китайских, пишуших на английском), для русского 95.32%. Разница коппечная. Для немецкого чуть поинтереснее: 92.45%, это за счет компаундов.
adlov
Sep. 19th, 2011 11:10 am (UTC)
Слово - это не научная "единица измерения", а условность, помогающая описывать некоторую часть языков мира. Поэтому один из ответов на поставленный Вами вопрос - "задача некорректно сформулирована"
_winnie
Sep. 19th, 2011 12:09 pm (UTC)
Можно попробовать смотреть на какие-нибудь гистограммы количества слов в книжках (гистограмму отношения количества уникальных к общему количеству). Только учесть русские падежи.

Можно попробовать построить модель распределения количества слов (типа закона Цыпфа и закона Хыпфа, только точнее), и оценить коэффициенты по части данных.

Ещё не очень понятно, ведь словарный запас Пушкина - не такой как словарь школьника. Можно ли интегрировать количество слов по всем носителям языка, и добавить туда ещё и суржик, и программисткий/моряцкий жаргон, и ..., где границы "языка" ?

Edited at 2011-09-19 12:14 pm (UTC)
_winnie
Sep. 19th, 2011 12:17 pm (UTC)
Ещё можно попробовать сжимать в zip-архив переводы книжек, считать энтропию необходимую для передачи сюжета. Если в одной книжке есть и motherhood+maternity, и голубой+синий, то энтропия увеличивается.

Это правда не "количество слов", но ведь что такое "слово" и "количество слов" никто и не знает.

Зато это способ оценить энтропию после проекции смысла на символы.

Edited at 2011-09-19 12:20 pm (UTC)
cmike
Sep. 19th, 2011 12:32 pm (UTC)
А ещё разница между entries и словарными статьями. Что из этих двух понятий считать словом?
Page 1 of 2
<<[1] [2] >>
( 64 comments — Leave a comment )