September 23rd, 2010

bugsy

Квашня Летняя

Эх, бросить бы все и уехать в Квашню Летнюю!

Full Name: Квашня Летняя
Roman Name: Kvashnya Letnyaya
Primary Country Code: RS (Russia)
First-order administrative division code: 20 (Irkutskaya Oblast')
Region Font Code: 4 (Russia/ Central Asia)
Unique Feature Identifier: 10375001
Unique Name Identifier: 10827656
Latitude in decimal degrees: 52.4233
Longitude in decimal degrees: 105.309
Latitude in degrees, minutes, and seconds: 52° 25' 24" N
Longitude in degrees, minutes, and seconds: 105° 18' 32" E
Military Grid Reference System coordinates: 48UWD2101208165
Joint Operations Graphic reference: NN48-11
Feature Classification: H (Hydrographic type feature)
Feature Designation Code: STM (stream)
Populated Place Classification: No data
Second-order administrative division code: No data
Population Figures: No data
Elevations: No data
Secondary Country Code: No data
Name Type: NS (BGN Standard name in non-Roman script )
Language Code: rus (Russian)
Substitute for full name: No data
Descriptive part of the full name: No data

The information regarding Квашня Летняя in Russia on this page is published from the data supplied by the National Geospatial-Intelligence Agency, a member of the Intelligence community of the United States of America, and a Department of Defense (DoD) Combat Support Agency.
oak

Козловремя машинного перевода

Давно собирался поинтересоваться вашим мнением о состоянии дел в области машинного перевода, а тут как раз сообщение на эту тему в Language Log. Значит, пора.

Вкратце, некто задает вопрос в рассылке, посвященной, как я понимаю, установке какой-то сложной программы (оригинал на англ. по ссылке выше, перевод мой):
Это вопрос, английский неисправен следовательно запрашивается право извиненное. Спасибо гуголу переводить, чтобы помогать. ИЗВИНИТЕ!!!

В часто, козловремя установка ошибка есть рвота. К сколько раз как ветер, столб и дракон? Установи 2,3 повтори, отшлепай, рвота бьет

14:14:01.869 - INFO
[edu.internet2.middleware.shibboleth.common.config.profile.JSPErrorHandlerBeanDefinitionParser:45]
- Parsing configuration for JSP error handler.

Не точный рвота но с аспектом подобным, рвота спрятана в складку козловремени пиломатериалов. козловремя увидь как ветер, столб и дракон? Это оскорбление камней отца? JSP error handler с ветром, столбом, драконом со сношением к козловремени? Или случайное неумение обращаться с козловременем?

Пожалуйста извинитесь за вашу тупость. Существует много спасибо.
Теперь попытаюсь изложить свой вопрос. Известно, что «Гугол» реализует статистический перевод текста. В двух словах, идея этого подхода такова: статистической моделью находятся общие места в тысячах, если не миллионах пар книг и прочих текстов, переведенных переводчиками, а потом эта статистическая модель экстраполирует то, как будет выглядеть пара к предъявленному, но невиданному ей ранее тексту. Здесь краткая запись с очень популярным объяснением (англ.) того, как работает гугoлопереводчик.

Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».

И еще мне кажется, что «Гугол», с его объемами данных, приблизился практически к потолку возможностей этого метода. Не хочу говорить, что я абсолютно непредвзят — я не сижу, не потираю рук, не бубню «вот, я же говорил!», но, возможно, где-то в глубине мало известная мне часть меня и потирает, и бубнит. Поэтому мне и интересно, что думают по этому поводу те, кто в теме: ждать нам существенного улучшения качества статперевода, или все-таки для решения этой задачи нужен более сильный ИИ, понимание того, как образуется язык, как он выучивается детьми, что есть такое и как получается понимание, и так далее? Повторюсь, я придерживаюсь последней точки зрения, но потенциально вполне готов быть переубежден.