?

Log in

No account? Create an account

Previous Entry | Next Entry

Давно собирался поинтересоваться вашим мнением о состоянии дел в области машинного перевода, а тут как раз сообщение на эту тему в Language Log. Значит, пора.

Вкратце, некто задает вопрос в рассылке, посвященной, как я понимаю, установке какой-то сложной программы (оригинал на англ. по ссылке выше, перевод мой):
Это вопрос, английский неисправен следовательно запрашивается право извиненное. Спасибо гуголу переводить, чтобы помогать. ИЗВИНИТЕ!!!

В часто, козловремя установка ошибка есть рвота. К сколько раз как ветер, столб и дракон? Установи 2,3 повтори, отшлепай, рвота бьет

14:14:01.869 - INFO
[edu.internet2.middleware.shibboleth.common.config.profile.JSPErrorHandlerBeanDefinitionParser:45]
- Parsing configuration for JSP error handler.

Не точный рвота но с аспектом подобным, рвота спрятана в складку козловремени пиломатериалов. козловремя увидь как ветер, столб и дракон? Это оскорбление камней отца? JSP error handler с ветром, столбом, драконом со сношением к козловремени? Или случайное неумение обращаться с козловременем?

Пожалуйста извинитесь за вашу тупость. Существует много спасибо.
Теперь попытаюсь изложить свой вопрос. Известно, что «Гугол» реализует статистический перевод текста. В двух словах, идея этого подхода такова: статистической моделью находятся общие места в тысячах, если не миллионах пар книг и прочих текстов, переведенных переводчиками, а потом эта статистическая модель экстраполирует то, как будет выглядеть пара к предъявленному, но невиданному ей ранее тексту. Здесь краткая запись с очень популярным объяснением (англ.) того, как работает гугoлопереводчик.

Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».

И еще мне кажется, что «Гугол», с его объемами данных, приблизился практически к потолку возможностей этого метода. Не хочу говорить, что я абсолютно непредвзят — я не сижу, не потираю рук, не бубню «вот, я же говорил!», но, возможно, где-то в глубине мало известная мне часть меня и потирает, и бубнит. Поэтому мне и интересно, что думают по этому поводу те, кто в теме: ждать нам существенного улучшения качества статперевода, или все-таки для решения этой задачи нужен более сильный ИИ, понимание того, как образуется язык, как он выучивается детьми, что есть такое и как получается понимание, и так далее? Повторюсь, я придерживаюсь последней точки зрения, но потенциально вполне готов быть переубежден.

Comments

( 89 comments — Leave a comment )
galochkin
Sep. 24th, 2010 06:33 am (UTC)
не очень понял про пары, почему пары?
fregimus
Sep. 24th, 2010 06:48 am (UTC)
А как иначе натренировать модель на перевод? Вот «Война и мир» по русски, вот она же по-английски, и так много раз, много других билингв. А потом показываете неизвестный текст по-русски. Разве нет?
(no subject) - galochkin - Sep. 24th, 2010 06:52 am (UTC) - Expand
edo_rus
Sep. 24th, 2010 06:50 am (UTC)
у меня ощущение, что качество перевода у гугла со временем ухудшается, возможно "обучают" его неправильно.
fregimus
Sep. 24th, 2010 06:57 am (UTC)
Тут бы какую-нибудь объективную меру выдумать, тогда можно и следить за тем, как качество меняется во времени. Неплохой проект для курсовой, кстати.
rruben
Sep. 24th, 2010 06:57 am (UTC)
Мне кажется тут ошибка не в базе, а в самом алгоритме работы — он же подставляет наиболее популярные варианты (хотя козловремя как-то непохоже), а это оказывается неверным.

Кстати говорят такой метод как-то прямо феноменально работает в качестве корректора текста.
fregimus
Sep. 24th, 2010 07:05 am (UTC)
В принципе, статистические модели обычно «дальнодействующие», они берут в расчет и далекий контекст. Поэтому варианты выбираются разные в зависимости даже от дальнего контекста. Разумеется, объем этого контекста может ограничиваться практическими возможностями, но, думаю, что гуголов переводчик все-таки реализует лучшие из алгоритмов с меньшим числом компромиссов. На науку они не скупятся.

Насчет корректора Вас наверняка обманули, или я совсем не понимаю,что имеется в виду по корректором.
(no subject) - rruben - Sep. 24th, 2010 07:11 am (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 07:32 am (UTC) - Expand
plakhov
Sep. 24th, 2010 07:12 am (UTC)
Но это же шутка, разве нет? По крайней мере оригинал никто не предъявил, как я понял.

Насчет возможностей "этого метода" - непонятно, какого "этого", и где его границы. По моим ощущениям, Google еще даже не приступал ни к снятию омонимии (т.е., в рамках данного подхода, к выбору не просто "самого распространенного" варианта перевода слова/словосочетания, а одного из, с учетом тематики текста), ни к внедрению выделенных алгоритмов для перевода имен собственных и брендов. Должно сразу стать гораздо лучше, по крайней мере в отношении пиломатериалов, которые log'и и всяких Norton'ов-Касперских. А пока не потолок.
fregimus
Sep. 24th, 2010 07:30 am (UTC)
В каждой шутке есть доля шутки. Помните штоссель, да? Тоже непонятный перевод, никаких шуток.

Я знаю, что Вы в теме. Скажите, я правильно понимаю Вас: гугол реализует простенькие алгоритмы многолетней давности, а на более сложное или поздние исследования пока внимания не обращает? То есть, все это не state of the art, а ваянный на коленке вчерашний день?

Тогда возникает интересный вопрос — почему же никто не занимается машинным переводом серьезно? Кажется, что качество у гугола едва ли не лучше, чем у прочих. Не знаете, в чем тут беда? Просто болото, нет конкуренции, нет спроса на переводчики более высокого качества? Это пугает — если публика не желает лучшего, значит, через 10 лет это и будет называться переводом…

В японском нет омонимии между «бревном» и «журналом», говорят.
(no subject) - slobin - Sep. 24th, 2010 07:59 am (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:25 am (UTC) - Expand
l_i_d_y_a
Sep. 24th, 2010 07:32 am (UTC)
Мне кажется, гугл-переводчик тем и прекрасен, что демонстрирует чистый статистический метод. Думаю, дальше они будут двигаться в сторону привлечения словарной информации (если уже не начали) и грамматических правил. Так, кстати, было с самим гугл-поиском - сначала они использовали чистую статистику, но со времени прикрутили таки морфологию для русского и вообще флективных языков.

Переводчик в его нынешнем виде может быть полезен именно как веб-сервис. Для навигации в японском интернете, например. И стандартные для веба фразы (типа "на главную"), он переводит достаточно хорошо именно потому, что для таких фраз у него достаточная база.
fregimus
Sep. 24th, 2010 07:45 am (UTC)
Если верить записи в гуглоблоге, то они как раз двигаются в сторону от правил языка к статистике. Но это если верить, конечно.
(no subject) - l_i_d_y_a - Sep. 24th, 2010 07:52 am (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:13 am (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 24th, 2010 08:18 am (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:21 am (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 24th, 2010 08:37 am (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:38 am (UTC) - Expand
(no subject) - bvn_mai - Sep. 24th, 2010 09:38 am (UTC) - Expand
(no subject) - darth_vasya - Sep. 24th, 2010 10:05 am (UTC) - Expand
(no subject) - bvn_mai - Sep. 24th, 2010 11:37 am (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 06:49 pm (UTC) - Expand
(no subject) - bvn_mai - Sep. 24th, 2010 08:00 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:47 pm (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 24th, 2010 10:44 am (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 06:28 pm (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 24th, 2010 06:46 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 06:50 pm (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 24th, 2010 07:50 pm (UTC) - Expand
(no subject) - bvn_mai - Sep. 24th, 2010 08:16 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:46 pm (UTC) - Expand
(no subject) - bvn_mai - Sep. 25th, 2010 07:11 pm (UTC) - Expand
(no subject) - bvn_mai - Sep. 24th, 2010 08:09 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:44 pm (UTC) - Expand
(no subject) - bvn_mai - Sep. 25th, 2010 07:15 pm (UTC) - Expand
(no subject) - bvn_mai - Sep. 25th, 2010 08:48 pm (UTC) - Expand
(no subject) - fregimus - Sep. 25th, 2010 10:06 pm (UTC) - Expand
(no subject) - bvn_mai - Sep. 27th, 2010 01:01 pm (UTC) - Expand
(no subject) - cobetbi - Sep. 24th, 2010 12:08 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 06:51 pm (UTC) - Expand
(no subject) - cobetbi - Sep. 24th, 2010 07:18 pm (UTC) - Expand
(no subject) - cobetbi - Sep. 24th, 2010 07:33 pm (UTC) - Expand
(no subject) - l_i_d_y_a - Sep. 24th, 2010 07:53 pm (UTC) - Expand
(no subject) - cobetbi - Sep. 24th, 2010 09:03 pm (UTC) - Expand
kmmbvnr
Sep. 24th, 2010 07:36 am (UTC)
Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».

Перевод гугла:

So, I never believed that a quality machine translation is possible on the basis of this approach. My opinion - the language is so smooth, and the multidimensional space of possible texts extensively so that even a billion pairs of translated books cover only a tiny part of it. Therefore, the predictive capabilities of statistical models is limited by the practical capacity of their "educational material".

А теперь обратно, тоже гуглом:

Так, я никогда не верил, что качество машинного перевода можно на основе этого подхода. Мое мнение - язык настолько гладкая, и многомерном пространстве возможных текстов широко, так что даже миллиардов пар перевод книги охватывают лишь небольшую часть его. Таким образом, возможности интеллектуального статистических моделей ограничено практического потенциала их "учебного материала".
kmmbvnr
Sep. 24th, 2010 07:41 am (UTC)
Т.е. эпический фейлы на обычных текстах наблюдаются редко. А проблема согласования слов, она видимо за пределами статистического подхода.

Что касается примера из рассылки, как верно отмечено в комментариях, автоматический переводчик орфографических ошибок не совершает.
(no subject) - fregimus - Sep. 24th, 2010 07:49 am (UTC) - Expand
bdag_med
Sep. 24th, 2010 08:33 am (UTC)
тут мне слух рассказывали, что Брин сказал нечто вроде "когда я увольняю лингвиста, качество улучшается" :) Речь идет именно о том, что лингвисты любят грамматики.
fregimus
Sep. 24th, 2010 08:36 am (UTC)
Думаю, у Брина лингвистов столько нет, чтобы до приличного качества перевод доувольнять.
(no subject) - l_i_d_y_a - Sep. 24th, 2010 08:39 am (UTC) - Expand
(no subject) - bdag_med - Sep. 24th, 2010 08:46 am (UTC) - Expand
aamonster
Sep. 24th, 2010 10:41 am (UTC)
А вы уверены, что гугл использует только тупые статистические модели? Я лично сомневаюсь: логично и сразу заложить некоторые правила, и (если хватит силёнок) реализовать вывод-проверку-использование гипотез о правилах (ну там, машина подмечает, как используются существительные, и объединяет их в один класс - чтобы потом можно было использовать слово из этого класса в качестве подлежащего).
fregimus
Sep. 24th, 2010 06:30 pm (UTC)
Вы интересные меня вопросы спрашиваете. Как я могу быть уверен? Это то, что они сами утверждают.
pingback_bot
Sep. 24th, 2010 11:15 am (UTC)
No title
User allambee referenced to your post from No title saying: [...] обращаться с козловременем? Пожалуйста извинитесь за вашу тупость. Существует много спасибо. from [...]
X.A.R. [shmidt.net]
Sep. 24th, 2010 11:15 am (UTC)
Переводить типовые куски текста в типовые куски текста. Не для того ли, вообще, существует техника, чтобы выполнять рутинную работу?
А качество будет лучше. Маховик Гугла, вроде, только раскручивается.
Переводить стихи никто не просит. Но перевести статью, написанную обычным средним журналистом со стандартными журналистскими штампами - почему нет?
fregimus
Sep. 24th, 2010 06:34 pm (UTC)
Не существует типовых кусков текста. Для примера: предыдущее предложение еще ни разу не было написано в Сети. Я первый, я первый, дайте мне медаль. А в ней всего 5 слов, между прочим.

Вам кажется, что «вроде раскручивается», а мне, я уже сказал об этом, — что он достиг максимальных оборотов. Мне бы тут как раз аргументы хотелось услышать посильнее, чем «кажется».

Из статьи смысл немного исчезает при переводе: http://fregimus.livejournal.com/119169.html?thread=2832513#t2832513
(no subject) - X.A.R. [shmidt.net] - Sep. 24th, 2010 06:51 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 06:53 pm (UTC) - Expand
p_govorun
Sep. 24th, 2010 11:18 am (UTC)
Гугл переводит "Белеет парус одинокий" как "The long and winding road". И я считаю, что в чём-то он прав :-)
fregimus
Sep. 24th, 2010 06:38 pm (UTC)
Починили уже, но хорошо, хорошо. Не те тексты параллельно легли.
(no subject) - l_i_d_y_a - Sep. 24th, 2010 07:57 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 08:56 pm (UTC) - Expand
(no subject) - p_govorun - Sep. 24th, 2010 09:51 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 09:54 pm (UTC) - Expand
(no subject) - p_govorun - Sep. 24th, 2010 10:39 pm (UTC) - Expand
(no subject) - fregimus - Sep. 25th, 2010 12:29 am (UTC) - Expand
А добавьте запятую - (Anonymous) - Sep. 25th, 2010 09:15 am (UTC) - Expand
Re: А добавьте запятую - fregimus - Sep. 25th, 2010 10:05 am (UTC) - Expand
(Deleted comment)
fregimus
Sep. 24th, 2010 06:45 pm (UTC)
Значит, главное препятствие в том, что программы пишут программисты. Я в целом-то согласен, но не думаю, что здесь что-то скоро поменяется.
(Deleted comment)
(no subject) - fregimus - Sep. 24th, 2010 08:53 pm (UTC) - Expand
(no subject) - adlov - Sep. 24th, 2010 09:25 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 09:42 pm (UTC) - Expand
(no subject) - adlov - Sep. 24th, 2010 10:05 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 10:13 pm (UTC) - Expand
(no subject) - adlov - Sep. 24th, 2010 10:47 pm (UTC) - Expand
(no subject) - fregimus - Sep. 24th, 2010 11:18 pm (UTC) - Expand
(no subject) - adlov - Sep. 24th, 2010 11:54 pm (UTC) - Expand
(no subject) - adlov - Sep. 24th, 2010 11:56 pm (UTC) - Expand
(no subject) - fregimus - Sep. 25th, 2010 12:26 am (UTC) - Expand
Дописал у себя ) - adlov - Sep. 25th, 2010 12:48 am (UTC) - Expand
Re: Дописал у себя ) - adlov - Sep. 25th, 2010 12:51 am (UTC) - Expand
Re: Дописал у себя ) - fregimus - Sep. 25th, 2010 12:56 am (UTC) - Expand
Re: Дописал у себя ) - adlov - Sep. 25th, 2010 01:12 am (UTC) - Expand
t1nix
Sep. 26th, 2010 05:34 pm (UTC)
С какого языка на русский был сделан перевод представл
По специфике работы, мне часто приходится разбираться с кусками текста на нехнакомых языках, поэтому я много работаю с гугол транслейтом. Исходя из субъктивного восприятия, заметил несколько паттернов:
- с романо-германских языков (немецкий, дацкий, французский, фломандский ...) на английский гугл переводит хорошо
- со всех остальных на английский гугл переводит несколько хуже
- с любого на неанглийский гугл перевод плохо.

Я понимаю, что этого недостаточно для выводов, но может стоит винить размер базы переводов с конкретного языка на конкретный? Я полгаю, переводов на аглийский и с английского больше всегоо вииду популярности языка, поэтому переводы в даной последовательности лучше. Со случайного языка на случайный ( с русского на китайский) очень мало, поэтому и качество перевода малое.
fregimus
Sep. 26th, 2010 06:15 pm (UTC)
Это один из самых важных факторов, несомненно.
Rainaldo Anonimato [isopenid.ru]
Oct. 12th, 2010 03:46 pm (UTC)
Стоп-стоп-стоп...
Прочитал всё - но только изумился: о чём, собственно, тут вообще идёт речь??!

Но ведь очевидно же, что и человеку в его собственной практике - недоступен "перевод", который превосходил бы "машинный". Скажем, "синхронный перевод" обычно - значительно хуже качеством, если б не два изредка выручающих "но": владение переводчиками навыками имитации (меня самого им в своё время обучали: умению, "отстав от поезда", тем не менее "выкрутиться" дежурными обтекаемыми и пустыми внутри "формулами") - и, на другом полюсе, редкостный высочайший класс, когда синхронист успевает не делать перевода, а понять и пересказать всё.

Смею утверждать, что для нормальных живых языков - "перевод" (то есть преобразование текста по каким-то формальным или неформальным алгоритмам и правилам с одного языка на другой) - вообще невозможен (компьютер исполнит его, конечно, лучше человека, но адекватной цели достигнуть тоже не сможет).

Всё, что может считаться "адекватным решением" - это ни в коем случае не "перевод" (в указанном смысле), а - комбинация двух задач и процессов:
1) понять и осмыслить сказанное/написанное (на одном из языков)
и
2) сочинить-выразить-высказать заново "тот же смысл и отчасти форму" (на другом языке).

Конечно же, успех в этом деле компьютера - не может предшествовать тому, чтобы означенный ИИ прежде не научился свободно "понимать" и свободно "говорить": перезапрячь эту "телегу" в другом порядке попросту бессмысленная затея.

Как бы кому-либо ни мечталось "зайти через... гм... альтернативный проход"...
( 89 comments — Leave a comment )