![]() |
![]() |
||
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
01.04.2012 Предложен новый метод машинного перевода — с помощью похожих языковЛуис Лейва и Висент Алабау из Политехнического университета Валенсии (Испания) предложили новый подход к машинному переводу, вдохновлённый «ситиспиком» из фильма «Бегущий по лезвию». Как вы, конечно, помните, на улицах Лос-Анджелеса в 2019 году принято изъясняться на смеси японского, испанского, немецкого, венгерского, китайского, французского, корейского и чёрт знает какого. Так вот, наши герои разработали систему Culturally Influenced Interlanguage (CI2), которая, по сути, изобретает новые языки. Она не переводит в традиционном смысле этого слова, просто делает фразу понятной. Итог почти никогда не бывает грамматически и синтаксически правильным, зато понятен. Зачем это всё? По одной простой причине: хотя машинным переводом охвачено уже солидное количество языков, в стороне остаются тысячи, которые ничем не хуже, просто у них не очень много носителей или же они не играют большой роли в современном межкультурном общении. Например, представьте, что испанский — язык меньшинства, и его носитель хочет прочитать вот такое сообщение, выдаваемое операционной системой компьютера по-английски: «Another label with the same name already exists» («Ярлык с таким названием уже существует»). Поскольку испанский в нашем примере — язык меньшинства, он не охвачен создателями автоматических переводчиков. Зато они уже уделили внимание языкам, похожим на испанский, — итальянскому, португальскому и французскому. CI2 выбирает наиболее подходящие эквиваленты из этих языков, и получается следующее: «Un'altra e'tiquette con mesmo nome existe de'ja`». Конечно, это не испанский, но испанец должен понять, что имеется в виду. Слова отбираются по количеству совпадающих букв. Так, в итальянском и испанском есть слово «con» (предлог «с»), поэтому оно получает коэффициент 1, а итальянское слово «nome» («название») оценивается лишь в 0,79, так как в испанском оно звучит как «nombre». Но лучше ничего нет. Систему протестировали на 17 испанцах, которые читали предложения на шведском, «переведённые» с помощью итальянских, португальских и французских слов. Кроме того, им были предложены переводы на эти языки. Добровольцам было проще понять версию CI2, чем итальянский и французский переводы. Хорошо шёл также португальский — из-за большого сходства с испанским. Теперь авторы собираются испытать разработку на носителях какого-нибудь маленького языка. Возможно, именно это спасёт «малышей», которым сегодня угрожает новая напасть — Интернет. Проект анонсируют на Конференции по вопросам человеческого фактора в компьютерных системах, которая пройдёт в мае в Остине (США). Подготовлено по материалам NewScientist. P. S. Индустрия машинного перевода активно развивается. Среди новаторов замечена латвийская фирма Tilde, онлайновая система которой называется LetsMT!. В её основе тот же принцип, которым славится и Google Translate, — сравнение большого количества документов на разных языках. Не устраивает «Гугл»? Загружайте документы самостоятельно и создавайте собственный переводчик! Мировая премьера ожидается на апрельской конференции World Wide Web во французском Лионе. Источники: |
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
|
![]() |
|||
© GENLING.RU, 2001-2021
При использовании материалов сайта активная ссылка обязательна: http://genling.ru/ 'Общее языкознание' |