Наука и технологии33

Как это работает: машинный перевод иноязычных текстов

7 января 1954 года в штаб-квартире корпорации IBM в Нью-Йорке состоялся так называемый «Джорджтаунский эксперимент», в ходе которого был успешно продемонстрирован полностью автоматический перевод нескольких десятков предложений с русского языка на английский.

Перевод был примитивным: на основе словаря из 250 слов и 6 правил. Поэтому система могла перевести только несколько самых примитивных фраз. Но целью было привлечь внимания к машинному переводу и продемонстрировать его перспективность.

Теперь, благодаря интернету, каждое незнакомое слово или фразу можно за несколько секунд перевести на родной язык, и этот перевод получится довольно точный. Что же изменилось с тех пор? Какой сейчас принцип работы автоматических переводчиков и какое будущее у живых переводчиков-профессионалов?

Современные онлайн-переводчики (самый известный из которых — Google Translate) используют статистический машинный перевод, в процессе которого компьютерная программа анализирует огромный массив текстов, переведенных людьми, использует словари и грамматику в цифровом формате. Звучит сложно? Давайте разбираться.

Огромный массив текстов состоит из большого количества языковых пар — текстов, которые имеют две точные языковые версии (переведенные человеком). В качестве таких текстов обычно используются официальные документы мультиязычных стран, где перевод документации обязателен на все государственные языки. Такие переводы всегда совершенны, так как государственные документы решают судьбу отдельных людей и страны в целом. Очень полезными оказались и многоязычные документы, выпускаемые ООН.

Анализируя пары текстов, система «учится», усваивая с каждым разом все больше новых правил. Таким образом строится модель языка.

Каждая система автоматического перевода имеет модель перевода — «словарь», в котором для всех слов и фраз на одном языке перечислены возможные переводы на другой язык с указанием вероятности этих переводов. Модели перевода для каждой пары языков содержат миллионы пар слов и словосочетаний.

Если вы переводите с английского языка, например, на белорусский, будут задействованы две языковые пары: белорусский-русский и русский-английский. То есть сначала текст переводится с английского на русский, а потом — с русского на белорусский.

Такой путь наиболее рационален, так как документов, которые бы имели безукоризненные английскую и белорусскую версии — немного, и прямой перевод с английского на белорусский получался бы очень некачественным по причине недостаточной «обученности» системы.

Непосредственно переводом занимается декодер — алгоритм, который проводит анализ текста и для каждого слова подбирает все варианты перевода, упорядочивая в порядке убывания вероятности. Затем все полученные варианты декодер оценивает с помощью модели языка на частотность употребления и выбирает предложение с лучшим сочетанием вероятности и частотности.

К сожалению, в настоящее время нет сервиса автоматического перевода, который бы мог перевести текст с такой же точностью, как и человек-переводчик. Но уже сейчас некоторые компании внедряют в машинный перевод нейронные сети, которые значительно улучшают его качество.

Поэтому можно предположить, что с течением времени специалисты-переводчики будут нужны только для создания сложных художественных переводов, что значительно сократит численность людей, занятых в этой сфере. Но вряд ли это близкая перспектива. А как считаете вы?

Читайте также:

Следующая революция в информатике — нейронные сети

Комментарии3

 
Нажатие кнопки «Добавить комментарий» означает согласие с рекомендациями по обсуждению.

Сейчас читают

Впервые за четыре года Белстат опубликовал данные о рождаемости и смертности. Цифры ужасают39

Впервые за четыре года Белстат опубликовал данные о рождаемости и смертности. Цифры ужасают

Все новости →
Все новости

В КС выбирают вице-спикера. Дебатов не получилось, так как баллотировалась только Елизавета Прокопчик7

Тихановская: Каждый год, 21 мая, сердце сжимается от боли13

Трамп объявил о создании новой противоракетной обороны США «Золотой купол», которая должна стать лучшей в мире5

Грузия полностью запретила реэкспорт авто в Россию и Беларусь. Что это означает для белорусов на практике?9

В Минске водитель сбил на переходе семилетнего мальчика на самокате1

Власти Испании требуют от Airbnb удалить более 60 тысяч объявлений о аренде жилья1

Ученый рассказал о геологических загадках Беларуси: ртуть из земли и кратер от падения метеорита, который уничтожил все живое в радиусе тысяч километров9

Туск: Польша не отправит войска в Украину, это окончательное решение18

Руководитель «Евроопта» вышел на свободу4

больш чытаных навін
больш лайканых навін

Впервые за четыре года Белстат опубликовал данные о рождаемости и смертности. Цифры ужасают39

Впервые за четыре года Белстат опубликовал данные о рождаемости и смертности. Цифры ужасают

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць