Как это работает? | Машинный перевод

Впервые была высказана идея использования электронно-вычислительных машин для перевода текстов в США, сразу после появления первых ЭВМ, в 1947 году. Первая публичная демонстрация машинного перевода произошла в 1954 году. Та система была крайне примитивной: словарь насчитывал всего 250 слов, существовало 6 грамматических правил и она могла перевести лишь несколько простых фраз. Но эксперимент вызвал широкий резонанс: исследования начались по всему миру, в том числе в СССР. Как же устроена современная система машинного перевода — об этом в сегодняшнем выпуске!

В основе современных систем лежит алгоритм перевода, опирающийся на формальную грамматику языков и статистические данные. Чтобы освоить язык, система сопоставляет тысячи параллельных текстов — содержащих одну и ту же информацию, но на разных языках. Для каждого изучаемого текста система формирует перечень характерных признаков. Например, редкие слова и особые знаки, которые встречаются в тексте с заданной частотой.

Как это работает? | Машинный перевод

В системах машинного перевода обычно выделяют три основных компонента: модель перевода, языковую модель и декодер. Модель перевода — это таблица, в которой для всех слов и фраз на одном языке перечислены варианты переводов на другой язык с указанием вероятности. Система учитывает не только отдельные слова, но и словосочетания из нескольких слов, идущие подряд. Модели перевода для каждой пары языков содержат миллионы словарных пар и сочетаний. Что касается языковой модели, то она создаётся самой системой на этапе изучения текстов.

Перевод осуществляет декодер. Он выполняет морфологический и синтаксический разбор текста и для каждого предложения подбирает все варианты перевода, упорядочивая их по убыванию вероятности. Затем декодер оценивает полученные варианты с помощью языковой модели по частоте употребления и выбирает формулировку с наилучшим компромиссом вероятности и встречаемости.

Как это работает? | Машинный перевод

Системы машинного перевода можно использовать не только для обработки текстов, но и для перевода отдельных слов. Они оснащены полноценными словарями с детальными карточками слов и устойчивых выражений. Эти карточки формируются на основе статистических данных и правил языка. Для машинного словаря отбираются только словарные формы слов и устойчивые выражения. Система проводит морфологический и синтаксический анализ, определяет часть речи, словарную форму слова и устанавливает границы словосочетаний. Эта информация помогает отсеивать неполные словосочетания. Чтобы избегнуть ошибок и опечаток, алгоритм на базе машинного обучения проверяет все потенциальные пары переводов и исключает ненадёжные.

Близкие по смыслу переводы группируются системой с помощью словарей синонимов. В них попадают слова, которые часто переводятся на другой язык одинаково или образуют устойчивые сочетания с одинаковыми словами. В итоге машинный словарь получает всё необходимое знание о каждом слове и выражении: его словарную форму, часть речи, значения и синонимы. Некоторые системы для наглядности добавляют к переводам примеры из параллельных текстов.

Как это работает? | Машинный перевод

Использование статистических данных позволяет системам машинного перевода адаптироваться к языку. Если носители начинают писать какое-то слово иначе, система замечает это по мере поступления новых текстов. Чтобы повысить качество перевода, систему регулярно обновляют и проводят проверки. Однако полноценный высококачественный машинный перевод текстов всё ещё недостижим, зато он заметно облегчает и ускоряет работу переводчикам.

Источник

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Строительство и Производство