Как это работает? | Распознавание речи

Первые приборы для распознавания речи появились в 1952 году и могли распознавать произнесённые цифры. Спустя четыре десятилетия появились первые коммерческие программы, распознававшие речь человека. Они предназначались для людей, которым по физиологических особенностей не удавалось набирать текст вручную. Сейчас же функция распознавания речи встречается практически в любом смартфоне, она позволяет нам взаимодействовать голосом с приложениями, делая нашу жизнь проще и удобнее. Как же работает распознавание речи — об этом в сегодняшнем выпуске.

При голосовом запросе, к примеру, указать место назначения, смартфон будет слышать не улицу и номер дома, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не образуя чётких границ. Задача системы распознавания речи — восстановить по данному сигналу сказанное. Следует заметить, что одна и та же фраза, произнесённая разными людьми в разных условиях, будет давать сигналы, совершенно различающиеся между собой. Правильную их интерпретацию обеспечивает система акустического моделирования.

Как это работает? | Распознавание речи

После произнесения голосового запроса он записывается устройством и отправляется на серверы, где определяется уровень помех и выполняется шумоотчистка и выделение полезного сигнала. Затем запись делится на маленькие фрагменты (фреймы), например длиной 25 миллисекунд с шагом 10 миллисекунд, то есть внахлёст. Таким образом из одной секунды речи получается сто фреймов.

Как это работает? | Распознавание речи

Сначала каждый фрейм пропускается через акустическую модель. Система с машинным обучением определяет варианты произнесённых слов и контекст. Точность результатов напрямую зависит от полноты фонетического алфавита системы. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. Система распознавания сопоставляет входящий речевой сигнал с фонемами, а уже из них собирает слова. Например, фонетический алфавит Яндекса состоит из 4000 элементарных единиц, которые включают фонемы, их части и сочетания. Каждый фрейм сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Кроме того, система учитывает вероятности переходов, то есть определяет, какие фреймы могут идти следом за конкретной фонемой. Для этого применяются данные о произношении, морфологии и семантике. Таким образом система подбирает варианты слов, которые затем анализирует на формы, части речи и возможные статистические связи между ними.

Далее в процесс вступает языковая модель, при помощи которой система определяет вероятный порядок слов и при необходимости восстанавливает нераспознанные слова по смыслу, исходя из контекста и имеющейся статистики.

Как это работает? | Распознавание речи

В результате полученная информация поступает в основной блок системы распознавания — декодер. Этот программный компонент объединяет данные от акустических и языковых моделей и на основании их объединения выдает конечный результат в виде наиболее вероятной последовательности слов.

Благодаря машинному обучению системы устойчивы к шуму и умеют распознавать речь с акцентом. Точность современных систем распознавания речи превышает 90 процентов.

Источник

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Строительство и Производство