Присоединяйтесь к нашим группам

Понимают с полуслова: программы для распознавания голоса

Понимают с полуслова: программы для распознавания голоса
Когда-то для того, чтобы найти нужную информацию, нам приходилось идти в библиотеку и просить книгу по данной тематике. За последние несколько десятилетий наука шагнула далеко вперёд, и нам уже не нужно тратить столько времени на поиски. Сегодня для ещё большего упрощения задачи специалисты IT-сферы разработали программы для распознавания голоса, о которых мы сейчас и поговорим.
22 10 2015
16:11

История распознавания речи началась с 1952 году, но лишь через 12 лет появился первый, пока ещё не коммерческий, прототип устройства с подобным функционалом от IBM. В потребительском сегменте гаджеты, выполняющие эту функцию, появились только в 90-х годах и использовались людьми с ограниченными по какой-либо причине возможностями. По большому счёту они играли роль личных наборщиков текста, но в отличие от живых людей им не нужно было перерывов и выходных.

Сегодня устройства канули в небытие, уступив место ПО, устанавливаемому на компьютер или мобильный телефон пользователя.

Как устроена программа по распознаванию речи?

ПО такого типа всегда включает в себя несколько составляющих: модуль по отделению голоса от внешних шумов, анализатор звука (акустическая модель), алгоритм подбора наиболее вероятных лексических единиц (языковая модель) и компонент, объединяющий данные, полученные на предыдущих двух этапах (декодер). В итоге распознавание происходит следующим образом.

Пользователь запускает программу, которая в тот же момент начинает вести запись акустического фона через устройство для улавливания звуков (обычно – просто микрофон). Полученную дорожку программа может хранить начиная от нескольких минут и заканчивая неделями и месяцами – в зависимости от задумки разработчиков, причём как на вашем устройстве, так и в облаке, куда теоретически может получить доступ любой технически подкованный специалист. Но не будем о грустном. После запуска программы её владелец начинает проговаривать необходимый текст. От его дикции, скорости речи, а также тональности голоса зависит то, как программа будет его интерпретировать. Для того чтобы программа определила голос, необходимо, чтобы он совпал с рисунком звуков, записанных в её память, так что чем медленнее и разборчивее вы говорите, тем точнее будет результат. Исходя из наиболее вероятных соединений звуков, слов и словосочетаний, языковая модель строит предполагаемую модель фразы, которая, проходя через декодер, и появляется на экране. Весь процесс занимает несколько секунд – куда меньше, чем вы затратили на прочтение этого абзаца.

Теперь немного поговорим о том, какие наиболее популярные продукты сегодня включают распознавание голоса.

O’key, google!

 

В последнее время ПО для распознавания голоса создаётся не столько для записи текста, сколько для быстрого поиска информации в интернете, в то время как у пользователя заняты руки. Такой продукцией является и голосовой поиск от Google. Плюсом программы является то, что она активируется не по клику мышки, а по голосовой команде, представленной выше. Как это возможно? Вывод прост, как всё гениальное – она просто не выключается и работает всегда, когда открыт браузер. Если вас это не устраивает, то вы можете просто отключить микрофон на своём компьютере, иначе все ваши разговоры будут записаны с одной только целью – услышать заветный сигнал и приступить к выполнению обязанностей.

То же касается и мобильных платформ. Владельцы телефонов на Android могут похвастаться программой Cortana, а счастливые обладатели IPhone – Siri. Обе программы не только выполняют обработку голоса, но также представляют собой сложный механизм, который объединяет все данные телефона, а также подключается к сети интернет и может реализовывать сложную интеграцию со всеми знаниями мира. Правда, практическое использование их обычно ограничивается поиском ближайшего кафе, магазина или гостиницы.

Вот таким путём идёт сегодня развитие технологии распознавания голоса. Ищите самое интересное любыми путями!

Дмитрий Потапкин, специально для Обзор.press.