Говорите со смартфоном по-русски: благодаря Yandex SpeechKit

Компания «Яндекс» продолжает развивать собственные технологии голосового интерфейса, которые призваны помочь владельцам смартфонов и планшетов удобнее управлять различными мобильными приложениями.

В ходе конференции YaC 2013 представители Яндекса Александр Панин и Денис Филиппов провели презентацию одного из продуктов оригинальной разработки.

Yandex SpeechKit

Представленный облачный сервис SpeechKit ориентирован на выполнение задач мобильного поиска. Он может быть встроен в мобильные приложения, работающие на платформах Android и iOS.

На сегодняшний день SpeechKit умеет предельно точно и четко распознавать русскую речь, «понимая» смысл фраз, содержащихся в большей части наиболее типичных поисковых запросов. Для формирования библиотеки, был проведён анализ около 300 часов поисковых запросов на русском языке, произнесённых мужскими, женскими и детскими голосами.

Наиболее заметные успехи у SpeechKit были зафиксированы в области распознавания различных географических терминов, названий городов и улиц. В сфере топографии эффективность работы алгоритма оценивается в 94 %. Несколько хуже обстоит дело с пониманием поисковых запросов общего характера, тут SpeechKit надёжно распознаёт 84 % фраз.

На определенном этапе работы SpeechKit, расшифрованные голосовые фразы преобразуются в текст и передаются в окно поиска. Как показывает собранная статистика, на выполнение задачи сервису требуется, в среднем, 1.1 секунды.

«Яндекс» планирует применять новую технологию для создания собственных голосовых интерфейсов, а также предоставлять доступ к библиотеке SpeechKit разработчикам сторонних приложений.

Уже сейчас модуль SpeechKit доступен для встраивания в любые программы, работающие под управлением мобильных операционных систем iOS и Android. Скачать его можно на странице «Яндекс.Технологий».

Стоит также отметить, что использовать новый облачный сервис распознавания голоса можно совершенно бесплатно при условии, что общее число запросов для одного приложения составляет менее 10 000 в сутки.

Когда несколько лет назад началось бурное развитие мобильного интернета, перед веб-компаниями встала задача создания голосовых интерфейсов. На сегодняшний день, в активе ведущих игроков мирового рынка IT имеются успешные разработки в этой сфере. Вместе с тем, эффективность действующих алгоритмов в деле распознавания русской речи пока относительно невелика.