ВКонтакте улучшила распознавание голосовых сообщений

По словам официальных представителей ведущей российской социальной сети ВКонтакте внедрение в работу технологии распознавания аудиосообщений спровоцировало существенный рост обмена голосовыми сообщениями.

Именно на этом фоне команда разработчиков представила новые возможности соответствующих алгоритмов.

По их словам, теперь буквально за несколько секунд можно будет расшифровать аудиосообщения, продолжительность которых не превышает двух минут. Согласно актуальной статистике в этот лимит укладывается около 99% всех аудио сообщений, которые отправляют пользователи социальной сети ВКонтакте.

А специально для тех ситуаций, в которых хочется рассказать собеседнику действительно длинную историю, предусмотрена возможность записи голосового сообщения продолжительностью вплоть до 60 минут.

Именно разнообразные голосовые сообщения являются наиболее популярным типом вложений в мессенджере ВКонтакте, опережая по востребованности даже фотографии и файлы.

Как известно, социальная сеть ВКонтакте внедрила в работу собственную технологию распознавания аудиосообщений в июне текущего года.

Начиная с момента запуска нового функционала аудитория, применяющая голосовые сообщения, увеличилась на 10%. На сегодняшний день она насчитывает 33 миллиона пользователей в месяц. В среднем каждый пользователь нового функционала читает 8 расшифровок аудиосообщений в день.

Крайне примечательно, что функционал распознавания аудиосообщений является собственной разработкой социальной сети ВКонтакте.

Для того чтобы пользователи ВКонтакте получили возможность переводить в текст более продолжительные аудиосообщения, не ощущая снижения скорости работы, разработчики применили инновационное технологическое решение.

С практической точки зрения специализированные алгоритмы автоматически разбивают длинное аудиосообщение на более короткие блоки, расшифровывают их все одновременно, а затем вновь объединяют в одно сообщение.

При этом они умеют разделять аудиосообщения, не разбивая на части отдельные слова, что позволяет гарантированно не искажать смысл сказанного. Подобный подход стал возможным благодаря применению технологии Voice Activity Detection. Как показало предварительное тестирование на распознавание достаточно длинного аудиосообщения системе потребуется чуть более секунды.

В заключение стоит напомнить о том, что функционал распознавания голосовых сообщений полностью автоматизирован. Для обучения применяемых в его работе нейросетей используются аудиосообщения, записанные участники программы VK Testers специально для выполнения этой задачи.

Меню