VK Звонки добавили текстовую расшифровку встреч и субтитры в реальном времени | Brandlif

Платформа для видеовстреч VK Звонки представила новые возможности на основе машинного обучения и нейросетей. Функция расшифровки автоматически переводит звуковую дорожку встречи в текст, который можно найти в чате звонка после его окончания. Пользователи также смогут запустить автосубтитры – они будут дублировать речь участников звонка в ходе встречи.

Текстовую расшифровку может включить любой пользователь группового звонка, при этом участники встречи получат уведомление о ее начале. После окончания встречи файл с текстом придет в чат звонка и будет сохранен в специальном разделе в профиле пользователя, запустившего функцию. В файле расшифровки автоматически расставляются тайм-коды и имена говорящих.

Автоматические субтитры будут демонстрироваться во время речи каждого спикера в реальном времени. При этом субтитры будут показываться только у тех участников, которые самостоятельно их включили.

Нейросеть умеет определять разных спикеров и разделять речь на предложения. Текстовую расшифровку можно запустить вместе с субтитрами и записью звонка. Новые функции также доступны в сессионных залах и в звонках от имени сообщества. Автоматический перевод аудио в текст работает с речью на русском, в дальнейшем команда добавит и другие языки.

 

Перевод речи в текст использует собственные нейросетевые разработки ВКонтакте. Аудиопоток проходит несколько этапов обработки:

  • запись очищается от фоновых звуков с помощью интеллектуального шумоподавления,

  • затем нейросеть распознаёт слова, формирует из них текст и делит речь на предложения в соответствии с конкретным спикером.

В ближайших планах платформы запуск новых функций в звонках один на один и возможность администратора настраивать, кто из участников встречи может запускать расшифровку.

Источник: пресс-релиз ВК