Группа компаний ЦРТ (входит в экосистему Сбербанка) представила третье поколение синтеза речи.
Презентация технологии состоялась 21 ноября в Петербурге в ходе пресс-тура по компаниям экосистемы Сбербанка.
Новейший синтез речи обеспечивает плавность и выразительность прочтения любого текста на целевом языке — это его главное преимущество. Высококачественный аудиосигнал генерируют сложные нейросетевые модели. В технологии также есть модуль предсказания ударений в словах, которых еще нет в базовом словаре синтеза, а также автоматическое исправление типичных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста, произношение будет соответствовать нормам языка даже в сложных случаях.
По результатам опроса населения, который проводился с помощью специализированных систем в анонимном режиме, качество синтеза получило оценку 4,7 баллов по 5-балльной шкале. Для сравнения использовались системы синтеза речи от основных конкурентов и живой человек.
Для высококачественного синтеза теперь не требуются дорогостоящие серверы. Использовать технологию можно двумя способами – через облачный сервис или встроив в свое решение. В автоматизированных сценариях общения с клиентами технология позволяет взаимодействовать в индивидуальном порядке с каждым абонентом, так как нет фиксированных сообщений, и любой текст может быть синтезирован в процессе звонка.
Директор научно-исследовательского департамента ЦРТ Кирилл Левин говорит: «Группа компаний ЦРТ соединяет в себе разработчика с сильнейшей научной базой и интегратора, ежегодно внедряющего свои решения в сотни компаний в России и за рубежом. Новые технологии тут же начинают использоваться в наших продуктах и решениях. Мы тесно взаимодействуем с нашими клиентами и хорошо знаем их потребности. В третьем поколении мы реализовали запрос на естественность. В следующей же иттерации будет реализована возможность управлять спектром эмоций синтезированного голоса».