28 ноября 2001 г. компании Intel и Cognitive Technologies представили результаты реализации инвестиционного проекта по развитию систем распознавания русской речи. Достигнутые результаты позволяют говорить о том, что компании вплотную подошли к созданию промышленной системы распознавания русской речи и разработке дальнейших направлений применения систем распознавания в мобильной связи, голосовых порталах и системах голосового управления.
В результате реализации проекта впервые в России создан обширный инструментарий для разработки систем распознавания речи, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени. Сложность создания такого корпуса объясняется, в первую очередь, сложностью грамматики и фонетики русского языка, а его масштабность может конкурировать с лучшими мировыми речевыми корпусами, созданными для распознавания речи. RuSpeech является речевой базой данных, с которой компьютер сможет «сверять» естественную речь диктора, распознавая не только слова, уже присутствующие в базе, но и отдельные фонемы и последовательности фонем русского языка, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в корпусе слов.
Тексты для речевого корпуса создавались 220 дикторами, каждый из которых прочел, в среднем, более 250 предложений. В состав речевого корпуса входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. RuSpeech содержит порядка 50 часов непрерывной речи объемом 15 Гб, размещаемых на 30 c лишним компакт-дисках. Объем этого речевого корпуса в несколько раз превышает популярные речевые базы английского языка WSJ Speech и TIMIT.
Фактически это означает, что впервые появился инструмент для создания дикторонезависимой системы распознавания русской речи. Интеграция созданного инструментария с имеющимися передовыми технологиями анализа и распознавания речи приведут к решению этой задачи в самое ближайшее время.
Результаты этой разработки могут быть использованы в:
— голосовых порталах;
— голосовом управлении в телефонии (справочные службы, телефонный доступ к электронной почте, голосовой набор номера);
— системах диктовки.
Технологиями распознавания научный коллектив, на базе которого была создана компания Cognitive Technologies, занимался еще с середины 70-х гг. в рамках исследования и создания систем искусственного интеллекта, а с 1993 г. активно вел разработки в области распознавания речи наряду с системами распознавания графических изображений. Тем не менее, в связи с целым рядом существовавших технических проблем – необходимость обучать систему голосу конкретного пользователя, зависимость от оборудования, малый словарный запас — разработки носили скорее научный, перспективный характер и были далеки от промышленного применения, а сфера практического применения такого рода систем была не вполне ясна как в России, так и в мире в целом.
За последние годы большая часть технических проблем, в том числе, дикторозависимости и аппаратных требований, была в значительной мере снята, а мировой объем рынка таких систем только в 2001 г. оценивается компанией Datamonitor в $650 млн. По прогнозам компании, в ближайшие 5 лет этот рынок увеличится почти в 10 раз и составит $5,6 млрд. По оценкам департамента маркетинга компании Cognitive Technologies, объем рынка речевых технологий в России к 2006 г. может составить порядка $200 млн. Это обусловлено большой востребованностью данных технологий, в том числе в мобильной телефонии и голосовых порталах. Такое состояние рынка, перспективность разработок в области речевых технологий, а также отсутствие систем распознавания русской речи и побудило компанию Intel инвестировать в проект создания русскоязычных речевых систем.