Google обновил свои API — интерфейсы Text-to-Speech и Speech-to-Text с рядом улучшений функций наряду с поддержкой большего количества языков.
Для многих разработчиков добавление 17 новых голосов на основе WaveNet для различных языков станет основным моментом сегодняшнего обновления.
WaveNet — это технология Google, которая использует машинное обучение для создания естественного звучания голоса при выполнении преобразования текста в речь.
Text-to-Speech теперь поддерживает в общей сложности 30 стандартных голосов и 26 голосов WaveNet на 14 языках.
Среди новых функций — добавление «аудио-профилей» для настройки выхода для используемого динамика. Например, выход для наушников, звуковых панелей или встроенного динамика телефона будет лучше всего звучать при пользовательской настройке.
С другой стороны, Speech-to-Text также получил значительные улучшения.
Наиболее впечатляющей особенностью является возможность распознавать несколько динамиков в записи голоса для автоматической транскрипции. Однако количество докладчиков должно быть указано заранее.
Наряду с поддержкой дополнительных языков преобразования текста в речь, Google также поддерживает больше для преобразования речи в текст. После выбора до четырех языков API автоматически определит, на каком языке говорят.
Наконец, добавление «оценки достоверности слова» помогает обеспечить точность.
С каждым запросом Speech-to-Text API будет возвращать показатель достоверности, что он правильно услышал слово, прежде чем сделать его действующим. Если возвращается низкая достоверность, и важно сделать это правильно, разработчик может предложить пользователю повторить.
«Например, если пользователь вводит« пожалуйста, назначьте встречу с Джоном на завтра в 2 часа дня »в свое приложение, вы можете предложить пользователю повторить« Джон »или« 2 часа дня », если либо у вас низкий уровень доверия, но не повторять за «пожалуйста», даже если имеет низкую достоверность, так как это не критично для этого конкретного предложения », — объясняет команда.
Учитывая трудности, с которыми некоторые службы распознавания голоса сталкиваются с моим акцентом, эта последняя функция может помочь уменьшить неловкие ошибки.