Google делает DeepMind AI-Powered облачным сервисом Text-to-Speech

0 456

Google запустил синтезатор голоса под названием «Cloud Text-to-Speech»

Теперь услуга доступна для разработчиков, чтобы добавить ее в свои приложения.

Текстово-речевое обслуживание — это форма синтеза речи, которая преобразует текст в голос. Текст в речь Google передает голоса в сервисах, таких как Google Assistant, Поиск и Карты.

«Cloud Text-to-Speech» позволяет разработчикам выбирать из 32 разных голосов и из 12 языков», — сказал в блоге.Дэн Аарон, менеджер по продуктам Cloud AI.

«Cloud Text-to-Speech» правильно произносит сложный текст, такой как имена, даты, время и адреса для аутентичной речи, заявила компания. Он также позволяет разработчикам настраивать подачу тона, скорость голоса и громкость, а также поддерживает различные аудиоформаты, включая MP3 и WAV.

Согласно Google, «Cloud Text-to-Speech» может использоваться различными способами, в том числе для управления системами голосового ответа для центров обработки вызовов (IVR) и обеспечения возможности разговоров естественного языка в реальном времени, чтобы включить Interne of Things (IoT) устройства для разговора и преобразования текстовых носителей в устной формат.

Google сказал, что «Cloud Text-to-Speech» включает в себя набор высокоточных голосов, созданных с использованием WaveNet — нейронной сети, обученной с большим объемом речевых сэмплов, который способен создавать необработанные звуковые сигналы с нуля.

WaveNet синтезирует более естественно звучащую речь и в среднем производит речевой звук, который люди предпочитают другим технологиям преобразования текста в речь. Во время обучения сеть извлекает структуру речи, включая тоны.

При заданном вводе текста обучаемая модель WaveNet генерирует соответствующие речевые сигналы, по одному образцу за раз, достигая более высокой точности, чем альтернативные подходы.

Сегодняшняя улучшенная модель WaveNet генерирует необработанные сигналы в 1000 раз быстрее, чем исходная модель, и может генерировать одну секунду речи всего за 50 миллисекунд.

Благодаря этим настройкам, последняя модель WaveNet производит более естественную звуковую речь, и люди дали новому американскому английскому WaveNet голоса средний средний балл (MOS) 4.1 по шкале от одной до пяти.

 

Новости SRNSK:
переходите по ссылке и читайте новости первым!
Вам также может понравиться