Демонстрационное приложение
Попробуйте механизмы распознавания и синтеза речи в бесплатном демоприложении 1С. Используйте это приложение, чтобы ознакомиться с возможностями речевых технологий, а также для встраивания распознавания и синтеза речи в собственные прикладные решения.
Возможности по работе с речью
- Потоковое распознавание речи. Вы можете надиктовать произвольный текст, например, письмо, заметку или поручение. Сейчас распознаются русский или английский языки. Список доступных языков будет расширяться с развитием сервиса распознавания речи. Длительность одного сеанса при потоковом распознавании речи с помощью облачного сервиса имеет ограничение в 2 часа.
- Автоматическая замена знаков препинаний, спецсимволов и перевода строк при диктовке. Просто назовите нужный знак в том месте, где вы его хотите установить.
- Распознавание аудиофайлов. Загрузите в сервис файл с записью голоса, например, запись телефонного звонка или совещания. В ответ вы получите текстовую расшифровку.
Для более точного распознавания разных собеседников рекомендуется записывать отдельный файл или звуковую дорожку для каждого спикера. В этом случае расшифровку записи можно будет представить в виде диалога, где для каждой реплики указана метка времени от начала разговора. Если на нее нажать, то можно прослушать соответствующий фрагмент аудиозаписи.
Также доступна экспериментальная модель, которая позволяет распознавать спикеров даже в одноканальной записи. Эта модель автоматически разделяет речь разных собеседников на отдельные текстовые блоки. Однако для достижения максимальной точности все же рекомендуется использовать многоканальные записи.
- Поддержка дополнительных грамматик при распознавании речи. Перед началом распознавания можно передать сервису список специфичных терминов (фамилий сотрудников, названий номенклатуры или компаний-контрагентов), и сервис будет их уверенно распознавать. Вы можете задать общие грамматики для всей базы 1С, а также дать возможность пользователям использовать индивидуальные дополнительные грамматики.
- Голосовое управление приложением 1С на примере подбора пользователей из общего списка. Называя имена и фамилии, пользователи автоматически подбираются из общего списка. В случае совпадения имен или фамилий, голосовые команды помогают уточнить выбор, а также отредактировать список, например, удалить конкретных пользователей или очистить весь список.
- Синтез речи для произвольного текста. Озвученный текст может быть воспроизведен сразу, а также сохранен в аудиофайл как целиком, так и по отдельным фразам. Для синтеза речи можно выбрать подходящий голос и задать его параметры.
Настройки приложения
- Авторизация в сервисах распознавания и синтеза речи с помощью интернет-поддержки пользователей 1С.
- Авторизация в сервисе распознавания речи по логину / паролю.
- Получение данных о балансе сервисов распознавания и синтеза речи.
- Получение списка имеющихся в сервисе моделей распознавания речи. Скачивание моделей, доступных для локального распознавания речи.
- Настройка ограничения пользователей по использованию моделей распознавания речи.
- Настройка ограничения по использованию дополнительных грамматик.
- Получение списка голосов, доступных для синтеза речи, а также параметров, которые для этих голосов можно настроить.
Как начать пользоваться
- Скачайте и установите демоприложение 1C
- В настройках приложения (раздел Администрирование — Настройки работы с речью) подключитесь к речевым сервисам, используя авторизацию интернет-поддержки.
- Для авторизованного пользователя в форме настроек отображается текущий баланс для сервисов 1С:Распознавание речи и 1С:Синтез речи. Если для пользователя доступны бесплатные тестовые пакеты, то рекомендуем их подключить. Перед началом использования облачных речевых сервисов проверьте, что остаток баланса положительный. Баланс в сервисах можно также пополнить покупкой платных пакетов.
- Для распознавания речи на локальном оборудовании там же в настройках скачайте модель распознавания. После загрузки и установки модели можно отключиться от сервиса, и распознавание будет работать локально.
- При необходимости задайте дополнительные грамматики — слова, которые сервису может быть сложно распознать. Каждое слово или фразу в дополнительной грамматике вводите с новой строки.
- В форме потокового распознавания нажмите кнопку с микрофоном и начинайте диктовать текст. Произносите слова четко и чуть медленнее, чем вы обычно разговариваете. В режиме реального времени ваша речь будет превращаться в текст. Нажмите эту же кнопку еще раз для окончания ввода.
- В обработке распознавания аудиофайлов выберите один или несколько файлов. Поддерживаются файлы в формате: WAV signed 16 bit little-endian и Opus в контейнере ogg с частотой дискретизации: 8 — 48 кГц. Максимальный размер аудиофайла — 1Гб длительностью до 4 часов. Для добавления файлов в других аудиоформатах вы можете установить бесплатный набор библиотек FFmpeg, в этом случае исходные файлы будут автоматически конвертироваться в нужный формат.
Добавленные файлы встанут в очередь на распознавание, и результат будет предоставлен через некоторое время в зависимости от длительности аудиофайла и загрузки сервиса.
Если аудиофайл содержит отдельные каналы для разных собеседников, то результат распознавания можно представить в виде диалога.
- При одновременном добавлении на распознавание нескольких аудиофайлов, их можно автоматически объединить в один многоканальный файл. Это полезно, например, для аудиозаписей совещаний, где каждый собеседник записан в отдельный файл. Распознавание объединенного аудиофайла позволит получить расшифровку совещания в виде диалога всех его участников.
- Для управления прослушиванием записей используйте встроенный аудиоплеер. Для наглядности во время проигрывания можно подсвечивать соответствующую часть текстовой расшифровки.
- Вы можете изменить параметры распознавания речи для текущего сеанса. Например, выбрать нужный язык или добавить в дополнительные грамматики сложные для распознавания слова и словосочетания, чтобы сервис их уверенно определял. При необходимости результаты распознавания можно ограничить только выражениями, входящими в дополнительную грамматику.
- В текущем сеансе пользователь может авторизоваться в сервисе распознавания речи под отдельным логином и паролем, если администратор не запретил данную возможность.
- В форме синтеза речи введите произвольный текст, который должен быть озвучен. Сервис использует выбранный голос и выполнит автоматическую расстановку ударений. При этом в неоднозначных случаях есть возможность принудительно установить ударение для слов-омографов ("д+ухи" или "дух+и"). После преобразования вы сможете услышать прочитанный текст, а также сохранить результат синтеза речи в аудиофайл.
- В приложении реализован пример автоматического озвучивания текстов напоминаний. Пользователи могут получать голосовые оповещения по заданному расписанию.
- Если по результатам распознавания или синтеза речи речи у вас появились замечания или полезные идеи, пожалуйста, отправьте разработчикам сервиса жалобу на качество.
Разработчики 1С могут использовать демоприложение для встраивания возможностей распознавания и синтеза речи в собственные прикладные решения. По возникшим вопросам или предложениям, пожалуйста, пишите на ailab@1c.ru
Разработчик: 1С Поддерживается с версии: 1.0.1