Реализация в среде Windows поддержки русскоязычного голосового ввода

Друзья, на днях мы рассматривали одно из новшеств, привнесённых в Windows 10 обновлением Fall Creators Update – штатную возможность голосового ввода данных на английском языке. Поддержку голосового ввода на русском языке компания Microsoft обещает в будущем, но не уточняет, близко или далеко это будущее обозримо. Возможно, это будет тогда, когда и Кортана сможет говорить, а главное, понимать по-русски. Ждать, пока Microsoft научит Windows 10 понимать наших не стоит. Если чего-то нет в среде самой системы, это практически всегда можно реализовать за счёт сторонних программных средств. Собственно, о них мы и будем говорить в этой статье. Ниже рассмотрим различные способы, как можно с помощью встроенного в ноутбук или подключённого к ПК микрофона вводить голосом поисковые запросы и надиктовывать текст документов.

Реализация в среде Windows поддержки русскоязычного голосового ввода

1. «Ок, Алиса» и голосовой поиск Google для поисковых запросов

Возможность голосового ввода поисковых запросов давным-давно присутствует в поисковике Google.

Непонятно, почему компания Google до сих пор не интегрировала эту технологию в интерфейс YouTube. Но в любом случае видеоролики можно искать в самом поисковике, проговаривая ключевые запросы. Просто затем нужно будет в результатах выдачи переключаться на вкладку «Видео». Львиная доля поисковых выдач по известным причинам всё равно будет с YouTube.

Успевшим уже познакомиться с Алисой – нашумевшим голосовым помощником от Яндекса – и вовсе не нужно отправляться на сайт поисковика в окне браузера. После установки программы поисковое поле Яндекса с возможностью голосового ввода запросов появится прямо на панели задач Windows. А на редкие несложные вопросы Алиса сможет ответить и без поисковика, не выходя за пределы своего диалогового окошка.

2. Веб-сервис Web Speech API от Google

У технологии Web Speech API, посредством которой в поисковике Google реализован голосовой ввод запросов, есть свой веб-интерфейс по адресу:
https://www.google.com/intl/ja/chrome/demos/speech.html

Функционал сервиса миинималистичен: в нём присутствует кнопка включения микрофона и результирующее поле, где затем будет отображаться распознанный текст.

Но в этом результирующем поле нельзя вносить правки. По итогу получим результаты распознавания как есть. И сможем отредактировать их только в каком-то текстовом редакторе или форме ввода данных. Кнопка ниже результирующего поля «Copy and Paste» завершает текущую сессию ввода и на весь распознанный текст автоматически ставит блок выделения. Так сделано для удобства копирования в буфер.

Для распознанного текста доступна ещё одна возможность, реализованная кнопкой создания электронного письма. Она запускает почтовый клиент, установленный в среде Windows таковым по умолчанию, создаёт новое письмо и переносит в него распознанный текст.

Примечательно, что Web Speech API может распознавать некоторые знаки препинания, как минимум точку и запятую. Так что во время диктовок в местах вставки точек и запятых их можно просто проговаривать.

Отсутствие возможности редактирования текста внутри результирующего поля делает использование интерфейса Web Speech API не совсем удобным для больших объёмов набора текста. Для длительных диктовок лучше использовать веб-интерфейс сервиса «Google Документы», в который технология Web Speech API встроена. В «Google Документах» можно и вводить текст голосом, и тут же править его, и ещё попутно форматировать документ.

3. «Голосовой блокнот» на Speechpad.Ru

На базе технологии Web Speech API работает ещё сайт — самый популярный и самый функциональный в Рунете сервис голосового ввода данных «Голосовой блокнот». В числе основных его функций:

Поддержка нескольких языков, включая русский и украинский;
Результирующее поле распознавания голоса с возможностью правки текста, его перевода на другие языки, выгрузки результатов в TXT-файл;
Вывод распознанных фраз в буфер обмена;
Транскрибация;
Интеграция в веб-формы Chromium-браузеров;
Интеграция в среду Windows и Linux.

Плюс к этому всему, в «Голосовом блокноте» опция ввода голоса включается и отключается только по нажатию соответствующей кнопки. Эта опция не деактивируется сама по себе, как только мы на время призадумаемся в поисках точной формулировки мысли, как это происходит в прочих сервисах на базе Web Speech API.

Чтобы начать использовать возможности «Голосового блокнота», необходимо авторизоваться на сайте сервиса. Для этого нужно либо пройти регистрацию, либо задействовать имеющийся аккаунт Яндекса.

Далее активируем прослушивание микрофона кнопкой «Включить запись».

И отслеживаем в результирующем поле распознанный текст.

4. Интеграция Speechpad в веб-формы браузера

У «Голосового блокнота» есть расширение для Chrome и браузеров, поддерживающих работу с контентом из его магазина.

После внедрения этого расширения в контекстном меню веб-форм ввода текста появится пункт «Speechpad». Жмём эту кнопку и говорим в микрофон. Таким образом можем, например, надиктовывать заметки в Google Keep.

Или общаться с людьми в соцсетях.

Единственное «но» — расширение «Голосового блокнота» работает не во всех веб-формах сайтов.

5. Интеграция Speechpad в среду Windows

Возможности веб-сервиса «Голосовой блокнот» можно интегрировать в среду Windows. И осуществлять набор текста голосом в любой программе операционной системы – штатном блокноте, Microsoft Word, прочих текстовых редакторах. Распознанная речь без посредничества веб-сервисов или буфера обмена будет вставляться прямо в редактируемые документы. Однако такая функция Speechpad.Ru не бесплатна, и стоит она 100 руб. в месяц. Предусматриваются варианты экономии: при оплате услуг сразу за квартал стоимость будет составлять 250 руб., а предоплата за год обойдётся в 800 руб. Каждый зарегистрированный пользователь может прежде протестировать интегрированный в среду своей операционной системы функционал сервиса. Создатели Speechpad.Ru предлагают двухдневный тестовый период бесплатно. Как непосредственно осуществляется интеграция «Голосового блокнота» в операционные системы, в частности, в Windows, подробно описывается на сайте самого Speechpad.Ru. Кликаем знак вопроса возле опции интеграции.

И проходим все описываемые в инструкции шаги:

Устанавливаем вышеупомянутое расширение сервиса;
Скачиваем пакет файлов интеграции;
Распаковываем архив и запускаем файл install_host.bat;
На сайте Speechpad.Ru заходим в кабинет пользователя;

Жмём кнопку «Включить тестовый период».

Здесь же, ниже располагаются и способы оплаты услуг сервиса, если во время тестового периода работа с ним понравится. Далее возвращаемся на главную страничку Speechpad.Ru, активируем опцию «Интеграция с OS» и жмём кнопку «Включить запись».

И так каждый раз, когда нужно активировать голосовой ввод. Вот, собственно, и всё. Теперь можно открывать Microsoft Word, LibreOffice Writer, прочие текстовые редакторы и начинать диктовку. Распознанный текст будет появляться в окне любого активного приложения, поддерживающего ввод данных.

Важно: чтобы использовать интегрированный в систему Speechpad, нельзя закрывать вкладку его сайта в окне браузера. Закрытие последней деактивирует голосовой ввод.

5. Бесплатные альтернативы интеграции голосового ввода в среду Windows

Какие могут быть бесплатные альтернативы интеграции в среду Windows русскоязычного голосового ввода данных?

Вариант №1

Совершенно бесплатно на сайте Speechpad.Ru можно использовать опцию вывода распознанной речи в буфер обмена. Жмём на сайте кнопку «Включить запись» и перемещаемся в любое приложение Windows.

Теперь можем проговаривать отдельные фразы и вставлять их из буфера клавишами Ctrl+V. Как только сделаем паузу в речи, услышим писк Speechpad, свидетельствующий о том, что фраза распознана и скопирована в буфер обмена. Такой способ работы с голосовым вводом имеет свои преимущества: при вставке отдельных фраз можно попутно редактировать текст начисто.

Как и при полноценной интеграции «Голосового блокнота» в среду операционной системы, сайт Speechpad.Ru должен быть открыт в одной из вкладок браузера.

Вариант №2

Работающим с приложениями офисного пакета компания Microsoft может предложить свою наработку по внедрению голосового ввода – надстройку Dictate, интегрирующую в Word, Outlook и PowerPoint дополнительную вкладку меню с инструментом распознавания речи. Надстройка может распознавать речь на 20 языках, включая русский, и позволяет попутно переводить текст на 60 языков.
Сайт скачивания Dictate:
http://dictate.ms

После установки надстройки в систему необходимо перезапустить Word, если он открыт, и активировать Dictate в настройках редактора. В меню «Файл» кликаем «Параметры», далее — «Надстройки». Из перечня надстроек выбираем WordDictate и кликаем внизу «Перейти».

Активируем WordDictate.

Всё – можем тестировать голосовой ввод. Открываем любой документ Word и перемещаемся на вкладку «Dictation». Устанавливаем русский в качестве исходного языка, кликам кнопку со значком микрофона и говорим.

Однако наряду с бесплатностью и удобством реализации голосового ввода таким образом, увы, получим и обратную сторону медали – ужасное качество самой технологии распознавания речи. Технология Microsoft по качеству всерьёз отстаёт от Web Speech API компании Google.

***
Ещё один бесплатный способ голосового ввода текста – запись речи в аудиофайл с дальнейшей автоматической транскрибацией (расшифровкой в текст). Далеко на каждый может сразу изложить свои мысли структурированным литературным языком, да ещё и попутно править ошибки распознавания, проставлять знаки препинания. При записи же речи на диктофон можно полностью сконцентрироваться на сути излагаемого материала, а в процессе транскрибации уже всю концентрацию внимания направить на красноречие и грамотность подачи этого материала. Но, друзья, автоматизация транскрибации аудиозаписей – это тема уже другой, отдельной статьи.
Продолжение в статьях:

Автоматизация расшифровки (транскрибации) аудио — и видеозаписей
Браузеры с функцией воспроизведения текста голосовым движком

Источник