Балаболка и голоса

Готовим поляну

Прежде чем писать и тестировать код, убедимся, что операционная система готова к синтезу речи, в том числе на русском языке.

Чтобы компьютер заговорил, нужны: 

  • голосовой движок (синтезатор речи) с поддержкой нужных нам языков,
  • голоса дикторов для этого движка.

В Windows есть штатный речевой интерфейс Microsoft Speech API (SAPI). Голоса к нему выпускают, помимо Microsoft, сторонние производители: Nuance Communications, Loquendo, Acapela Group, IVONA Software. 

Есть и свободные кроссплатформенные голосовые движки: 

  • RHVoice от Ольги Яковлевой  — имеет четыре голоса для русского языка (один  мужской и три женских), а также поддерживает татарский, украинский, грузинский, киргизский, эсперанто и английский. Работает в Windows, GNU/Linux и Android.
  • eSpeak и его ответвление — eSpeak NG — c поддержкой более 100 языков и диалектов, включая даже латынь. NG означает New Generation  — «новое поколение». Эта версия разрабатывается сообществом с тех пор, как автор оригинальной eSpeak перестал выходить на связь. Система озвучит ваш текст в Windows, Android, Linux, Mac, BSD. При этом старый eSpeak стабилен в ОС Windows 7 и XP, а eSpeak NG совместим с Windows 8 и 10.

В статье я ориентируюсь только на перечисленные свободные синтезаторы, чтобы мы могли писать кроссплатформенный код и не были привязаны к проприетарному софту.

По качеству голоса RHVoice неплох и к нему быстро привыкаешь, а вот eSpeak очень специфичен и с акцентом. Зато eSpeak запускается на любом утюге и подходит как вариант на крайний случай, когда ничто другое не работает или не установлено у пользователя.

Установка речевых движков, голосов и модулей в Windows 

С установкой синтезаторов в Windows проблем возникнуть не должно. Единственный нюанс — для русского голоса eSpeak и eSpeak NG нужно скачать расширенный словарь произношения. Распакуйте архив в подкаталог espeak-data или espeak-ng-data в директории программы. Теперь замените старый словарь новым: переименуйте ru_dict-48 в ru_dict, предварительно удалив имеющийся файл с тем же именем (ru_dict).

Теперь установите модули pywin32, python-espeak и py-espeak-ng, которые потребуются нам для доступа к возможностям TTS:

pip install pywin32 python-espeak pyttsx3 py-espeak-ng

Если у вас на компьютере соседствуют Python 2 и 3, здесь и далее пишите «pip3», а при запуске скриптов  — «python3».

Установка eSpeak(NG) в Linux

Подружить «пингвина» с eSpeak, в том числе NG, можно за минуту:

sudo apt-get install espeak-ng python-espeak

pip3 install py-espeak-ng pyttsx3

Дальше загружаем и распаковываем словарь ru_dict с официального сайта:

wget http://espeak.sourceforge.net/data/ru_dict-48.zip

unzip ru_dict-48.zip

Теперь ищем адрес каталога espeak-data (или espeak-ng-data) где-то в /usr/lib/ и перемещаем словарь туда. В моем случае команда на перемещение выглядела так:

sudo mv ru_dict-48 /usr/lib/i386-linux-gnu/espeak-data/ru_dict

Обратите внимание: вместо «i386» у вас в системе может быть «x86_64…» или еще что-то. Если не уверены, воспользуйтесь поиском:. find /usr/lib/ -name «espeak-data»

find /usr/lib/ -name «espeak-data»

Готово! 

RHVoice в Linux

Инструкцию по установке RHVoice в Linux вы найдете, например, в начале этой статьи. Ничего сложного, но времени занимает больше, потому что придется загрузить несколько сотен мегабайт.

Смысл в том, что мы клонируем git-репозиторий и собираем необходимые компоненты через scons.

Для экспериментов в Windows и Linux я использую одни и те же русские голоса: стандартный ‘ru’ в eSpeak и Aleksandr в RHVoice.

Как проверить работоспособность синтезатора

Прежде чем обращаться к движку, убедитесь, что он установлен и работает правильно. 

Проверить работу eSpeak в Windows проще всего через GUI  — достаточно запустить TTSApp.exe в папке с программой. Дальше открываем список голосов, выбираем eSpeak-RU, вводим текст в поле редактирования и жмем на кнопку Speak.

Обратиться к espeak можно и из терминала. Базовые консольные команды для eSpeak и NG совпадают — надо только добавлять или убирать «-ng» после «espeak»:

espeak -v ru -f D:\my.txt

espeak-ng -v en «The Cranes are Flying»

echo «Да, это от души. Замечательно. Достойно восхищения» |RHVoice-test -p Aleksandr

Как нетрудно догадаться, первая команда с ключом -f  читает русский текст из файла. Чтобы в Windows команда espeak подхватывалась вне зависимости от того, в какой вы директории, добавьте путь к консольной версии eSpeak (по умолчанию — C:\Program Files\eSpeak\command_line) в переменную окружения Path. Вот как это сделать.

Программы для чтения текста голосом

1. IVONA Reader

Сайт разработчика: www.ivona.com/

Одна из самых лучших программ для озвучивания текста.Позволяет вашему ПК читать не только простые текстовые файлы в формате txt, но и новости, RSS, любые веб-страницы в интернете, электронную почту и пр.

Кроме того, позволяет преобразовать текст в mp3 файл (который вы потом можете загрузить на любой телефон или mp3 плеер и слушать в дороге, например). Т.е. вы можете самостоятельно создавать аудио-книги!

Голоса программы IVONA очень похожи на реальный голос, достаточно не плохое произношение, не запинаются. Кстати, программа может быть полезна для тех, кто изучает иностранный язык. Благодаря ней можно слушать правильное произношение тех или иных слов, оборотов.

Поддерживает SAPI5, плюс к этому хорошо кооперируется с внешними приложениями (например, Apple Itunes, Skype).

Пример (текст воспроизведения одной моей недавней статьи)

Из минусов: некоторые незнакомые слова читает с неправильным ударением и интонацией. В целом же весьма не плохо, чтобы прослушать, например, параграф из книги по истории, пока идешь на лекцию/занятие — даже более чем!

2. Балаболка

Сайт разработчика: www.cross-plus-a.ru/balabolka.html

Программа «Балаболка», главным образом, предназначена для чтения вслух текстовых файлов. Для воспроизведения текста нужны, помимо программы, голосовые движки (синтезаторы речи).

Воспроизведение речи можно контролировать при помощи стандартных кнопок, подобных тем, что присутствуют в любой мультимедийной программе («воспроизвести/приостановить/остановить»).

Пример воспроизведения (тот же):

Минусы: некоторые незнакомые слова читает не правильно: ударение, интонация. Иногда, пропускает знаки препинания и не делает паузы между словами. Но в целом слушать можно.

Кстати, качество звучания сильно зависит от речевого движка, поэтому, в одной и той же программе звук воспроизведения текста может отличаться в разы!

3. ICE Book Reader

Сайт разработчика: www.ice-graphics.com/ICEReader/IndexR.html

Отличная программа для работы с книгами: чтение, каталогизирование, поиск нужной и пр. Помимо стандартных документов, которые могут читать и другие программы (TXT-HTML, HTML-TXT, TXT-DOC, DOC-TXT, PDB-TXT, LIT-TXT, FB2-TXT и т.д.) ICE Book Reader поддерживает файлы форматов: .LIT, .CHM и .ePub.

К тому же ICE Book Reader позволяет не только читать, но и отличная настольная библиотека:

— позволяет хранить, обрабатывать, каталогизировать книги (до 250000 тысяч экземпляров!);

— автоматическое упорядочивание вашей коллекции;

— быстрый поиск книги из вашей «свалки» (особенно актуально, если у вас много не каталогизированной литературы);

— ядро базы данных ICE Book Reader превосходит большинство программ подобного рода.

Так же программа позволяет озвучивать тексты голосом.

Lkя этого нужно зайти в настройки программы и настроить две вкладки: «Режим»(выбрать чтение голосом) и «Режим синтеза речи» (выбрать непосредственно сам голосовой движок).

4. Говорилка

Сайт программы: www.vector-ski.ru/vecs/govorilka/index.htm

Основные возможности программы «Говорилка»:

  1. Чтение текста голосом (открывает документы txt, doc, rtf, html и пр.);
  2. Позволяет записывать текст из книги в форматы (*.WAV, *.MP3) с повышенной скоростью — т.е. по сути создание электронной аудио-книги;
  3. Хорошие функции по регулировке скорости чтения;
  4. Авто прокрутка читаемого текста;
  5. Возможность пополнения словарей произношения;
  6. Поддерживает старые файлы из времен DOS (многие современные программы не могут прочитать файлы в подобной кодировке);
  7. Размер файла, из которого программа может прочитать текст: до 2 гигабайт;
  8. Возможность делать закладки: при выходе из программы, она автоматически запоминает место остановки курсора.

5. Sakrament Talker

Сайт разработчика: sakrament.by/index.html

С помощью Sakrament Talker можно превратить свой компьютер в «говорящую» аудио книгу! Программа Sakrament Talker поддерживает форматы RTF и TXT,может автоматически распознавать кодировку файла (наверное, иногда замечали, что некоторые программы открывают файл с «крякозабрами» вместо текста, так вот в Sakrament Talker такое невозможно!).

Кроме того Sakrament Talker позволяет воспроизводить достаточно большие файлы, быстро находить те или иные файлы. Озвученный текст можно не только прослушать на компьютере, но и сохранить в mp3 файл (который в последствии можно скопировать на любой плеер или телефон и прослушивать вдалеке от ПК).

В целом довольно не плохая программа, которая поддерживает все популярные голосовые движки.

Некачественный датасет

Нам повезло, что в команде есть человек, увлекающийся музыкой, так что для облагораживания датасетов, в частности Руслана, мы вручную подбирали параметры различных фильтров и обрабатывали ими аудиодорожки в Logic Pro X. Ниже можете прослушать примеры оригинального и прошедшего обработку Руслана:

Также стоит отметить, что в датасете немного почищена пунктуация, так как движок реагирует на неё весьма чувствительно.

Дополнительные эксперименты

После решения всех насущных вопросов встала задача улучшить и разнообразить звучание, придать ему изюминки. Любой знакомый с темой скажет «Ок, посмотрите в сторону GST и VAE », и мы посмотрели.

Введение в пайплайн GST, на субъективный слух автора, не давало каких-то особых запоминающихся изменений, пока мы не попробовали подход, описанный в Text predicted GST – предлагается модели самой подбирать комбинацию стилистических токенов, чтобы добиться лучшего звучания для текущего текста. Для демонстрации работы этого модуля приведём аудио, полученные моделью, которая обучалась на датасете реплик персонажей из популярных зарубежных сериалов (актриса озвучки Екатерина). Уточним, что датасет изначально не предназначался для синтеза.

В общем, как и в жизни: главное найти подход к человеку.

Что касается использования вариационных автоэнкодеров, то эксперименты пока продолжаются, и похвастаться на данный момент нечем, так как столкнулись с определёнными проблемами. Если интересны технические детали — прошу под спойлер.

К тому же, так как мы часто слышали вопрос «А можно ли управлять скоростью и высотой тона речи?», мы добавили небольшой инструментарий для проведения этих операций на сгенерированных записях.

SOVA

В тексте неоднократно упоминалось, что мы выложили в открытый доступ часть своих наработок по синтезу. Вот их список:

  • sova-tts-engine – движок на базе Tacotron 2 от NVIDIA. Всё вышеперечисленное, за исключением text predicted GST и VAE, было опубликовано в этом репозитории, плюс проведён избирательный рефакторинг кода;
  • sova-tts-tps – тот самый nlp-препроцессор;
  • sova-tts-vocoder – практически не изменённый вокодер от NVIDIA, но всё-таки с отличиями;
  • sova-tts-binding – пакет для связывания nlp-препроцессора, движка и вокодера в единый инференс-пайплайн. Реализован с прицелом на добавление новых движков и вокодеров;
  • sova-tts – упакованный в докер стенд синтеза с простеньким GUI интерфейсом;
  • Почищенный датасет и веса Руслана (This work, «SOVA Dataset (TTS RUSLAN)», is a derivative of «RUSLAN: Russian Spoken Language Corpus For Speech Synthesis» by Lenar Gabdrakhmanov, Rustem Garaev, Evgenii Razinkov, used under CC BY-NC-SA 4.0. «SOVA Dataset (TTS RUSLAN)» is licensed under CC BY-NC-SA 4.0 by Virtual Assistant, LLC)
  • Датасет и веса Наталии («SOVA Dataset (TTS Natasha)» is licensed under CC BY 4.0 by Virtual Assistant, LLC)

Наш SOVA TTS (весь код + модель и датасет Наталии) вы можете свободно использовать для коммерческих задач бесплатно.

Планы

Планы у нас грандиозные, а именно:

  1. Полноценный нормализатор текста для раскрытия чисел, аббревиатур и сокращений;
  2. Модуль для решения неоднозначностей в ударениях и словах с буквой «ё»;
  3. Добавление поддержки ssml;
  4. Дальнейшие эксперименты с VAE, получение контроля над отдельными словами и фонемами;
  5. Подготовка эмоционального синтеза, по возможности с контролем уровня эмоции;
  6. Мультидикторный синтез на одной модели;
  7. Новые голоса;
  8. Клонирование голоса;
  9. Возможный переход на более современные архитектуры типа Flowtron или FastSpeech2;
  10. Эксперименты с вокодерами: дообучение Waveglow, обучение LPCNet, тестирование MelGAN;
  11. Оптимизация архитектуры для работы в реальном времени на CPU.

На текущий момент мы продолжаем двигаться в сторону улучшения качества синтеза речи. Если то, что мы делаем, вам интересно – пишите, можем посотрудничать. Как на коммерческих проектах, так и в Open Source.

Все наши наработки доступны тут: наш GitHub
Распознавание речи: SOVA ASR
Синтез речи: SOVA TTS

Спасибо за внимание, впереди еще много интересного!

Список синтезаторов речи:

1. Acapela

Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена. Женский голос появился значительно позднее мужского и является более усовершенствованным.

Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.

Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.

Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.

Программа платная, скачать ее можно с официального сайта Acapela.

2. Vokalizer

Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance. Голос звучит очень естественно, речь чистая

Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно. Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений

Прекрасно подходит для чтения книг.

Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.

3. RHVoice

Синтезатор речи RHVoice был разработан Ольгой Яковлевой. Программа озвучивает русские тексты тремя голосами: Елена, Ирина и Александр. Подробнее об установке и применении, а также прослушать голоса Вы сможете в прошлой статье

Код синтезатора открыт для всех, программы же абсолютно бесплатны. RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA. Все версии можно скачать с официального сайта разработчика.

4. ESpeak

Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.

  • Microsoft Windows,
  • Mac OS X,
  • Linux,
  • RISC OS

Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно. А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.

Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на официальном сайте.

5. Festival

Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете. Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.

Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений. К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.

Синтезатор речи Google для озвучки текста

Приложение от Гугл заранее встраивается во многие телефоны с операционной системой Android. Однако он необязательно ставится в качестве используемого по умолчанию синтезатора. Поэтому пользователь может не догадываться о том, что у него уже есть эта программа.

Как скачать синтезатор Гугл для озвучки различных текстов женским голосом:

  1. Зайдите в «Настройки».

    Настройки на смартфоне Android

  2. Откройте «Специальные возможности».

    Нужная клавиша выделена серым

  3. Выберите пункт «Синтез речи».

    Переход к скачиванию ПО для синтеза речи

  4. Нажмите на значок шестеренки.

    Переход в дополнительные Настройки

  5. Тапните по строчке «Установка голосовых данных».

    Клавиша для перехода к загрузке электронных чтецов

  6. Выберите язык. Нажмите на символ загрузки, нарисованный в виде направленной вниз стрелки.

    Кнопка загрузки

Что делать дальше:

  1. Откройте программу TalkBack. Если у вас ее нет, отправляйтесь на Google Play и скачайте ее.

    Как перейти к работе с Talkback

  2. Тапните на клавишу в правом верхнем углу, чтобы попасть в «Настройки».

    Включение и Настройки TalkBack

  3. Затем нажмите на «Возобновить работу».

    Переход к настройкам вызова Talkback

  4. Выберите активацию одним нажатием.

    Тумблер для включения быстрого запуска

  5. Затем переходите к Управлению жестами и задавайте нужные настройки.

    Какие движения или их комбинации могут вызывать диктора

Как преобразовать текст в женский голос с использованием ПО от Google:

  1. Зайдите на страницу «Язык и Ввод».
  2. В разделе «Речь» выберите строчку «Преобразование текста».
  3. Посмотрите, что стоит у вас в графе «Предпочитаемый модуль».

Скачать программу можно с Google Store. Синтезатор речи от Гугла используется для:

  • Зачитывания книг из магазина Google Play.
  • Озвучивания слов и фраз в Гугл Переводчике.
  • В качестве дополнительного синтезатора в приложениях-читалках, выложенных в Google Market.

В такого рода программах озвучку от Гугл нужно обычно устанавливать вручную. Зайдите в настройки приложения и найдите наиболее подходящий вариант.

Программы для озвучки текста

Если вам нужно постоянно озвучивать большие объемы текста из электронных документов, то самый удобный вариант — установить специальные приложения, которые умеют работать с файлами разного формата.

Балаболка

Балаболка — бесплатная программа озвучки для Windows от российских разработчиков. Она поддерживает работу с любыми голосовыми движками, установленными в системе. В ее интерфейсе есть стандартные инструменты для управления воспроизведением: пауза, остановка, перемотка, изменение скорости и громкости.

«Балаболка» умеет читать вслух текст из буфера обмена, произносить набираемые на клавиатуре фразы, озвучивать содержимое редактора или загруженных в нее файлов в форматах AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, WPD, XLS, XLSX.

Результат обработки «Балаболка» сохраняет как аудиофайл в форматах WAV, MP3, MP4, OGG и WMA. У нее также есть возможность сохранения текста внутри файлов MP3 для дальнейшего отображения в виде субтитров в медиапроигрывателе.

Govorilka

Govorilka — ещё одна программа для озвучки с минималистичным интерфейсом. Поддерживает голосовые движки устаревшего стандарта SAPI 4, в том числе на иностранных языках.

По умолчанию Govorilka озвучивает текст голосом стандартного движка Microsoft. В ее составе есть инструменты управления, традиционные для программ такого типа: воспроизведение, пауза, остановка, изменение скорости, громкости и высоты голоса. Одновременно в ней можно открыть до 8 вкладок с разными фрагментами текста.

Несмотря на простоту и устаревший интерфейс, «Говорилка» всё еще актуальна. Она умеет распознавать текстовые документы в разных форматах объёмом до 2 Гб и сохранять результат обработки в MP3 и WAV.

eSpeak

eSpeak — бесплатная программа для озвучки текста, доступная на Windows, macOS, Linux и Android. Она использует голосовые движки, установленные в системе, а также добавляет к ним несколько своих.

Версия этого приложения для Windows имеет максимально простой интерфейс и управление. Текст, который нужно прочитать, достаточно вставить в поле посредине окна, а затем нажать “Speak”.

Максимальный размер текста здесь явно не определен, но приложение справляется с большими объёмами. Также у него есть возможность читать тексты из файлов с расширением TXT, другие форматы не поддерживаются.

Для управления скоростью чтения в eSpeak используется ползунок Rate. Если вы хотите сохранить прочитанный текст в аудиофайл, нажмите на кнопку «Save to .wav» и задайте имя записи.

В мобильной версии приложения для Android аналогичная функциональность, разве что нет возможности сохранить текст в аудио.

Acapela TTS

Acapela Group разрабатывает программы для всех популярных операционных систем: Windows, macOS, Linux. Android, iOS. Среди главных достоинств этого софта — поддержка большого количества языков и отличное качество голоса. Мощные движки хорошо обучены и имеют развёрнутую справочную базу, которая позволяет им говорить правильно и выразительно.

Однако все продукты Acapela коммерческие. Установить приложение на компьютер или телефон можно бесплатно, но без купленного голосового движка в них нет никакого смысла. Стоимость одного пакета — 3,99 евро. Прежде чем оплачивать покупку, вы можете прослушать демо голоса с произвольным текстом, чтобы определить, подходит ли вам такое звучание.

ICE Book Reader Professional

Если вы ищите программу, которая будет озвучивать целые книги, то попробуйте ICE Book Reader Professional. Это приложение поддерживает различные форматы текстовых документов: TXT, HTML, XML, RTF, DOC и DOCX, PALM (.PDB и .PRC), PSION/EPOC (.TCR), Microsoft Reader (.LIT), Microsoft HELP files (.CHM) и FictionBook файлы (все версии) (.FB2, .XML). А для чтения в нем используются голосовые движки стандарта SAPI 4 и 5.

Программа умеет превращать книги в MP3/WAV-файлы. Это значит, что вы можете из любого произведения, доступного в текстовом формате, сделать аудиокнигу.

Скорость преобразования текста в голос в этом приложении увеличивается за счёт одновременного использования нескольких модулей синтеза речи.

Модуль Google TTS — голоса из интернета

Google предлагает онлайн-озвучку текста с записью результата в mp3-файл. Это не для каждой задачи:

  • постоянно нужен быстрый интернет;
  • нельзя воспроизвести аудио средствами самого gtts;
  • скорость обработки текста ниже, чем у офлайн-синтезаторов.

Что касается голосов, английский и французский звучат очень реалистично. Русский голос Гугла — девушка, которая немного картавит и вдобавок произносит «ц» как «ч». По этой причине ей лучше не доверять чтение аудиокниг, имен и топонимов.

Еще один нюанс. Когда будете экспериментировать с кодом, не называйте файл «gtts.py» — он не будет работать! Выберите любое другое имя, например use_gtts.py.

Простейший код, который сохраняет текст на русском в аудиофайл:

from gtts import gTTS

tts = gTTS(‘Иван Федорович Крузенштерн. Человек и пароход!’, lang=’ru’)

tts.save(‘tts_output.mp3’)

После запуска этого кода в директории, где лежит скрипт, появится запись. Чтобы воспроизвести файл «не отходя от кассы», придется использовать еще какой-то модуль или фреймворк. Годится pygame или pyglet. 

Вот листинг приложения, которое построчно читает txt-файлы с помощью связки gtts и PyGame. Я заметила, что для нормальной работы этого скрипта текст из text.txt должен быть в кодировке Windows-1251 (ANSI).

Интерфейс Балаболки

Balabolka имеет простой и интуитивно понятный интерфейс на русском и нескольких европейских и азиатских языках. Те, кто смог скачать Балаболку бесплатно, установил Balabolka и голосовой движок, чтобы программа смогла читать русскими голосами, сразу могут прослушать тексты. Процесс воспроизведения речи запускается кнопкой Воспроизведение. Кнопкой Пауза виртуальный рассказчик приостанавливается. Прекращается воспроизведение кнопкой Стоп. Такой же интерфейс управления присутствует в любом компьютерном аудио-видео плеере. Настроить программу для работы сможет даже малоопытный пользователь.

Возможность изменения дизайна программы на любой вкус реализована с помощью нескольких сменных скинов, или тем оформления интерфейса. Также существует возможность дополнительно бесплатно скачать темы для программы Балаболка с официального сайта. Мультиязычный интерфейс с превосходным русским языком и объемный раздел справки и помощи от автора программы Ильи Морозова вдвойне упрощает задачу изучения функционала, которого немного больше, чем может показаться на первый взгляд.

VLC media player 2.2.1 [2015, Медиаплеер] 32/64-bit

Год выпуска: 2015Жанр: МедиаплеерРазработчик: VideoLANСайт разработчика: http://www.videolan.org/Язык интерфейса: Мультиязычный (русский присутствует)Тип сборки: StandardРазрядность: 32/64-bitОперационная система: Windows XP, Vista, 7, 8, 8.1, 10 Описание: VLC Media Player — универсальный плеер, способный воспроизводить практически любые существующие на сегодняшний день форматы файлов: MPEG-1, MPEG-2, MPEG-4, DivX, XviD, H.264, MP3, OGG и другие, обычные DVD и VCD диски, а также музыкальные. Одной из его особенностей является возможность проигрывания практически любого типа потокового …

Программы / Программы для работы с Мультимедиа / Кодеки и Медиаплееры
Подробнее  

Программы для преобразования текста в речь

Balabolka

Это программа, которая позволяет нам читать тексты, в дополнение к различным параметрам настройки голоса и поддержке Microsoft Файлы Word DOC, саман PDF или HTML для чтения веб-страниц. Имеет поддержку SAPI 4 (Microsoft Speech API) с восемью различными голосами на выбор и SAPI 5 , с двумя разными голосами, или вы можете напрямую использовать встроенный рассказчик в Microsoft Windows. Вы можете настроить тональность, скорость и громкость, чтобы создать голос, который адаптируется к нашим потребностям.

Помимо чтения вы также можете сохранить рассказы в аудиофайлах с широким набором опций, таких как MP3 и WAV, а также для очень длинных документов вы можете создавать закладки, чтобы упростить переход к различным разделам текста, а также инструменты для персонализации произношения слов в вкус каждого. Кроме того, он имеет программа проверки орфографии для текста и поддерживает несколько языков, в том числе испанский.

Вы можете скачать Balabolka совершенно бесплатно с веб-сайта, совместимого с компьютерами Windows, от XP до Windows 10.

Sakrament Talker

Форматы текста те же, вставить можно и из буфера. Но интерфейс здесь уже намного более современный. Sakrament Talker работает со всеми известными голосовыми движками (их можно скачать в интернете). Воспроизведенный текст можно сохранить в формате .mp3, что намного более удобно, чем .wav.

Также здесь есть возможность настроить множество параметров, в том числе и качество чтения. С интерфейсом разобраться легко любому пользователю Windows. Здесь знакомые кнопки, функции и многое другое из того, что есть в продуктах Microsoft Office (Word, Excel и так далее). Все кнопки собраны очень лаконично и понятно.

Рис. №2. Sakrament Talker

Голосовой движок для Балаболки от Майкрософт с голосом Елена

У Майкрософта, кроме речевого стандарта Microsoft Speech API 4 и 5 версий, а также Microsoft Speech Platform, есть еще и синтезатор речи. Этот голосовой движок называется MS Server Speech TTS Voise RU Elena и соответствует стандарту речевых функций Microsoft Speech Platform. Русский голос Elena от Microsoft можно загрузить с оф. сайта компании Майкрософт внизу данной страницы https://programmywindows.com/ru/readers/balabolka без регистрирования и SMS. Дополнительно потребуется загрузить и установить Microsoft Speech Platform (MSP x86 или x64). После установки MSP и MS Server Speech TTS Voise RU Elena для нормальной работы этих компонентов с программой Balabolka необходимо обязательно перезагрузить компьютер.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector