- Словарь ударений для балаболки
- Словари для синтезаторов речи Vocalizer
- Как добавить словари Vocalizer?
- Содержание архива словарей
- Автор словарей
- Балаболка, настройки для RHVoice
- Выбор синтезатора
- Расстановка ударений
- Конфигурационный файл RHVoice
- Словари
- Подключение и настройка словарей
- Поиск омографов
- Файл sample.bxd
- Мой вариант расстановки ударений
- Настроенная Балаболка, версия 2.14
- Добавить комментарий Отменить ответ
- 📽️ Видео
Видео:Собираем Словари и движок RHVoice для БалаболкиСкачать
Словарь ударений для балаболки
Словари для голосовых движков
Значительно повысить качество синтеза речи позволяет использование дополнительных аннотированных (размеченных) словарных баз для голосовых модулей и движков.
Словарные базы для речевых движков ориентированы на машинное (компьютерное) считывание (извлечение) информации и не имеют удобного пользовательского интерфейса.
Они создаются и редактируются с помощью специальных программ ( словарных редакторов ).
Можно создать их и в простом текстовом редакторе (Блокнот, например).
Готовые словарные базы можно приобрести или загрузить из открытых интернет-ресурсов.
Словарная база должна может поставляться с речевым движком и быть подключена к нему «по умолчанию».
Дополнительные словарные базы (словари) должен подключить пользователь.
Форматы словарных баз для TTS
Основные форматы словарных баз:
словарь замен dic работающий только по быстрому методу применения правил;
словарь замен dic работающий только по стандартному методу применения правил;
словарь замен dic работающий одинаково как по быстрому так и по стандартному методам применения правил;
словарь замен ini использующий регулярные выражения работающий только по стандарту VBScript;
словарь замен ini использующий регулярные выражения работающий только по стандарту PCRE;
словарь замен ini использующий регулярные выражения работающий одинаково по стандарту VBScript и PCRE;Perl Compatible Regular Expressions .
VBScriptVisual (Visual Basic Scripting Edition) — скриптовый язык программирования, интерпретируемый компонентом Windows Script Host. Iироко используется при создании скриптов в операционных системах семейства Microsoft Windows.
PCRE (Perl Compatible Regular Expressions) — библиотека, реализующая работу регулярных выражений в стиле Perl (с некоторыми отличиями).
Регулярные выражения (regular expressions) — мощный и очень гибкий формальный язык, основанный на использовании метасимволов (wildcard characters, символов-джокеров, образцов, pattern ) для поиска по шаблону
Образец (pattern), задающий правило поиска, по-русски также иногда называют «шаблоном», «маской», «паттерном».
Регулярные выражения (regex) являются важной составной частью текстовых редакторов, инструментов поиска и большинства основных языков программирования.
Например, Perl имеет встроенный в их синтаксис механизм обработки регулярных выражений.
Регулярные выражения по существу, представляют собой язык описаний .
С помощью регулярных выражений можно:
Проверять, соответствует ли вся строка целиком заданному шаблону.
Находить в строке подстроки, удовлетворяющие заданному шаблону.
Извлекать из строки подстроки, соответствующие заданному шаблону.
Изменять в строке подстроки, соответствующие шаблону.
Все словари замен предназначены только для использования в программах-читалках. Они не содержат фонетической транскрипции слов и служат только для примитивной разметки текста (коррекции ударений, исправления неточностей набранного текста и т.п.).
*.dic словари — файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=).
Левая часть — искомый фрагмент текста, правая часть — замена.
В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте.
По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ «$» в начало строки.
$МА КЛ =Международная ассоциация компьютерной лингвистики
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ «*» (звездочка). Например:
авто*=авта
Данное правило будет применено к словам «автомобиль», «автокатастрофа» и т. д. Чтобы использовать в тексте специальные символы («#», «*», «$», «=»), их записывают дважды в соответствующем месте, например:
**=звёздочка
В этом случае отдельный символ «*» в тексте будет читаться как «звёздочка».
Словари *.dic самые распространенные среди различных программ для синтеза речи.
Такие словари используются для быстрой замены текста и как правило, если есть другие форматы пользовательских словарей, они срабатывают самыми последними.
Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы словарей могут отличаться друг от друга.
В последних версиях программ « Б алаболка» и « Д емагог» формат *.INI заменён на формат *.RE X.
Данная замена происходит автоматически.
Словари формата *.REX это те же словари использующие регулярные выражения работающие только по стандарту PCRE .
Словари формата *.INI поддерживаются только более ранними версиями программ где есть переключение старого формата словарей.
*.hmg словари — файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть — искомый фрагмент текста, правая часть — варианты его замены, перечисленные через запятую.
Омографы — слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зáмок – замóк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (нéбо и нёбо), берет (берéт и берёт).
замок=зАмок,замОк
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ «$» в начало строки также как и в словарях *.dic:
Данный формат словарей поддерживается только программой » Б алаболка» потому что в ней он и был придуман .
Для каждого омографа программа «балаболка» позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка «Фразы с омографом» в редакторе омографов).
замок=замОк
взломали замок=взломали замОк
При выполнении ручного поиска омографов в тексте (пункт главного меню «Текст|Искать омографы») эти выражения автоматически заменяются на новые а для слов, фразы с которыми нет в словаре, программа предлагает выбрать нужный вариант самостоятельно.
В отличии от словарей *.dic, эти словари используются только для ручной разметки текста.
И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.
Лексикон — список слов и их фонетическая транскрипция с помощью которой голосовой движок «понимает» как ему нужно читать то или другое слово.
Он подключается и работает не зависимо от используемой для чтения программы.
Ударение для всех голосов Acapela-Group (в т.ч. Алёна) задаются только через лексикон, причем учитывается также регистр букв слова. Символ пробел игнорируется, допустимы только слова и словосочетания через дефис.
DIC/HMG конвертер — Утилита для объединения, разделения и выделения правил из словарей *.hmg и *.dic добавленных при ручном поиске омографов в формате для лексиконов ударений голсового модуля .
На сегодня есть три способа поиска омографов в тексте :
Ручной — с помощью словаря омографов в той же «балаболке».
Плюсы: максимальное к-во распознанных омографов в тексте.
Минусы: очень долго.
Автоматический — с помощью словаря замены в котором часть часто употребляемых омографов уже прописана.
Плюсы: довольно просто и быстро.
Минусы: не все омографы находятся.
Автоматический — воспользоваться «книгоделом» или «Cognitive Dwarf Shell».
Плюсы: очень быстро и просто.
Минусы: встречаются ошибки не много, но есть.
Словари для TTS IVONA Tatyana
Словари для голосового движка IVONA Tatyana (Татьяна) : http://mytts.forum2x2.ru/t501-topic
Словарь коррекции трудночитаемых слов. Обсуждение и описание словаря
Словарь склонения числительных. Обсуждение и описание словаря
Словарь коррекции текста (дополнительный словарь замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря
Словарь замен для разрешения ё-омографов все/всё — словарь только для программы Demagog версии 241 и выше. Обсуждение и описание словаря
Словарь замен для разрешения ё-омографов все/всё — альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей но поддерживающих словари построенные на регулярных выражениях. Обсуждение и описание словаря
Словарь замены для Ё-фикации текста. Обсуждение и описание словаря
Словарь замены текста написанного транслитом
Словарь замен преобразующий текст написанный кириллицей в «транслит» (текст написанный латиницей) и наоборот.
Словарь замен преобразующий текст написанный в виде «12.30» к виду «12:30».
Словарь коррекции для чтения аббревиатур. Обсуждение и описание словаря
Словарь коррекции для чтения дополнительных символов юникод. Обсуждение и описание словаря
Словари для TTS Acapela-Group (Алёна)
Словари для голосового движка Acapela-Group (Алёна) : http://mytts.forum2x2.ru/t164-topic
Основные словари:
Лексикон омографов (для словаря замен). Обсуждение и описание лексикона.
Словарь замены ударений (рекомендуется использовать совместно с лексиконом омографов и словарем коррекции текста)
Лексикон трудночитаемых слов. Обсуждение и описание словаря.
Лексикон запрета чтения разделительных знаков
Словарь замены числительных и физических величин. Обсуждение и описание словаря.
Словарь склонения числительных. Обсуждение и описание словаря.
Словарь коррекции текста (дополнительный словарь для основного словаря замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря.
Частотный лексикон (для словаря замен). Обсуждение и описание лексикона.
Словарь замен для разрешения ё-омографов все/всё — словарь только для программы Demagog версии 241 и выше. Обсуждение и описание словаря.
Словарь замен для разрешения ё-омографов все/всё — альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей но поддерживающих словари построенные на регулярных выражениях. Обсуждение и описание словаря.
Словарь для «ручного» поиска омографов к «балаболка» — Alenka.hmg
Расширенный словарь для ручного поиска омографов (dic+hmg). Обсуждение и описание словаря.
Словарь замены текста написанного транслитом .
Словарь замены для Ё-фикации текста. Обсуждение и описание словаря.
Словарь замен преобразующий текст написанный кириллицей в «транслит» (текст написанный латиницей) и наоборот.
Словарь замен преобразующий текст написанный в виде «12.30» к виду «12:30».
Словарь коррекции для чтения аббревиатур. Обсуждение и описание словаря.
Словарь коррекции для чтения дополнительных символов юникод. Обсуждение и описание словаря.
Лексикон географических названий. Обсуждение и описание лексикона.
«Ё»-лексикон. Обсуждение и описание лексикона.
Словари в программе Балаболка
Доступ к Панели словарей в программе Балаболка: Вид / Показывать / Панель словарей
Установка словарей : поместить словари в папку balabolka dictionaries .
Подключение словарей : запустить программу «Балаболка» и выставить флажки подключаемым словарям на Панели словарей:
Видео:Как поставить ударение в Балаболке, голос ivona MaximСкачать
Словари для синтезаторов речи Vocalizer
При помощи представленных на странице словарей можно сделать лучше произношение синтезаторов речи Vocalizer. Словари подходят не только для программы экранного доступа Nvda, но и для программы экранного доступа Jaws. Кроме этого, автор словарей не забыл и про пользователей операционной системы Android, на которой также используют синтезаторы речи Vocalizer.
Как добавить словари Vocalizer?
Для Первоначального подключения словарей нужно скопировать папки «components» и «ve» согласившись на замену. Затем, Вставить файлы из папки «0» в папку «components», по соответствующим путям голоса. Последующие обновления достаточно производить, только из папки «0. Пути к этим папкам, в зависимости от версии и windows, их битности и к какой программе словари применять, будут отличаться. Несколько путей для образца:
Словари можно использовать на системах: Windows 10, Windows 8.1, Windows 8, Windows 7, Windows XP. Для Windows X64 — X86. Для системы Android архив со словарями отдельный.
- Nvda portable: userConfig addons vocalizer-expressive-voice-milena Premium High rur speech
- Установочная Nvda (Windows7): C:UsersUserAppDataRoamingnvdaaddonsvocalizer-expressive-voice-milena Premium Highrurspeech
- Jaws (Windows7 X86: C:Program Files (x86)Freedom ScientificSharedVocalizerExpressive1.1languagesrurspeech
- Jaws (Windows7 X64:) C:Program Files Freedom ScientificSharedVocalizerExpressive1.1languagesrurspeech
- Jaws (Windows XP): C:Program Files Freedom ScientificSharedVocalizerExpressive1.1languagesrurspeech
Содержание архива словарей
- 0. общие файлы замен для всех версий в папке components
- 1. для jaws
- 2. для nvda
- userdct_rur.voc
- из Vocalizer expressive в обычный сапи5
- инструкция.txt
Автор словарей
- Автор: Shamil
Выпуск словарей для:
- Nvda
- Jaws
- Android
Видео:Собираем Словари и движок Elan Николай для БалаболкиСкачать
Балаболка, настройки для RHVoice
Создание аудиокниг с использованием синтезатора RHVoice, конфигурационный файл, словарь омографов для Балаболки, словарь ударений и примеры готовых книг.
Видео:Как поставить ударение в Балаболке (Maxim)Скачать
Выбор синтезатора
Панель выбора текущего голоса и его настроек открывается и закрывается клавишей F10. Обычно сразу после первого запуска Балаболки она открыта. Если же перемещение клавишей Tab озвучивает только пустую открытую вкладку или вкладку с текстом книги, то нажмите F10 один раз, затем табайте и настраивайте голос. Ещё одна панель открывается и закрывается клавишей F11, но об этом чуть ниже.
Мой выбор — голос Александр синтезатора RHVoice. Пробовал Онлайн-сервис для синтеза речи, но ни один из вариантов не проговаривает русские слова и не расставляет интонации так, как это делает RHVoice. Зарубежные сервисы редко встречающиеся русские слова вообще искажают до потери смысла, например слово «скот» звучит как «скат».
Видео:Балаболка для Windows 10. Голоса для БалаболкиСкачать
Расстановка ударений
Если записываю для себя, тем более большие книги, то голос Александр синтезатора RHVoice обеспечивает приемлемое по разборчивости озвучивание без дополнительной обработки, а на некоторые отклонения звучания слов можно не обращать внимание. Кстати, старая версия RHVoice 0.2.94 проговаривает слова ощутимо хуже, а скорость отклика на новых версиях ничуть не хуже.
Для расстановки ударений назначил в конфигурационном фале знак ` (русская буква Ё в английской раскладке). Теперь можно править ударения как расстановкой этого знака в текстовом редакторе, так и в самой Балаболке, но вручную тут, ИМХО, не удобно, – прыгает фокус, не точно озвучивается его положение при передвижении средствами NVDA.
Конфигурационный файл RHVoice
Вы вероятнее всего уже знаете, что скорость чтения синтезатора RHVoice можно существенно повысить, внеся изменения в файл RHVoice.ini. Могу предложить настроенный на максимальные скорости файл с командным файлом автоматической установки на Яндекс-диске.
Распакуйте архив и запустите командный файл. Теперь скорость чтения в Балаболке с помощью синтезатора RHVoice можно существенно увеличить.
Например, для себя я настраиваю скорость чтения 75%, высоту 45%, что позволяет читать тексты со скоростью около 400 слов в минуту. С этими же настройками записываю для себя книги, чтобы оторваться от компьютера и читать их на портативной колонке.
На ста процентах скорость чтения увеличивается до 550 слов в минуту, но трудно разобрать незнакомые слова, хотя попривыкнув, стал читать книги прямо в Балаболке именно с этой скоростью. Что интересно, то при чтении текстов самой NVDA с этим же конфигурационным файлом удаётся достичь скорости чтения только около 400 слов в минуту.
Для записи книг другим слушателям остановился на следующих настройках:
Эти настройки обеспечивают проговаривание со скоростью около двухсот слов в минуту.
Если интересно, то можно послушать некоторые из таких записей на Яндекс-диске: лесниковское, детское, разное.
Если запустить проигрывание выше опубликованных файлов в PotPlayer, а затем нажать десять раз клавишу C, то скорость увеличится в два раза и составит 400 слов в минуту, – а это как раз та скорость, с которой слушаю я. Причём заметил, что если слушать с малой скоростью, то потом труднее опять привыкать к высокой скорости этого же синтезатора.
Видео:Словарь ударений для 4 задания | ЕГЭСкачать
Словари
Вы можете изготовить словарь омографов сами, а можете скачать готовый с Яндекс-диска.
Я его изготовил из файла для синтезатора Ольга.
Файл назвал RHVoice.hmg. Разместить его нужно в портабельной версии по пути
аналогично и в установочной версии.
Чтобы не путаться, удалил из этой папки лишние словари, оставив только RHVoice.hmg и sample.bxd.
Кстати, стандартным словарям лучше изменить название, чтобы после очередного обновления их не затереть. Я добавил к названию файла цифру 1.
Подключение и настройка словарей
В Балаболке для включения панели со словарями жмём клавишу F11. Панель настройки голоса на это время можно отключить, клавиша F10 однократно.
Вначале нужно найти файл sample.bxd и отметить его флажком. Впрочем, какие словари подключать, а какие отключить, вы своё решение можете изменить в любой момент.
Затем табать дальше и точно также отметить файл RHVoice.hmg
Перед каждым файлом есть кнопка «Редактировать». Если после нажатия кнопки будет звучать:
Коррекция произношения [sample.bxd]
то открыта возможность редактировать этот файл.
Тут в наличии только две строки. В первой показан пример замены одного слова другим:
1 Активно: Да; Произносить: Xmas; Как: Christmas
а во второй строке показан пример замены с помощью регулярных выражений:
2 Активно: Да; Произносить: ((http|ftp|https)://)?(www.)?([-a-zA-Z0-9@:%._+
#=].[a-z]b)([-; Как: $4; Описание: Replace a web address by its domain name («example.com»)
Жмём отмену и попробуем вначале редактировать второй файл. Должно прозвучать:
Коррекция произношения [RHVoice.hmg]
Сразу предлагается ввести новое слово, в следующем редакторе перечислить варианты произношения через запятую, без пробела после запятой, но мы вначале ознакомимся со списком уже имеющихся омографов.
Табаем до вкладки Омографы, а затем ещё раз и попадаем на список, который можно просмотреть, перемещаясь стрелкой вниз. Вообще это файл можно просто открыть в любом текстовом редакторе и просмотреть. В нём 1525 строк.
Кроме первой вкладки тут есть ещё две, ознакомьтесь сами.
Видео:голос николай в балаболкеСкачать
Поиск омографов
Открываем в Балаболке текстовый документ и даём команду поиска омографов, Control +M (русская Ь). Откроется первое найденное слово и варианты выбора.
Чтобы понять контекст, можно нажать F5, будет озвучена строка, в которой слово находится.
Выбрав нужный вариант, жмём F2 и слово заменяется на правильно звучащее, а открывается следующий омограф.
Если слово нужно пропустить, то жмём F3.
Закрыть окно можно как обычное окно Windows.
Отредактированный файл можно сохранить в формате txt или в формате разметки Балаболки.
Файл sample.bxd
В него вносятся слова, которые просто требуется правильно произносить или можно вообще заменять одно выражение другими. Выше по тексту есть примеры его настроек, а с Яндекс-диска можете скачать словарь с некоторыми готовыми словами и выражениями.
Прежде, чем нажать кнопку «Редактировать», перейдите в список со словарями и остановитесь на том, который собираетесь редактировать.
Если в словаре много слов, то есть возможность включить фильтр, чтобы не искать нужное слово или выражение вручную. В первом же поле нужно выбрать, по каким условиям отображать, например, «содержит», в следующем поле ввести слово, дотабать и нажать «Применить фильтр», а далее в списке останутся только нужное слова. Или можно воспользоваться другими условиями фильтра.
Видео:Словари пользователя для RHVoiceСкачать
Мой вариант расстановки ударений
Мне оказалось проще открыть текстовый файл в AkelPad, затем с отключёнными словарями расставить ударения.
Далее текстовый файл перегоняю в mp3, внимательно слушаю и по ходу вношу правки в текст.
После этого опять прогоняю в mp3, но уже со вставкой звуковых эффектов, прослушиваю, и если грубых ошибок не случилось, то файл считаю готовым. Честно сказать, прогонять приходится некоторые тексты по 3 и более раз, если дать отдохнуть голове пару дней после каждого редактирования.
А словарь омографов, спросите вы? А пусть будет!
Видео:Как озвучить текст С помощью программы БалаболкаСкачать
Настроенная Балаболка, версия 2.14
Предлагаю Балаболку с настройками для синтезатора RHVoice. Мне больше нравится голос Александр, но можно использовать любой другой, из комплекта этого синтезатора.
Есть более свежие версии Балаболки, но, к сожалению, они читают многие книги не с самого начала, поэтому для себя я пока вернулся на версию 2.14, так что не рекомендую обновлять именно этот вариант Балаболки.
Скачайте архив с Яндекс-диска, распакуйте, а чтобы пользоваться, сделайте некоторые настройки, которые обычно слетают после переноса Балаболки на другой компьютер.
Вызовите меню настроек аудиофайлов командой Shift +F5, затем клавишей Tab пройдите по пути:
- MP3 вкладка выделено;
- Постоянный битрейт (CBR) радиокнопка отмечено;
- комбинированный список 48 Кбит/сек.
Почему 48? Просто услышал, что создатель RHVoice Ольга Яковлева говорила, что синтезатор использует именно этот битрейт, так что нет смысла записывать файлы с большим битрейтом, отчего они только будут иметь увеличенный размер, но качество звучания при этом не изменится.
Далее пробежитесь по Общему меню настроек, команда Shift +F6.
Ранее я уже описывал эти настройки, но для данной сборки нужно зайти на вкладку «Паузы», далее после слов:
Список. Вставить паузу в конец звукового файла (1000 мс)
опуститься на следующую строку:
Вставить аудиоклип в конец звукового файла (перелистывание длинное.mp3)
отсюда клавишей Tab перейти на кнопку «Редактирование» и поправить путь к файлу «перелистывание длинное.mp3», который находится в папке с программой.
Благодаря этому файлу каждый аудио отрывок будет завершаться длинным сигналом перелистывания страниц, что удобно при прослушивании.
Наконец, обязательно перепроверьте настройки синтезатора: скорость, высоту и громкость. Предпочитаемые мной значения описаны в статье, на которую я дал ссылку чуть выше.
Для себя я записываю звуковые файлы, используя выше описанный Конфигурационный файл RHVoice , задавая размер текста 27 тысяч знаков, получая в результате файлы объёмом 3.5 Мб, продолжительностью звучания около 10 мину, записывая по 40 файлов за один час.
Запускаю кодирование нескольких книг, потом смотрю в Области уведомлений на значке Балаболка, сколько файлов будет создано всего и сколько сделано уже.
Вы можете распаковать и настроить несколько копий Балаболки, используя каждую для своих целей. Например, с помощью одной записывать аудио книги, а с помощью другой читать текстовые книги зная, что закрытие этой Балаболки оставит открытыми читаемые книги.
Кстати, после создания сразу многих книг, записываемых по команде Control +Y, обязательно проверяйте, все ли книги записались и в полном ли объёме.
Иногда после этого приходится отдельные книги записывать по одной, команда Control +F8.
Добавить комментарий Отменить ответ
Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.
📽️ Видео
Как озвучить текст. Программа БалаболкаСкачать
Что такое ударение. Орфоэпический словарь 1 классСкачать
Балаболка - как пользоваться ?Скачать
Балаболка- Как установить русский голосСкачать
Записывай аудиокниги в два клика с программой балаболкаСкачать
Устанавливаем голос Элан Николай для программы БалаболкаСкачать
Устанавливаем голос Ivona Maxim для балаболкиСкачать
Российская БалаболкаСкачать
Балаболка Как установить русский голос?Скачать
Как ставить ударение в словах? 5 способов постановки ударенияСкачать
Балаболка #4Скачать