Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~otipl/SpeechGroup/publications/kriv_di1.doc
Дата изменения: Thu Mar 10 15:18:35 2005
Дата индексирования: Sat Dec 22 14:11:15 2007
Кодировка: Windows-1251

Н. В. Зиновьева, О. Ф. Кривнова, Л. М. Захаров (МГУ)

ПРОГРАММНЫЙ СИНТЕЗ РУССКОЙ РЕЧИ (синтезатор "АГАФОН")

В докладе описываются принципы создания лингвисти?еского обеспе?ения
программного синтеза ре?и, существенной ?астью которого являются знания о
звуковой системе русского языка.
Программный синтез ре?и, построенный с использованием лингвисти?ески
обоснованных алгоритмов и правил, можно рассматривать в то же время как
модель функционирования звуковой системы языка.
Автомати?еский анализ и синтез слитной ре?и является обязательным
компонентом систем искуственного интеллекта и необходимым условием развития
информационно-справо?ных систем, т. к. их потенциальным пользователем
становится любой ?еловек, имеющий телефон: он может звонить по телефону,
запрашивать информацию в обы?ной ре?евой форме и в такой же форме ее
полу?ать.
В основе предлагаемой нами системы ре?евого синтеза лежит идея
совмещения методов компиляции и синтеза по правилам. Метод компиляции при
адекватном наборе исходных элементов обеспе?ивает ка?ественное
воспроизведение спектральных характеристик ре?евого сигнала, а набор правил
- возможность формирования естественного просоди?еского оформления
высказываний.

Архитектура системы комбинированного компилятивно-алгоритми?еского

синтеза ре?и

текст

транскриптор


блок текущей блок текущей временной

кодировки и мелоди?еской параметр


блок текущего формирования

управляющих данных для синтеза

инвентарь базовых
элементов компиляции

цап

звуковой сигнал
Рис. 1. Блок-схема программного синтеза ре?и комбинированным методом
компиляции

и синтеза по правилам.

Архитектура предлагаемой системы программного синтеза ре?и вклю?ает
следующие функциональные блоки (см. блок-схему):
А. Автомати?еский транскриптор, переводящий орфографи?еский текст в
последовательность звукотипов, организованных в отдельные фразы или
синтагмы с приписанными им маркерами мелоди?еских контуров.
Б. Блок текущей кодировки, преобразующий транскрипционную запись в
последовательность кодов (имен) базовых элементов компиляции.
В. Блок текущей временной и мелоди?еской параметризации, приписывающий
звукотипам временные (в мсек) и тональные (в полутонах) характеристики.
Г. Блок текущего формирования управляющих данных для синтеза в виде
последовательности кодовых имен базовых элементов компиляции с приписанными
им временными и тональными (в Гц) характеристиками.
Д. Лингвисти?ески обоснованный набор базовых элементов компиляции,
представленных в виде фрагментов акусти?еского сигнала.
Е. Блок ЦАП.

Инвентарь базовых элементов компиляции

В известных системах компилятивного синтеза в ка?естве элементов
компиляции используются разли?ные типы единиц: аллофоны, дифоны, слоги,
полуслоги, двуслоги и т. д. Эти единицы выбираются так, ?тобы, с одной
стороны, избежать трудностей в отражении коартикуляционных процессов, а с
другой стороны, не перегружать машинную память ?резмерным их коли?еством.
Выбор того или иного типа единиц имеет свои преимущества и недостатки.
Выбор аллофонов (акусти?ески и перцептивно разли?имых контекстных
реализаций фонем) имеет такие преимущества, как сокращение памяти для их
хранения в оцифрованном виде (за с?ет меньшей длительности, ?ем
длительность сложных единиц) и возможность сокращения необходимого набора
путем обобщения тождественных контекстных влияний. Следует отметить, ?то
при уда?ном обобщении практи?ески решается и проблема адекватной стыковки
базовых элементов компиляции при синтезе ре?и. Однако зада?а поиска
возможных обобщений и тем самым определения оптимального набора аллофонов
может быть решена лишь с у?етом знания акусти?еских рефлексов
коартикуляционных процессов. Такой подход можно с?итать основанным на
фонети?еских знаниях в том понимании, которое принято в исследованиях по
искусственному интеллекту.
В предлагаемом нами варианте лингвисти?еского обеспе?ения синтеза ре?и
избран именно этот подход, т. е. в ка?естве базовых элементов компиляции
выбраны аллофоны, оптимальный набор которых и представляет собой акустико-
фонети?еский словарь синтеза. В нашей версии этот словарь вклю?ает в себя
667 единиц. В большинстве слу?аев элементы компиляции представляют собой
сегменты ре?евой волны фонемной размерности, однако в ряде слу?аев это не
так. Например, для синтеза смы?ных и вибрантов используется более одного
акусти?еского сегмента, а для синтеза некоторых двухсимвольных
последовательностей, в ?астности, заударных флексий, используется один
акусти?еский сегмент.
При формировании оптимальной акустико-сегментной базы данных, мы
исходили из следующих принципов:
- коли?ество контекстно обусловленных аллофонов гласных существенно
больше контекстно обусловленных аллофонов согласных;
- для гласных более важным является левый контекст, а для согласных -
правый, т. е. взаимодействие сегментов в со?етании СГ существенно больше,
?ем в со?етании ГС;
- разные согласные в разной степени подвержены контекстному влиянию,
?то предполагает разное коли?ество контекстно обусловленных аллофонов.
Формирование имен файлов, содержащих базовые элементы компиляции, -
особый вопрос, который тесным образом связан с проблемой кодировки текста в
процессе синтеза.
Несмотря на необходимость гибкого подхода к формированию наборов
контекстно обусловленных аллофонов для разных звукотипов, принципы их
кодировки должны быть едиными: коды должны вклю?ать в себя информацию о
типе сегмента и его контекстной окраске, ?тобы обеспе?ить правильный выбор
аллофонов по входным транскрипционным записям.
Мы выбрали следующий подход: каждый аллофон кодируется набором из шести
цифр, из которых первые две обозна?ают номер аллофона, следующие за ними
две цифры - тип левого контекста, а две последние - тип правого контекста.
Из двух первых цифр номера звукотипа первая цифра обозна?ает его класс, а
вторая - собственно номер звукотипа в пределах этого класса. Это позволяет
сгруппировывать звукотипы, подверженные сходному контекстному влиянию, и в
соответствии с этим строить свои правила кодировки для разных классов.
Таким образом, обеспе?ивается достато?но гибкая процедура кодировки,
позволяющая у?есть разли?ную степень подверженности разных звукотипов
контекстным влияниям.
Всего было сформировано десять классов звукотипов, из них восемь - для
согласных и два для гласных. Вообще говоря, все гласные подвергаются
контекстному влиянию в равной и достато?но большой степени, но по некоторым
соображениям мы все же разбили их на класс ударных и класс безударных.
Предложенная процедура разбиения на классы позволяет варьировать
коли?ество хранящихся в памяти контекстно обусловленных аллофонов согласных
от одного до 11.
Следует также упомянуть, ?то звукотипы некоторых классов представляют
собой акусти?ески неоднородные единицы, и для них в аллофонной базе данных
хранятся их отдельные составные ?асти, а в блоке кодировки, соответственно,
специальные правила их кодирования.
Для каждого гласного звукотипа было выделено десять левых и пять правых
контекстов. У?ет всех перцептивно зна?имых контекстных влияний для
большинства гласных приводит к вклю?ению в аллофонную базу данных 50-и
аллофонов для каждого гласного (исклю?ение составляют звуки, коли?ество
рассматриваемых контекстов для которых ограни?ено звуковой комбинаторикой
русского языка).
Особые правила кодировки (и, соответственно, последующей склейки)
предусмотрены для зияний и квазизияний в заударных суффиксально-флексийных
комплексах.
Акустико-сегментная база данных, полу?ившаяся в результате
предложенного подхода, вклю?ает в себя 137 сегментов для согласных
звукотипов и 530 - для гласных и при хранении в оцифрованном виде занимает
около 1-го мегабайта машинной памяти.

Транскриптор

Транскриптор осуществляет перевод буквенных последовательностей
(текстов в орфографи?еской записи) в символьную запись, единицу которой мы
будем далее называть звукотипом. В состав транскриптора входят блоки
следующих преобразований: переход "буква-фонема", переход "фонема-звукотип"
и текстовый процессор.
Блок перехода "буква-фонема" осуществляет такие операции над
орфографи?еской записью, как, например, устранение орфографи?еских фикций
(типа "-ого, -его" в окон?аниях), обработка особых слу?аев произнесения
сте?ений согласных, устранение твердых и мягких знаков, обработка
йотированных и мягких букв с соответствующей интерпретацией
твердости / мягкости соседних согласных и введением йота (подробнее см.
Златоустова, 1970).
Блок перехода "фонема-звукотип" вклю?ает правила, обрабатывающие слу?аи
позиционного озвон?ения, оглушения согласных и редукции гласных (в
соответствии с известной формулой А. А. Потебни).
Для каждой степени редукции использовались правила замены фонем на
редуцированные звукотипы, представленные в таблицах 1,2.
Блоки словарного транскриптора содержат не только общие правила
произнесения, распространяющиеся на подавляющее большинство слов, но и
списки исклю?ений, позволяющие транскрибировать слова с нестандартным
произношением (в большинстве своем это слова иностранного происхождения).
Кроме того, для пользователя предусмотрена возможность формирования
собственного словаря слов с нестандартным произношением.
Блок текстового процессора обрабатывает межсловные стыки (для гласных и
согласных) и служебные слова, превращая их в проклитики, энклитики и
слабоударные слова. Этот блок вносит определенные текстовые модификации в
формулу Потебни. Кроме того, в рамках этого блока осуществляется выбор типа
мелоди?еского контура синтагмы на основании знаков препинания, а также
выбор главноударного слова в синтагме.
Для обработки служебных слов задаются три следующих списка:
- список слов-проклитик, которые приклеиваются к последующему слову,
теряют ударность и далее транскрибируются по общим правилам, кроме слу?ая,
когда проклитика окан?ивается на согласный, а последующее слово на?инается
на йотированный гласный (я, ю, е, е) - в этом слу?ае пробел обрабатывается
как орфографи?еский твердый знак;
Например: "по+д е+лью" ---> [падй'э+л'й'у2]
- список слов-энклитик, которые приклеиваются к предыдущему слову,
теряют ударность и далее транскрибируются по общим правилам;
Например: "сказа+л же+" ---> [сказа+лжэ]
- список слабоударных слов, которые не приклеиваются ни к какому из
знаменательных слов, но при этом их ударный гласный редуцируется до 1-ой
степени редукции с сохранением ка?ества;
Например: "скво+зь тума+н" ---> [сквос' ту2ма+н]
Текстовые модификации формулы Потебни состоят в следующем:
- на?альный неударный гласный аллофон слова всегда сохраняет первую
степень редукции;
- в слу?ае сте?ения двух гласных аллофонов внутри одного слова второй
аллофон, если он безударный, всегда имеет первую степень редукции;
- безударный гласный в открытом конце слова внутри синтагмы приобретает
вторую степень редукции, кроме слу?ая, когда следующий слог ударный; здесь
безударный сохраняет первую степень редукции.
Для маркировки мелоди?еского контура синтагмы используются знаки >, <,
-, ?, /, которые ставятся вместо знака + после ударного гласного
главноударного слова в соответствии со знаками препинания в орфографи?еском
тексте.

Блок текущей кодировки

Блок кодировки работает следующим образом. Практи?ески всегда он
рассматривает последовательность из трех символов входной транскрипции
[.yxz.], где x - кодируемый элемент, y - левый контекст, а z - правый. Для
каждого из элементов триады существуют специальные списки, которые
определяют класс звукотипа (для x) и тип контекста (для y и z). Класс
звукотипа, как уже говорилось выше, определяет выбор правил анализа
контекстов, ?то позволяет в ряде слу?аев сократить процедуру перебора до
минимума, а также сократить акустико-сегментную базу данных до оптимального
объема.

Блок текущей временной и мелоди?еской параметризации

Данный блок в нашей системе содержит правила временного и мелоди?еского
оформления синтагм с у?етом их ритми?еского строения и сегментного
наполнения. Функция этих правил состоит в том, ?тобы определить временные
(в мсек) и мелоди?еские в (полутонах) характеристики для транскрипционных
единиц, которые при обработке текста формируются транскриптором.
Необходимые для этого предварительные операции: выделение синтагм, выбор
типа мелоди?еского контура, определение степени выделенности
(ударности / безударности) входящих в синтагму гласных и символьного
звукового наполнения слоговых комплексов, - осуществляются блоком
автомати?еского транскриптора.
Правила временного оформления синтагмы сформулированы отдельно для
гласных и согласных.
Правила, задающие временные характеристики гласных в обрабатываемой
синтагме, у?итывают степени выделенности (редукции) гласного (4 градации) и
его фонети?еское ка?ество (степень открытости - 3 градации). Кроме того,
для ударного гласного последнего полнозна?ного слова у?итывается ?исло
слогов в слове и коли?ество ударных гласных, предшествующих данному в
синтагме. Предусмотрено также продление гласных (независимо от степени их
редукции и фонети?еского ка?ества) в позиции абсолютного конца синтагмы.
Что касается влияния согласных на длительность гласных, то оно у?итывается
лишь в наиболее ярких слу?аях, прежде всего, для гласных в позиции перед
интервокальными вибрантами.
Для последовательностей гласных, образующих единый элемент компиляции
(заударные флексии), действует правило аддитивного сложения длительностей,
задаваемых другими правилами временного процессора.
Правила, определяющие временные характеристики согласных у?итывают
следующие факторы: позиция согласного относительно границ синтагмы и
фонети?еского слова; интервокальная / неинтервокальная позиция; позиция в
кластере (сте?ения согласных); простой / сложный состав базовых элементов
компиляции, необходимых для звукового синтеза согласных.
Во временной процессор входят также правила, задающие длительность
паузы после окон?ания синтагмы (коне?ной / неконе?ной), которые необходимы
для синтеза связного текста.
Правила мелоди?еского оформления синтагмы задают два тональных зна?ения
(в полутоновой шкале) каждому транскрипционному сегменту в ка?естве его
на?альной и коне?ной характеристик. Полутоновые характеристики (на?альная и
коне?ная) формируются текущим образом (слева направо) слоговыми циклами,
т. е. в рамках последовательности (Cn)Г, где Cn - любое ?исло согласных,
предшествующих гласному (вклю?ая 0).
В нашей системе мелоди?еский процессор содержит правила для
формирования следующих типов мелоди?еских контуров: завершенность, два вида
незавершенности, общий вопрос, специальный вопрос. Для всех контуров, кроме
последнего, у?итывается возможность разного положения главноударного слога
(мелоди?еского центра) синтагмы. Специальный вопрос формируется для слу?ая
совпадения мелоди?еского центра с вопросительным местоимением.
При определении мелоди?еских характеристик транскрипционных элементов,
входящих в обрабатываемый слог, у?итываются следующие факторы: тип
мелоди?еского контура синтагмы; положение слога относительно мелоди?еского
центра контура (совпадение, слева, справа); положение слога относительно
на?альной и коне?ной границы синтагмы; степень выделенности (редукции)
гласного в обрабатываемом слоге; степень выделенности (редукции) гласного,
непосредственно предшествующего обрабатываемому слогу; ?исло символьных
элементов в слоге; тип символьного элемента слога (согласный, гласный) и
положение этого элемента относительно на?ала слога (первый / непервый);
фонети?еское ка?ество согласных в слоге (глухость / звонкость).

Блок формирования управляющих данных для синтеза

Этот блок объединяет результаты кодировки текста в терминах имен
базовых элементов компиляции и временной и мелоди?еской параметризации. В
процессе работы этого блока формируется таблица стандартного формата,
которая вклю?ает коды аллофонов для выбора элементов компиляции и
задаваемые правилами просоди?еского оформления длительности и тональные
характеристики для необходимой модификации каждого элемента в процессе
синтеза звуковой реализации целостной синтагмы. Пример подобной таблицы
приводится ниже для фразы "Мама мыла малину?" (в мужском произнесении).

Таблица 1.
# ма+ма мы?лъ мал'и+ну2 #

|звук |код |длит-ть Т|зна?. ЧОТ в пт |зна?. ЧОТ в Гц |
| | |(в мс) |на?. |кон. |на?. |кон. |
|м |410000 |60 |12 |12 |120 |120 |
|а+ |811411 |100 |13 |13 |125 |125 |
|м |410000 |60 |12 |12 |120 |120 |
|а |911411 |75 |13 |13 |125 |125 |
|м |410000 |60 |13 |19 |125 |180 |
|ы? |841411 |80 |19 |24 |180 |240 |
|л |520401 |40 |24 |23 |240 |225 |
|ъ |971111 |50 |23 |23 |225 |225 |
|м |410000 |60 |23 |12 |225 |120 |
|а |911416 |75 |12 |11 |120 |110 |
|л' |570104 |50 |11 |11 |110 |110 |
|и+ |831610 |95 |11 |11 |110 |110 |
|н |420000 |60 |11 |6 |110 |85 |
|у2 |921318 |110 |6 |5 |85 |80 |


На основании описанного макета в настоящее время созданы базы данных,
лингвисти?еское обеспе?ение и демонстрационная работающая версия
озву?ивания русского пе?атного текста в женском и мужском произнесении.