Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~otipl/SpeechGroup/publications/kriv_d~2.doc
Дата изменения: Thu Mar 10 15:18:35 2005
Дата индексирования: Sat Dec 22 14:12:56 2007
Кодировка: Windows-1251

АВТОМАТИЧЕСКИЙ СИНТЕЗ РУССКОЙ РЕЧИ
ПО ПРОИЗВОЛЬНОМУ ТЕКСТУ
(вторая версия с женским голосом)

О.Ф.Кривнова
okri@philol.msu.ru



Abstract
This paper describes the main principles of Russian text-to-speech
synthesis developing by Speech group of the Philological Department, Moscow
Lomonosov University, Russia. The system is organized as a mixture of two
methods: concatenation - on the segment level (using the linguistically
motivated units - allophones spliced together to form the synthesized
speech wave) and the rule-based method on the prosodic level (generating
melodic and duration settings to modify speech wave created from the
allophones according to the prosodic characteristics of the phrase being
synthesized).


1. Вводные заме?ания

Фонети?еская группа кафедры теорети?еской и прикладной лингвистики
филологи?еского факультета МГУ продолжает работу по созданию системы
высокока?ественного синтеза русской ре?и по произвольному тексту (так
называемый TEXT-to-SPEECH или TTS-синтез). Кроме автора доклада, в этой
работе у?аствовали и у?аствуют А.В.Бабкин, Н.В.Зиновьева, Л.М.Захаров,
.О.Сидоров и Г.С.Строкин. В настоящее время мы работаем над созданием новой
версии синтеза на основе женского голоса. Первая версия, синтезатор
"АГАФОН", достато?но подробно описана в докладе [1]. Основная работа над
этой версией осуществлялась в 1992-1995 годы. По ряду при?ин система
"АГАФОН" оказалась неудобной для дальнейшей модернизации, как в
лингвисти?еском , так и в техни?еском плане. В связи с этим дальнейшая
работа в этом направлении - это в сущности создание нового
экспериментального макета, который у?итывал бы как положительные, так и
отрицательные характеристики уже имеющегося варианта.

В настоящем сообщении акцент будет сделан на тех изменениях, которые
содержит новая версия относительно предыдущей. Эти изменения касаются
прежде всего конкретного наполнения разных блоков системы и инструментария,
который был специально разработан и в настоящее время используется нами для
оперативной проверки и тестирования результатов работы как всей системы в
целом, так и ее отдельных блоков. Без такого инструментария разработка
высокока?ественного синтеза ре?и практи?ески невозможна.

2. Общая архитектура системы

Архитектура новой версии синтезатора осталась в основном прежней и
соответствует в общих ?ертах прототипи?еской схеме синтеза по
произвольному тексту (см.рис.1). Как и в любой TTS-системе, в нашем
синтезаторе реализованы два главных блока, представленных на рис.1: блок
лингвисти?еской обработки текста и блок озву?ивания или собственно
формирования ре?евого сигнала. Работа блока озву?ивания основана на
использовании "гибридного" подхода, который совмещает два метода: метод
конкатенации и синтез по правилам. На основе конкатенации (склейки)
фрагментов акусти?еского сигнала, взятых из ре?и диктора-"донора",
создается грубая, перви?ная основа формируемого акусти?еского сигнала.
Далее эта акусти?еская основа подвергается модификации по правилам,
функция которых состоит в том, ?тобы придать "склеенным" фрагментам
акусти?еского сигнала нужные просоди?еские характеристики (?астоту
основного тона, длительность и энергию). Если говорить о зарубежных
аналогах, то блок озву?ивания, реализованный в нашей системе, наиболее
близок к так называемой

Блок-схема прототипи?еской системы синтеза ре?и по тексту
PSOLA-технологии во временной области [2]. Эта технология в настоящее время
имеет много вариантов, широко используется в Европе для синтеза на
материале разных языков, и, как показывает практика, позволяет полу?ить
высокое ка?ество синтезируемой ре?и при относительно небольшой сложности
генерирующих акусти?еских правил и вы?ислительных затрат.

В связи с использованием метода конкатенации особое место в нашей системе
принадлежит акустико-фонети?еской базе данных, содержащей фрагменты
акусти?еского сигнала, которые "склеиваются" в нужной последовательности
при формировании синтезируемой ре?евой волны. В новой версии база расширена
до 1200 единиц (акусти?еская база "АГАФОНа" вклю?ает 670 единиц). Более
подробно о блоке озву?ивания и акусти?еской базе синтеза в новой версии
будет рассказано в докладе А.В.Бабкина. Здесь же отметим, ?то синтезатор
может работать как с новой базой (женский голос), так и с прежней базой
(мужской голос "АГАФОН").

3. Блок лингвисти?еской обработки текста

При создании нашей системы мы не занимались такими зада?ами, как
автомати?еское определение языка входного текста и коррекция
орфографи?еских и пунктуационных ошибок. Первая зада?а существенна для
систем многоязы?ного синтеза, а вторая вырастает в особую проблему при
озву?ивании электронного варианта текста, полу?енного в результате
сканирования. Необходимо отметить, ?то и в обы?ном тексте, введенном с
использованием клавиатуры, могут быть ошибки, устранение которых желательно
до на?ала подготовки текста к озву?иванию.

3.1. Нормализация текста

Главной зада?ей блока лингвисти?еской обработки является создание
транскрипционного представления (записи) текста и его фрагментов, которое
должно содержать как сегментную, так и супрасегментную фонети?ескую
информацию, необходимую для последующей генерации акусти?еского сигнала.
Для построения такой транскрипционной записи входной текст должен быть
сна?ала представлен как последовательность акцентуированных орфографи?еских
слов, разделенных пробелами и разрешенными пунктуационными знаками.
Такой текст условно может быть назван "нормализованным". Под
акцентуированным орфографи?еским словом понимается орфографи?еская запись
слова, ударный гласный которого каким-то образом специально маркирован.
Если слово имеет побо?ное ударение(ударения), то оно (они) также должны
быть отме?ены. Буква "е" должна быть заменена в нужных слу?аях на букву
"е".

Операции, которые необходимы для преобразования входного текста в
нормализованный, относятся к этапу нормализации. Разли?аются следующие типы
операций:
1. Обработка текстовых объектов, которые не являются обы?ными словами
(цифры, условные сокращения типа "г-н, г., т.д., т.е." и др.) и требуют
вербализации с выбором нужной граммати?еской формы[1].
Обработка текстовых объектов, которые не являются обы?ными словами, но в то
же время не требуют вербализации ( аббревиатуры, собственные имена).
Обработка обы?ных слов (замена "е" на "е", акцентуация с у?етом возможной
омографии).

Как нетрудно видеть, для полу?ения нормализованного текста (даже
неспециального типа) необходимы разли?ные исто?ники информации и средства.
Так, с одной стороны, нужен словарь типовых сокращений, встре?ающихся в
текстах, а с другой, средства их идентификации и средства выбора и/или
построения нужной формы того слова, которым заменяется сокращение.
Обработка цифровых последовательностей невозможна без средств выбора и/или
построения сложных коли?ественных и порядковых ?ислительных, а в ряде
слу?аев знания той функции, которую выполняет цифровая последовательность в
тексте (указание на коли?ество, время, телефон, денежная сумма и пр.).
Зарубежные исследователи, занимающиеся многоязы?ным синтезом, у?итывают,
например, существование отдельных произносительных подсистем озву?ивания
телефонных номеров, присущих разным языковым культурам. Для правильного
озву?ивания собственных имен необходим представительный словарь, содержащий
граммати?ескую информацию в том же объеме, который дается, например, в
Граммати?еском словаре А.А.Зализняка для обы?ных существительных.

К сожалению, у нас пока не было возможности заниматься сколько-нибудь
детально и системати?ески операциями типа 1 и 2. В настоящее время в нашей
системе осуществляется озву?ивание цифровых последовательностей в составе
дат и обозна?ений временных отрезков. На материале газетных публикаций
составлен ?астотный словарь инициальных аббревиатур с указанием
соответствующей фонети?еской транскрипции и словосо?етания-исто?ника.
Однако на данном этапе разработки синтезатора основное внимание мы уделяли
созданию механизмов автомати?еской расстановки словесных ударений и замены
"е->е" (операции типа 3). Обе зада?и решаются у нас автомати?ески с помощью
морфологи?еского процессора, основанного на Граммати?еском словаре
А.А.Зализняка (разработ?ик - Г.О.Сидоров). Расстановка ударений
осуществляется в рамках процедуры "анализа ?ерез синтез" на основе
словарной информации об акцентной схеме слова, номере ударного гласного
(гласных) в исходной форме слова и позиции буквы "е". Словарь оформлен в
виде открытой базы данных с базовой единицей, равной исходной форме слова,
и допускает вклю?ение разли?ной информации о слове, хотя в настоящее время
используется лишь та информация, которая содержится в Граммати?еском
словаре А.А.Зализняка. Что касается проблемы омографии, то она находится в
стадии исследования. Временно она решается предъявлением пользователю меню
из омографи?ных форм, из которых должна быть выбрана правильная форма.
Аналоги?но обрабатываются незнакомые системе слова - в них надо указать
номер ударного гласного. Кроме того, в нашей системе предусмотрена
возможность создания и использования пользовательского словника, в который
может быть занесено любое акцентуированное орфографи?еское слово; в
соответствии с этой записью и происходит его дальнейшее озву?ивание. Если
ни одна из указанных возможностей не используется, ударение по умол?анию
ставится на первом слоге слова. Следует отметить, ?то словесное ударение
маркируется у всех слов, содержащих хотя бы один гласный, в том ?исле и у
односложных предлогов.

2. Акцентно-интонационный транскриптор (АИТР)

При синтезе эмоционально нейтральной ре?и, воспроизводящей достато?но
тщательное произнесение (полный стиль), акцентно-интонационный транскриптор
осуществляет над нормализованным текстом операции, которые могут быть
отнесены к двум типам.
Локализация границ интонационных фраз, определение глубины ?ленения и выбор
параметров интонационной модели, оформляющей фразу.

Интонационной фразой (ИФ) называется связный, граммати?ески организованный
фрагмент текста (предложение или его ?асть), которому приписывается одна
интонационная модель. Важнейшими клю?ами для определения интонационных
границ при озву?ивании письменного текста являются пунктуационные знаки,
однако взаимно-однозна?ного соответствия здесь нет. С одной стороны, в
тексте могут быть "фиктивные" в этом смысле знаки (например, запятая после
союза перед обособленным оборотом или придато?ным предложением), с другой -
интонационное ?ленение может требоваться там, где по правилам пунктуации
знак препинания не ставится (например, после распространенной именной
группы в на?але предложения). В общем слу?ае для определения интонационных
границ, кроме пунктуационных клю?ей, нужна информация о границах главных
(актантных и сирконстантных) составляющих предложения, поскольку конец
такой составляющей является интонационно зна?имым текстовым событием.
Однако для того, ?тобы это событие действительно маркировалось
интонационной границей, существенны и другие факторы, в ?астности, длина
текстового отрезка до предыдущей границы (?то уже "произнесено") и длина
последующей составляющей (?то предстоит "произнести"). В настоящее время мы
ведем работу по созданию аннотированной тексто-ре?евой базы данных, с тем,
?тобы на ее основе сформулировать правила локализации интонационных границ,
с у?етом наиболее важных и статисти?ески доминирующих факторов. Пока же в
нашей системе ?ленение в автомати?еском режиме осуществляется по знакам
препинания, однако предусмотрена возможность реализации ру?ной маркировки
?ленения в любой то?ке текста.

Глубина ?ленения фиксирует степень отделения данной интонационной фразы от
последующего продолжения. Мы разли?аем 4 степени, которые физи?ески
реализуются в нашей системе ?ерез длительность межфразовой паузы, хотя в
реальной ре?и это не единственный просоди?еский параметр, у?аствующий
в создании разных градаций интонационного отделения. Глубина ?ленения или
паузации достато?но однозна?но может быть определена по знакам препинания
(и знаку конца абзаца).

Каждой интонационной фразе АИТР должен приписать ряд характеристик,
определяющих выбранную для озву?ивания интонационную модель. Важнейшими
характеристиками являются: тип интонационной модели и глобальные параметры
произнесения - тональные (уровень базового тона голоса, ширина голосового
диапазона, степень тонированности ударных гласных), темп и громкость. В
нашем синтезаторе используется в настоящее время 7 моделей: 1 модель для
реализации утвердительности (и завершенности сообщения) в повествовательном
предложении; 2 модели для реализации незавершенности в повествовательном
предложении; 3 вопросительных модели (общий, специальный и
противопоставительный вопросы); 1 модель, типи?ная для воклицательного
предложения. Выше указаны прототипи?еские контексты употребления
интонационных моделей, которые активизируются в автомати?еском режиме на
основе пунктуационных клю?ей и некоторых лексико-граммати?еских показателей
(вопросительные слова, союзы и т.п.). В ру?ном режиме этот же набор моделей
может использоваться для оформления любого текстового отрезка, ?то
является, на наш взгляд, одним из исто?ников реализации разли?ных
паралингвисти?еских (эмоционально-оцено?ных) характеристик текста. Что же
касается глобальных интонационных параметров, указанных выше, то в нашей
системе реализована возможность их ру?ной настройки в любых комбинациях,
однако в автомати?еском режиме пока ?то используется наиболее нейтральный
(немаркированный) вариант.

2. Акцентуация и ритми?еский рисунок интонационной фразы.

Следуя фонети?еской традиции, мы исходим из того, ?то степень выделенности
слов (и слогов) в интонационной фразе регулируется двумя функционально
разли?ными механизмами: фокусной акцентуацией и ритмизацией. Фокусные
акценты (разли?ные смысловые и эмфати?еские под?еркивания слов) в тексте в
зна?ительной степени определяются интенцией говорящего и как правило
реализуют прямую связь между коммуникативно-смысловой характеристикой фразы
и ее просоди?ескими параметрами. В письменном эквиваленте фразы ?асто не
бывает никаких клю?ей, которые бы позволили автомати?ески определить место
и тип фокусного акцента. В связи с этим формализация фокусного
акцентирования является самым узким местом всех TTS-систем. В нашем
синтезаторе реализация фокусных акцентов возможна пока ?то только на основе
ру?ной маркировки (в этом слу?ае необходимо приписать символ " \ " ударному
гласному акцентируемого слова), а способ тонального оформления акцентов
задается типом выбранной интонационной модели. Если во фразе маркированы
фокусные словесные акценты, ударный слог последнего из них (или
единственного) признается ядерным слогом интонационной модели или ее
интонационным центром и маркируется в транскрипции фразы специальным знаком
"^".

Под ритми?еским рисунком фразы мы понимаем распределение выделенности
(prominence) слогов во фразе, которое формируется с у?етом следующих
факторов: метри?еской схемы слова, степени выделенности ударного слога
слова, типи?ной (немаркированной) для слов данного лексико-граммати?еского
класса, и линейной позицией слова в ИФ. В результате внутри ИФ разли?аются
4 градации выделенности слога: 1-слабый безударный, 2-сильный безударный
или слабый ударный, 3- обы?ный ударный, 4- усиленный ударный
(соответствующие зна?ения приписываются в ка?естве особых признаков
гласным). Усиленное ударение полу?ает ударный слог последнего
знаменательного слова в ИФ (или просто последнего, если знаменательных слов
во фразе нет), образуя так называемое автомати?еское фразовое
(синтагмати?еское) ударение. Если при этом во фразе нет фокусных акцентов,
слог-носитель автомати?еского фразового ударения признается (по умол?анию)
интонационным центром фразы и маркируется знаком "^". Следует отметить, ?то
это наиболее типи?ная ситуация для повествовательного текста, построение
которого базируется на использовании нейтральных линейно-интонационных
структур с коне?ным положением интонационного центра.

3.3. Фонемный транскриптор (ФТ)

Фонемный транскриптор строит по нормализованному входному тексту
соответствующую ему звуковую транскрипцию, основанную на действующих в
русском языке стандартных правилах ?тения. Максимальной сферой действия
этих правил является интонационная фраза, поэтому интонационное ?ленение
осуществляется до на?ала работы ФТ. Инвентарь разли?аемых звуковых единиц в
используемой нами транскрипции невелик и вклю?ает 56 основных звукотипов
(без у?ета разли?ий в фонети?еской долготе согласных). С то?ки зрения
фонети?еской детализации он занимает промежуто?ное положение между
традиционно признаваемыми для русского языка фонемным и фонети?еским
инвентарями. Соответственно, выходная транскрипция, которая может
контролироваться в ка?естве промежуто?ного результата работы всей системы
синтеза, привы?на для фонетиста, а при желании легко может быть
преобразована к более традиционному фонемному или фонети?ескому виду.
Транскрипция строится на базе русского алфавита, ?то также следует
традициям русской фонетики.

Как и ранее (в системе "АГАФОН"), в составе ФТ можно выделить подблоки
фонологи?еских правил, осуществляющих преобразования "буква-фонема" и
"фонема-звукотип". Правила описывают как внутрисловные, так и межсловные
преобразования, и состав этих правил по сравнению с "АГАФОНОМ" изменился не
слишком сильно. Однако две инновации весьма существенны: 1- более детально
у?итывается нерегулярное произношение некоторых классов слов и даже
индивидуальных слов (в системе на настоящий момент содержится 54 списка
исклю?ений, которые могут текущим образом корректироваться и пополняться);
2 - правила записываются в стандартной и удобной для лингвиста форме,
допускающей мгновенное вклю?ение вводимой закономерности в программу
синтеза и ее верификацию ?ерез озву?ивание (используемый нами язык описания
правил рассматривается в докладе Г.С.Строкина).

3.4. Блок формирования просоди?еских характеристик

В зада?у правил этого блока входит определение энергети?еских, временных и
тональных характеристик, которые должны быть приписаны звуковым единицам,
образующим фонети?ескую транскрипцию синтезируемой фразы. Эти
характеристики задают физи?еские параметры, в соответствии с которыми
осуществляется модификация базовых акусти?еских аллофонов, выбираемых для
конкатенации при акусти?еском синтезе фразы. Главная трудность в создании
правил этого блока состоит в том, ?то, с одной стороны, именно
просоди?еские характеристики ответственны прежде всего за естественность
зву?ания синтезируемой ре?и, а с другой - каждый из указанных просоди?еских
параметров имеет многофакторную природу, связан как с акцентно-
интонационным, так и со звуковым компонентами фонети?еской транскрипции.
Кроме того, сами акусти?еские параметры тонким образом взаимодействуют
между собой в создании интегрального звукового эффекта. Поэтому именно этот
блок требует скрупулезной и длительной отработки для фонетистов,
у?аствующих в создании TTS-систем.

Рассмотрим кратко, как это осуществляется в нынешней версии нашей системы.

а) Энергети?еские характеристики аллофонов.
В основном сохраняются те характеристики, которые присущи аллофонам как
единицам акусти?еской базы синтеза, т.е. в большинстве слу?аев никакой
модификации исходных данных не происходит (здесь важно отметить, ?то в
нашей системе акусти?еская база содержит более 1000 единиц конкатенации).
Введено несколько ?астных правил для у?ета изменения интенсивности на
коне?ных слогах фразы, а также некоторое коли?ество правил
вспомогательного, корректирующего типа. В целом, нужно сказать, ?то, хотя
энергети?еский параметр является наименее зна?имым для реализации зна?имых
фонети?еских разли?ий, необходима дальнейшая работа по исследованию и у?ету
его вклада в общее ка?ество синтезируемой ре?и.

б) Временные характеристики аллофонов.
Временные характеристики гласных и согласных формируются отдельными
блоками. В обоих слу?аях произведена иерархизация факторов, определяющих
длительность аллофона.

Для гласных главными факторами (в порядке убывания зна?имости) являются
степень выделенности, задаваемая ритми?еским рисунком, фонемная
принадлежность гласного, удаленность гласного от на?ала фразы и на?ала
слова (для ударных гласных). У?ет этих факторов осуществляется с помощью
коли?ественной модели, которая уже использовалась в "АГАФОНе" и описана в
литературе [3,4]. Полу?аемые в результате длительности являются базовыми,
они задают в общих ?ертах временной контур гласных в синтезируемой фразе.
Базовые длительности могут подвергаться дальнейшей модификации с помощью
более ?астных, дополнительных правил. По сравнению с "АГАФОНом" в нынешней
версии более детально у?итываются следующие дополнительные закономерности:
удлинение гласных в предпаузальной позиции конца фразы, удлинение гласных в
со?етаниях с определенными классами согласных - "й", вибрантами, носовыми
сонантами; удлинение гласных в составе зияний; сокращение гласных в
контексте глухих согласных.

Для согласных главными факторами (в порядке убывания зна?имости) являются
фонемная принадлежность согласного, степень выделенности слога, элементом
которого является согласный (задается ритми?еским рисунком), положение во
фразе (на?альное, серединное, коне?ное) и положение в кластере (коне?ный/не
коне?ный). Нам не удалось найти в фонети?еской литературе статисти?ески
представительных коли?ественных данных о взаимодействии этих факторов в
связной ре?и. Поэтому было проведено специальное исследование, в результате
которого удалось сформулировать 6 правил, которые задают базовые
длительности согласных с у?етом этих факторов. Кроме того, как и для
гласных, используются дополнительные, ?астные правила, которые у?итывают
конкретный состав кластера, в который входит согласный, и нали?ие признака
долготы.

в) тональные характеристики аллофона.
Тональные характеристики аллофонов определяются для каждой интонационной
модели отдельно, в два этапа (подробнее см.[5]). Сна?ала изменения высоты
голосового тона, образующие в совокупности тональный контур фразы, задаются
в полутоновой шкале, относительно среднего (или базового) тона говорящего.
Задание тонального контура относительно базового тона, образующего
исходный, "нулевой" уровень фиксации тональных изменений, позволяет
использовать одни и те же просоди?еские правила для синтеза "разновысотных"
голосов. Кроме того, это дает возможность автономно задавать уровень
базового тона, если фраза должна быть озву?ена в маркированном тональном
регистре - пониженном или повышенном относительно нейтрального. На втором
этапе полутоновой контур преобразуется в контур ?астоты основного тона: для
этого достато?но задать физи?еский коррелят базового тона в Гц и
использовать известное соотношение между полутоновой и ?астотной шкалами.
Необходимо также "обнулить" ?астотные характеристики для невокальных
аллофонов.

В разрабатываемой версии синтезатора полностью пересмотрена стратегия
формирования тонального контура и реализующих ее правил. В общих ?ертах эта
стратегия такова: контур формируется в результате конкатенации тональных
объектов двух типов - тональных фигур и монотонизированных тональных
у?астков. Главными параметрами тональных фигур являются тип тонального
движения (задается интонационной моделью), область реализации (у?асток
фразы, на котором реализуется фигура (задается интонационной моделью,
конкретизируется звуковой структурой синтезируемой фразы, обы?но вклю?ает
ударные слоги), ?астотные и временные характеристики особых то?ек (задается
интонационной моделью и конкретизируется звуковой структурой синтезируемой
фразы) . Тональные фигуры иерархизованы с то?ки зрения функционально-
фонети?еской зна?имости и этим определяется степень отражения акусти?еских
деталей в имеющихся правилах. А именно, самой зна?имой является тональная
фигура, сопряженная со слогом-интонационным центром модели (см.выше), далее
следуют фигуры, сопряженные с первым и последним сильными ударными слогами
фразы (если они не являются ядерными), а затем фигуры, сопряженные с
остальными ударными слогами. Монотонизированные у?астки сопряжены с
цепо?ками безударных и слабо ударных слогов в на?але и конце фразы, а также
в интервалах между сильными ударными слогами. Контролируемыми
характеристиками монотонизированного у?астка являются ?астотное положение
(задается на?альным уровнем базового тона и конкретизируется звуковой
структурой фразы) и тональный интервал (задается интонационной моделью).

Коли?ество правил, которые формируют описанные тональные объекты, зависит
от фонети?еской сложности самого объекта и его функционально-фонети-?еской
зна?имости. Например, фонети?еская детализация и аллофонная "раскладка"
главной тональной фигуры одной из моделей незавершенности (в нашей
транскрипции /\) осуществляется набором из 27 правил, которые у?итывают
положение интонационного центра модели в синтезируемой фразе (на?альное/
серединное/ коне?ное), положение ударного ядерного слога модели в слове
(на?альное/ нена?альное), звуковую структуру ядерного слога (коли?ество
предвокальных согласных), область реализации (коли?ество слогов за ударным
гласным ядерного слога). На данном этапе разработки мы не ставили перед
собой зада?у оптимизации набора правил, необходимых и достато?ных для
полу?ения естественного тонирования синтезируемой фразы. Это особая зада?а.
Мы исходим скорее из эмпири?еского опыта и известных экспериментально-
фонети?еских данных, которые дают основания с?итать, ?то ?резвы?айное
разнообразие фонети?еской структуры разных фраз(как в акцентно-
интонационном, так и в звуко-слоговом плане) порождает большую и
системати?ескую вариативность в характеристиках тональных контуров,
реализующих одну и ту же интонационную модель. У?ет этой вариативности в
области тоновых явлений существенен в той же степени, в какой важно
у?итывать коартикуляционные явления для сегментных звуковых единиц. В связи
с этим возникает необходимость в специальной контекстной параметризации
синтезируемых фраз, которая должна фиксировать все особенности их
фонети?еского строения, влияющие на детализацию тональных компонентов
синтезируемого контура.

3.5.Приведение звуковой транскрипции к базовым единицам синтеза

Указанная операция необходима в связи с разной степенью фонети?еской
детализации, которая задается фонемным транскриптором, с одной стороны, и
необходима для ка?ественного синтеза, с другой. Напомним, ?то транскриптор
работает с инвентарем из 56 единиц, а акусти?еская база аллофонных единиц
конкатенации содержит 1200 единиц. Следовательно, возникает зада?а перехода
от фонети?еской транскрипции фразы к ее более детальному представлению в
терминах базовых контекстно-зависимых аллофонов. Эта зада?а решается в
нашей системе блоком, который называется кодировщиком. Принципы его работы
те же, ?то и в "АГАФОНе". Имеющиеся изменения обусловлены прежде всего
увели?ением аллофонной акусти?еской базы, т.е. коли?еством у?итываемых
контекстных влияний на звуковом уровне, и небольшими изменениями в фонемном
транскрипторе.

В заклю?ение хотелось бы сказать, ?то особыми зада?ами на всех этапах
разработки любой TTS-системы (и нашей в том ?исле) являются тестирование,
верификация и текущая коррекция ошибок в разных блоках синтезатора.
Трудность здесь заклю?ается в том, ?то во временном отношении работа не
может быть организована поэтапно в соответствии с архитектурой системы:
даже при отработке какого-то конкретного блока вся система должна как-то
функционировать в целом, т.е. факти?ески работа над отдельными
функционально самостоятельными ?астями системы должна вестись одновременно.
Для нашего коллектива разработ?иков (небольшого и занятого к тому же
решением разных других проблем) о?ень важно было создать специальные
средства тестирования текущих коррекций синтеза, реализуя при этом
возможности как автомати?еского, так и ру?ного ввода необходимой информации
(инструментарий разработан Г.С.Строкиным).
Синтезатор реализован в библиотеке dll для платформы Win32 (Windows 95 или
NT); место, занимаемое на диске, около 10Mb.
Литература
1. Л.М.Захаров, Н.В.Зиновьева, О.Ф.Кривнова. Программный синтез русской
ре?и (синтезатор "АГАФОН") // Труды Международного семинара по компьютерной
лингвистике и ее приложениям. Диалог'95, Казань.
2. T. Dutoit. Аn Introduction to Text-to-Speech Synthesis. Dordrecht-Boston-
London. 1997.
3. Коли?ественная оценка воздействия супрасегментных факторов на
длительность ударных гласных в синтагме // Всес.школа-семинар "АРСО-12".
Новосибирск, 1984.
4. O.F.Krivnova. Durational Patterns of Russian Syntagma: The Standard
Scheme and its Modifications // Proc.of the XI-th Int. Congr.of Ph.
Sc.Tallinn, 1987.
5. Моделирование и синтез фразовой интонации на основе особых то?ек
тонального контура // Труды Международного семинара по компьютерной
лингвистике и ее приложениям. Диалог'97 М., 1997.
-----------------------
[1] Мы не рассматриваем здесь процедуры, необходимые для нормализации
специальных (математи?еских, хими?еских, техни?еских и пр.) текстов.

-----------------------

Входной текст



Звуковой сигнал


Формирование звукового сигнала

по управляющей информации

Формирование управляющего файла

Акусти?еская база данных



Блок

озву?ивания



Блок управления


Собственно лингвисти?еский анализ:

синтакси?еский, морфемный анализ и т. д.

Блок

лингвисти?еской

обработки:

подготовка
текста к

озву?иванию

Приведение фонем

к единицам синтеза

Формирование
просоди?еских характеристик

Фонемный транскриптор


Акцентно-интонационный транскриптор


Словарь

Нормализация текста

Исправление ошибок входного текста

Определение языка текста