Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~otipl/SpeechGroup/publications/zakh_98.doc
Дата изменения: Thu Mar 10 15:18:38 2005
Дата индексирования: Sat Dec 22 14:01:07 2007
Кодировка: Windows-1251

АВТОМАТИЧЕСКИЙ СИНТЕЗАТОР РУССКОЙ РЕЧИ 'АГАФОН' КАК ИНСТРУМЕНТ
ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЙ


Леонид Захаров

leon@philol.msu.ru




В лингвисти?еских исследованиях, в ?астности фонети?еских, ?асто встает
проблема полу?ения достоверного материала зву?ащей ре?и. Некоторые
трудности, связанные с этим, пере?ислены в докладе автора 'Транскрипция
текстов при синтезе и анализе русской ре?и', представленном на 'Диалог'96'.

Зада?а полу?ения достоверного материала при записи ре?и распадается на
несколько проблем.
- Поиск диктора, владеющего нормативным произношением (в нужном
варианте - здесь важно и его происхождение, и место проживания), который
должен обладать навыками свободно говорить в студии, держать выбранный
тембр, темп и громкость произнесения.
- Большбя проблема - запись естественной ре?и (диктор должен говорить,
а не ?итать). Чтение - это лишь имитация устной ре?и (не всегда
уда?ная). С другой стороны, полу?ить ка?ественную запись (у?итывая
дальнейшую компьютерную и аппаратную работу с ре?ью) можно лишь в
студийных условиях.
- Лу?ше, ?тобы диктор не был специалистом в лингвистике - существует
опасность, ?то он поймет цель, которую преследует исследователь, и
?истота эксперимента будет потеряна. Лингвист знает, как надо произнести
то, ?то ему предлагается, и старается это сделать; при этом теряется
естественность ре?и.
- Часто материал готовится в виде противопоставленных единиц (звуков,
слов, предложений и т. д.), ?тобы слушающий мог сравнить два (или
несколько) вариантов и выбрать лу?ший. При этом важен принцип пода?и
материала диктору - нужно, ?тобы диктор не 'подтасовывал' материал, не
усиливал специально противопоставление.
- При исследовании уже приготовленного материала ?асто оказывается, ?то
какая-то ?асть произнесена диктором неидеально, ?уть нето?но и приходится
прибегать к повторной записи, ?то обы?но приводит к неоднородности
материала (меняется громкость, тембр, темп и др. характеристики ре?и).
- Иногда оказывается, ?то исследователь не у?ел всех возможных слу?аев,
требующих изу?ения, и тогда также приходится прибегать к повторной записи
с пере?исленными проблемами неиденти?ности двух сеансов записи.

Эти и другие проблемы ?асти?но снимаются, если применить для записи
ре?евого материала, который в дальнейшем будет использован для
исследования, ка?ественный синтез ре?и. Самое большое и принципиальное
требование к синтезу - это максимальное приближение к естественной,
нормативной ре?и.

Кажется, ?то ка?ественный уровень синтезатора русской ре?и 'Агафон',
особенно в его последнем варианте (и в лабораторных условиях), достиг той
степени, при которой его можно использовать для лингвисти?еских
исследований.

Ниже, в ка?естве примеров, будут описаны некоторые проблемы, которые
решались с помощью автомати?еского синтезатора русской ре?и.

1. Проблемы орфоэпи?еские.
При создании правил произношения для автомати?еского синтеза ре?и по ряду
при?ин встре?аются ситуации, которые не описаны в академи?еских работах по
фонетике и орфоэпии русского языка. При?ины эти следующие:

- академи?еские работы ориентированы на произнесение изолированных
слов, а мы имеем дело со слитной ре?ью;

- в академи?еских работах рассматриваются (как правило) типи?ные
слу?аи, а автомати?еский синтезатор обязан озву?ивать любой (даже самый
экзоти?еский, вплоть до слу?айного набора букв) текст.

В специальных работах по орфоэпии разными исследователями по ряду при?ин
(время написания, материал исследования и др.) предлагаются разли?ные
варианты ре?евого поведения в одной и той же языковой ситуации. Поэтому
предлагаемые варианты требует проверки и дополнительного исследования.

Рассмотрим произношение согласных, парных по глухости / звонкости перед [в]
([в']).
Вна?але кратко опишем ситуацию. В фонети?еской литературе звук [в] ([в']) -
классифицируется как звонкий шумный, имеющий глухую пару [ф] ([ф']). С
другой стороны, влияние [в] ([в']) на предшествующий согласный, парный по
глухости / звонкости, отли?ается от других согласных этого класса ([б],
[д], [г], [з], [ж]) - оно такое же, как у гласных или сонорных ([л], [н],
[м], [р], [j]). В результате внутри слова перед [в] ([в']) разли?аются
глухие и звонкие (парные) согласные: ср. сван [свбн] и зван [звбн]. В
отли?ие от других звонких согласных, парных по глухости / звонкости, перед
которыми эти же звуки (парные по глухости / звонкости) не разли?аются: ср.
и сбить [изб'qт'] и избить [изб'qт']. На стыке двух слов влияние на?альных
[в] ([в']) на последние согласные, парные по глухости / звонкости,
предшествующего слова также аналоги?но влиянию гласных и сонорных - звонкий
коне?ный предшествующего слова оглушается, т. е. разли?ения по
глухости / звонкости не происходит: все согласные становятся (или остаются)
глухими. В отли?ие от других звонких, парных по глухости / звонкости, перед
которыми эти же звонкие (парные по глухости / звонкости) не оглушаются, а
соответствующие глухие - озвон?аются, т. е. разли?ения по
глухости / звонкости не происходит, но все согласные становятся (или
остаются) звонкими. Ср. вез воду [в'ус вуду] / нес воду [н'ус вуду]
(аналоги?но вез лук [в'ус_лэк] / нес лук [н'ус_лэк]) и вез до?ь
[в'уз_ду?'], нес до?ь [н'уз_ду?'].

Рассмотрим теперь слу?ай, когда на?альные [в] ([в']) находятся перед
звонким, парным по глухости / звонкости, а в конце предыдущего слова
(рассматривается ситуация внутри одной синтагмы) имеется парный по
глухости / звонкости согласный. Так как об этом слу?ае в академи?еской
литературе ни?его не сказано, то вроде бы следует оглушать коне?ный
согласный. Однако в некоторых работах указывается, ?то в данном слу?ае
[в] ([в']) становится как бы 'прозра?ным' (т. е. [в] ([в']) надо мысленно
убрать) для правила: 'Озвон?ай парный по глухости / звонкости согласный
перед звонким, парным по глухости / звонкости, и оглушай перед глухим (даже
на стыке слов)'. Таким образом, ряд авторов предлагает произносить так:

(1) город вдали - [гуръд_вдал'q]
(2) город виден - [гурът_в'qд'ьн]
(3) город в но?и - [гурът_в_нa?q]
(4) город в пыли - [гурът_ф_пыл'q]
(5) порт вдали - [пурд_вдал'q]
(6) порт виден - [пурт_в'qд'ьн]
(7) порт в но?и - [пурт_в_нa?q]
(8) порт в пыли - [пурт_ф_пыл'q]

Чтобы проверить это предположение, мы просили нескольких ?еловек,
обладающих нормативным произношением, произнести аналоги?ные
словосо?етания.

Однако при прослушивании мнения о глухости / звонкости коне?ного согласного
в примерах (1) и (5) разделились. При исследовании подобных слу?аев в
звуковом редакторе на ЭВМ достато?но сложно определить параметр звонкости,
т. к. основная информация о нали?ии данного параметра (т. н. 'голосовой
забор') находится в низко?астотной области спектра, ?асто плохо видимого на
спектрограммах из-за присутствия фонового шума.

Судя по всему, ре?ь идет не о полном озвон?ении, а о ?асти?ном (т. е.
звонкость согласных не та, ?то в сильной для этих звуков позиции -
например, перед ударным гласным внутри слова). О?евидно, есть разные
степени звонкости (аналоги?но тому, как есть разные степени мягкости,
например, при ассимилятивном смяг?ении согласного перед мягким согласным -
иногда в литературе употребляется знак 'полумягкости': то?ка, а не апостроф
после соответствующего согласного).

При подобного рода исследованиях невозможно давать задание диктору типа:
'Произнеси это глухо (или звонко)' или 'Произнеси это с большей (или
меньшей звонкостью)' - безусловно теряется естественность.

Большинство этих проблем снимается, если мы обратимся к автомати?ескому
синтезу. Мы с легкостью полу?им, например, два варианта произнесения:
глухой и звонкий, а затем можно просить аудиторов выбрать лу?ший вариант. К
тому же можно регулировать степень звонкости, задавая необходимую энергию
на нужном временнум отрезке. Коне?но, мы заведомо идем на некоторые
искажения, которые свойственны любому (даже весьма совершенному) синтезу
ре?и. Но иногда (как в данном слу?ае) из двух зол приходится выбирать
меньшее.

При прослушивании синтезированного материала слушателям больше понравился
вариант произнесения со звонким согласным в со?етаниях (1) и (5).
В правилах автомати?еского синтеза русской ре?и 'Агафон' реализовано именно
такое поведение согласных перед [в] ([в']).

2. Проблемы просоди?еские.
При исследованиях мелоди?еской и темпоральной системы ре?и совершенно
невозможно просить диктора для определенной фразы соблюсти нужные
исследователю тональные и темпоральные зна?ения. При?ем, это невозможно не
только из соображений сохранения естественности зву?ания. Человек просто не
способен физи?ески в данной фразе произнести нужный звук, скажем, с
длительностью то?но 100 мсек или ?астотой то?но 130 Гц. При произнесении
разных фраз (даже с одинаковой ритми?еской структурой - ?ередованием
ударных и безударных слогов - и одинаковым коли?еством звуков) зна?ения
длительности и ?астоты конкретного звука зависит от множества факторов и в
каждой фразе будут разными. Более того, даже при нескольких произнесениях
одной и той же фразы тем же диктором, эти зна?ения обы?но разли?аются. Как
же проверить, работает или нет та или иная модель просоди?еского оформления
фразы? Надо проводить много?исленные исследования со многими дикторами, а
полу?енные результаты обрабатывать специальным образом, ?тобы избавиться от
дикторской и 'междик-торской' вариативности. Эта вариативность приводит к
тому, ?то даже на иллюстрациях, приводимых как примеры реализации той или
интонационной конструкции, иногда сложно понять, о какой именно
интонационной конструкции идет ре?ь.

Еще одна проблема, как восстановить недостающую информацию, например, при
отсутствии зна?ений ?астоты основного тона на глухих согласных, при
исследованиях интонации. Можно попробовать преодолеть эту проблему с
помощью специально подобранных фраз, состоящих только из звонких звуков.
Однако это ?асто приводит к потере естественности при произнесении.

Для исследования таких тонких вещей, как интонация и длительность отдельных
звуков, проблемой являются и ошибки (оговорки, запинки, нето?но выбранная
интонация и пр.), возникающие у диктора при произнесении достато?но больших
по объему текстов, необходимых для изу?ения просодии ре?и. Эту проблему
нельзя решить простым удалением из сигнала такого рода неправильностей -
приходится просить диктора переговаривать достато?но объемные куски текста,
?то может привести к неоднородности ре?евого материала.

Кажется, единственным (и оперативным!) средством решения этих проблем
является лингвисти?еские исследования, проводимые с помощью
высокока?ественного синтезатора ре?и.

Ограни?имся этими примерами. Надо сказать, ?то те исследования, о которых
шла ре?ь (и аналоги?ные) проводились для создания лингвисти?еского
обеспе?ения автомати?еского синтеза ре?и. Однако, кажется, ?то и некоторые
?исто лингвисти?еские (неприкладные) зада?и можно решать, используя
ка?ественный синтез как инструмент исследования.