Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~otipl/SpeechGroup/publications/phon98.doc
Дата изменения: Thu Mar 10 15:18:38 2005
Дата индексирования: Sat Dec 22 13:43:03 2007
Кодировка: koi8-r

ФРАЗОВАЯ ПРОСОДИЯ

В СВЕТЕ ЗАДАЧ АВТОМАТИЧЕСКОГО СИНТЕЗА РЕЧИ


О.Ф. Кривнова (Моска, МГУ им. М.В.Ломоносова)

1. Как известно, автоматический синтез речи, построенный с использованием
лингвистически обоснованных алгоритмов и правил, может рассматриваться в
то же время как динамическая модель функционирования звуковой системы
языка. Это не просто некоторое теоретическое построение, а вполне
конкретный инструмент, позволяющий контролировать и проверять исходные
фонетические (и шире - лингвистические) представления. Большое значение
имеет при этом то, что при построении машинных речевых систем отчетливо
выявляются недостающие фонетические знания, нечетко сформулированные
понятия и отсутствие или недостаточность правил, задающих употребление и
фонетико-акустическую реализацию звуковых средств языка. Подобные лакуны (и
в большом количестве) обнаруживаются как для сегментных, так и для
супрасегментных звуковых явлений и на самом деле требуют расширения и
уточнения фонетических знаний, а не собственно компьютерных технологий,
которыми обычно не очень хотят заниматься лингвисты. В связи с этим мы
хотели бы обратить внимание на несколько крупных проблем, которые связаны с
моделированием фразовой просодии в системе автоматического синтеза речи.

2. Современные компьютерные технологии синтеза речи в настоящее время
вплотную подошли к задаче озвучивания произвольного текста, т.е. фактически
к имитации поведения человека, читающего некоторый текст (т.н. сиcтемы
"Текст-Речь" или "Text-to-Speech"). В системах, которые ставят перед собой
такую задачу, обычно выделяются два крупных блока:
1) блок лингвистической обработки текста или подготовки его к озвучиванию;
и 2) блок генерации акустического сигнала. В настоящем сообщении мы не
будем касаться устройства и возможностей второго блока. Достаточно сказать,
что технические проблемы, которые здесь возникают, решаются достаточно
успешно и позволяют получить синтезированную речь высокого качества, если
на выходе лингвистического блока правильно заданы акустические параметры,
нужные для образования акустического сигнала. Таким образом, естественность
синтезированной речи (с учетом компьютерных возможностей) определяется в
первую очередь тем, как работает лингвистический блок синтезатора.

3. На выходе лингвистического блока каждое предложение озвучиваемого
текста должно быть представлено в виде транскрипции, которая фиксирует
одновременно как звуковой состав предложения, так и его супрасегментные
признаки, которые в условной, символьной форме задают ритмический
рисунок предложения (или его отдельных смысловых фрагментов, если
предложение фонетически членится), локализацию и тип фокусных смысловых
акцентов, тип используемой интонационной модели, глобальные
интонационные параметры (громкость, темп, активная зона голосового
диапазона произнесения, тип фонации). Соответственно, в этом блоке
синтеза выделяются два транскриптора: фонемный (или иногда более
детальный аллофонический) и акцентно-интонационный.
В фонемном транксрипторе обычно реализуются правила чтения "буква-
звук", и, хотя и здесь есть "белые" пятна, связанные прежде всего с
различными стыковыми явлениями (границы слов, морфем и т.п.), ядерный
состав формализованных сегментных правил, по крайней мере, для
литературного русского языка уже можно считать известным.
Совершенно иначе обстоит дело с акцентно-интонационным транскриптором. Нам
известны две попытки создания такого транскриптора для русской эмоционально
нейтральной речи [?], авторы которых вплотную столкнулись с ограниченностью
и недостаточной формализованностью фонетических знаний в области фразовой
интонации. Достаточно сказать, что тексты разных речевых жанров именно в
плане фразовой просодии читаются очень по-разному, для создания акцентно-
интонационного транскриптора недостаточно просто знать, что бывают
эмфатически и логически обусловленные подчеркивания слов, что интонационное
членение коррелирует со смысловым и синтаксическим членением предложения,
что при выражении определенных смыслов выбор интонационного оформления
зависит от лексико-синтаксического состава предложения, что знаки
препинания сложным образом связаны с интонацией и т.д. Для создания
транскриптора нужно выявить все текстовые ситуации, которые являются
интонационно значимыми, и сформулировать четкие правила, по которым те или
иные признаки этих ситуаций задают выбор определенных элементов акцентно-
интонационной транскрипции предложения.
Сложность этой задачи не нуждается в специальном объяснении, однако без ее
решения невозможен не только автоматический синтез речи, но и дальнейшее
развитие теории фразовой просодии в собственно лингвистическом плане.

4. При синтезе речи лингвистическая подготовка текста к озвучиванию не
заканчивается построением комплексной фонетической транскрипции. Дальше
нужно определить значения акустических параметров, на основе которых будет
происходить генерация акустического сигнала. В частности, должны быть
определены тональные (частота основного тона), временные и энергетические
характеристики фонетических составляющих, выделенных в звуковой оболочке
предложения в результате транскрипции. Здесь возникает свой комплекс
проблем. Эти проблемы связаны со сложной многофакторной природой любого
акустического параметра, которая проявляется в том, что значения акустичес-
ких параметров определяются одновременно сбалансированным действием как
сегментных факторов, так и различных компонентов акцентно-интонационного
рисунка предложения. С точки зрения синтеза здесь опять-таки недостаточно
знать, какие фонетические факторы важны и в каком направлении они
действуют. Для получения естественно звучащей речи нужны точные
фонетические модели взаимодействия различных факторов, причем в том сложном
их сплетении, которое имеет место в естественных речевых ситуациях (хотя бы
при чтении текста), а не в условиях произнесения отдельных, специально
подобранных фраз. В целом, эта проблема связана с исследованием
систематической акустической вариативности элементов интонационного
оформления, а наш опыт работы в области автоматического синтеза русской
речи показывает, что без учета такой вариативности (причем достаточно
детального) добиться естественного звучания речевых образцов невозможно. В
то же время хорошо известно, что исследование систематической фонетической
вариативности и ее прогнозирование неразрывно связано с задачей выявления
функционально значимых фонетических различий. Следовательно, и в рамках
этой задачи проблемы синтеза речи тесно связаны с фундаментальными
теоретическими вопросами фразовой просодии.