Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~otipl/SpeechGroup/publications/2003/krivnova_isa.doc
Дата изменения: Thu Mar 10 15:18:39 2005
Дата индексирования: Sat Dec 22 20:54:37 2007
Кодировка: koi8-r
Поисковые слова: п п п п п п п р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р р

Богданов Д.С., Брухтий А.В., Кривнова О.Ф., Подрабинович А.Я., Строкин Г.С.

Технология формирования

речевых баз данных

Аннотация

Статья посвящена вопросам построения крупномасштабных речевых баз
данных. На основе обобщения авторами собственного опыта формирования ряда
баз речевых фрагментов русского языка предложена определенная технология
создания таких баз. Излагается последовательность этапов этой технологии и
их содержание.
Работа выполнена при поддержке РФФИ (проект ? 02-07-90454).

Введение

Построение крупномасштабных речевых баз данных является одним из
важнейших направлений в современных речевых технологиях. Для решения задач
исследования речи, построения автоматизированных систем распознавания и
синтеза речи необходимо наличие большого количества правильно размеченных и
аннотированных речевых данных и возможности доступа к ним.
Речевые данные чаще всего выступают в виде совокупности речевых
фрагментов. Под речевым фрагментом мы будем понимать представленный в виде
оцифрованной звуковой волны фрагмент звучащей речи, сопровождаемый
дополнительной информацией специального вида. Минимально необходимая
информация, ассоциированная с фрагментом - это его орфографическая запись и
фонетическая транскрипция, отражающая реальное звучание фрагмента.

Структурированное множество речевых фрагментов, обеспеченное
программными средствами доступа к ним, будем называть речевым корпусом или
речевой базой данных.
Значительный опыт создания речевых баз данных позволяет нам дать
описание основных этапов технологии формирования таких баз и сформулировать
основные требования, предъявляемые к этим этапам. При этом мы будем
опираться на реальные технологические решения и процедуры, которые мы
использовали при построении различных речевых баз данных.
Как правило, речевые базы данных являются моноязычными, то есть
речевые фрагменты, включаемые в базу данных, представляют собой речевые
фрагменты одного языка. И наши представления о технологии создания речевых
баз основаны на опыте формирования русскоязычных баз. Однако этот опыт
может быть использован при построении речевых баз и для других языков.

Этапы формирования речевых баз данных

Создание речевых баз данных (или, иначе, речевых корпусов)
представляет собой определенный технологический процесс. В нем можно
выделить следующие основные этапы:
1. подготовка фонетического обеспечения для формирования речевого
корпуса;
подготовка текстового материала;
3. разработка программного обеспечения для формирования речевого корпуса;
4. подбор дикторского состава;
запись речевых фрагментов, произнесенных дикторами;
проверка качества записи речевых фрагментов;
фонетическая верификация речевых фрагментов и их разметка;
обработка результатов верификации;
окончательное формирование речевого корпуса.
Ниже приводится подробное описание этих технологических этапов. С
более детальным функциональным описанием программного обеспечения,
разработанного для формирования речевых баз, можно познакомиться в [6].

Фонетическое обеспечение базы данных

Одной из основных задач, которую необходимо решать при построении
речевой базы данных, является выбор или формирование транскрипционной
системы, позволяющей производить автоматическую каноническую транскрипцию
всех предложений, входящих в состав текстового материала базы данных.
Нужно также иметь автоматический транскриптор, который позволяет
получать фонетическую транскрипцию речевых фрагментов в соответствии с
действующими в русском языке произносительными нормами, то есть
каноническую автоматическую транскрипцию. Для получения такой транскрипции
при построении речевых баз данных мы использовали транскриптор, который был
разработан речевой группой филологического факультета МГУ для
автоматического синтезатора русской речи. При этом в исходную версию
транскриптора были внесены небольшие изменения, связанные с тем, что
базовая транскрипционная система для речевого корпуса немного отличается
от системы, которая используется в синтезаторе речи.

Базовая транскрипционная система

Рассмотрим возможное решение задачи построения базовой
транскрипционной системы на примере формирования транскрипционной системы
для русской речи. Такая система была построена нами на основе широко
известной фонетической транскрипционной системы Р.И.Аванесова, в варианте,
который изложен в книге "Русское литературное произношение", 1972. Поэтому
мы надеемся, учитывая уже имеющийся опыт, что автоматическая транскрипция
достаточно хорошо отражает дикторское произнесение предложений, возможное в
рамках литературной орфоэпической нормы. Однако есть ряд отличий как в
наборе звуков, которые считаются разными фонетическими сегментами, так и в
алфавите используемых транскрипционных символов. Имеющиеся расхождения
вызваны разными причинами, как чисто техническими, так и принципиальными.
Ниже приводится сначала список и транскрипционные обозначения
фонетических сегментов, которые в автоматической транскрипции фиксируются
как целостные (неразложимые) звуковые объекты. Далее мы будем называть
такие сегменты монофонами. После этого будут отмечены главные отличия нашей
системы транскрипции от указанной выше системы Р.И.Аванесова.

Инвентарь монофонов, различаемых в канонической автоматической транскрипции

В автоматической транскрипции учитываются монофоны, которые могут
принадлежать к двум классам звуковых объектов. Первый класс образуют
монофоны, которые соответствуют традиционным аллофонам - позиционным и
комбинаторным реализациям фонем. Во второй класс входят так называемые
неразложимые звуковые комплексы или полизвукотипы, то есть такие
фонетические сегменты, которые являются на самом деле реализацией двух
последовательных фонем, но артикуляторно и акустически могут быть настолько
"склеены", что на слух воспринимаются как единое звуковое образование, в
котором трудно вычленить два последовательных звука. Кроме того, в
транскрипционной записи предложений используются знаки для обозначения
границ между словами, синтагмами и предложениями.
Далее дается описание каждого класса транскрипционных объектов с
примерами их употребления и комментариями. Приводимые примеры не
исчерпывают всех контекстов употребления различаемых монофонов.
Символы транскрипции базируются на русском алфавите и записываются
строчными буквами. Для удобства работы экспертов на этапе верификации
символы выбирались таким образом, чтобы не требовалась частая смена режима
работы клавиатуры. По той же причине в транскрипционной записи предложений
обозначения монофонов в последовательности отделены пробелами.

Монофоны аллофонического класса

Таблица 1. Согласные

|Смычные и аффрикаты |Фрикативные |Сонорные |
|Твёрдые |Мягкие |Твёрдые |Мягкие |Твёрдые |Мягкие |
|[б]аран |[б*]ит |за[в]од |[в*]ера |[м]эр |се[м*] |
|[п]оза |са[п*]ёр |[ф]анат |кро[ф*] |- |- |
|[д]ом |[д*]я[д*]я |ба[з]ар |[з*]има |[н]ужда |ко[н*] |
|по[т]ок |[т*]ё[т*] я|по[c]ол |[c*]иний|цик[л] |[л*]ес |
|[г]ород |по[г*]иб |бо[гх]а |- |па[р]ад |[р*]яд |
|[к]у[к]ла |[к*]ино |слу[х] |слу[х*]и|- |сара[й*]|
|[ц]апля |по[ч*]истит|[ж]ара |дро[ж*]и| - |- |
| |ь | | | | |
|оте[дз] |до[дж*]была|[ш]есть |помо[щ*]|- |- |
|был | | | | | |

Пояснения и комментарии к таблице согласных монофонов:
1) Как нетрудно видеть, для согласных учитываются только основные
аллофоны и звонкие аллофоны фонем, непарных по признаку
глухости/звонкости. Для последних введены специальные обозначения - [гх],
[дз], [дж*].
2) Мягкость согласных всегда обозначается символом "*", в том числе
для непарных [ч*], [дж*] и [й*].
3) Фонетически долгие согласные, которые могут произноситься на месте
двойных согласных, транскрибируются как последовательность одинаковых
звуков.
4) Возможная долгота одиночных согласных [ж*] и [щ*] никак специально
не обозначается.
Таблица 2. Гласные

|Ударные гласные |
|!С*_!С* |С*_!С* |!С*_С* |С*_С* |
|[и+]глы |б[*и+] нт |[и*+]щет |ч[*и*+]стить |
|т[ы+] л |- |ж[ы*+] ть |- |
|ст[у+]л |т[*у+] к |[у*+]лица |т[*у*+]ль |
|ш[э+] ст|б[*э+]лый |ш[э*+] сть |м[*э*+]ль |
|д[о+]м |п[*о+]с |[о*+]сь |т[*о*+]тя |
|п[а+]ра |р[*a+]д |г[а*+]рь |п[*а*+]ть |

Таблица 3.
|Сильные безударные гласные |
|(слабо редуцированные по качеству=1-я степень редукции) |
|!С*_!С* |С*_!С* |!С*_С* |С*_С* |
|[и]гра |з[*и]ма |[и*]меть |к[*и*]петь |
|ц[ы]ган |- |п[ы*]лить |- |
|[у]хажер |ч[*у]дак |[у*]лика |т[*у*]лень |
|[э]таж |к Юр[*э] |[э*]тюд |рисовать [*э*]тюд|
|б[о]монд |- |в пери[о*]де|- |
|[а]т[а]ма|ставить [*а] |[а*]пилки |убрать [*а*]пилки|
|н |пару | | |
| |ч[*а]кона | |ч[*а*] йхана |

Таблица 4.

|Слабые безударные гласные |
|(сильно редуцированные по качеству=2-я степень редукции) |
|!С*_!С* |С*_!С* |!С*_С* |С*_С* |
|- |ч[*ь]совой |- |б[*ь*]лизна |
|град[у0]с|пол[*у0]с |гол[у*0]бь |ч[*у*0]гунок |
|с[ъ]довод|вид[*ъ]т |кап[ъ*]ть |туч[*ъ*]ми |

Пояснения и комментарий к таблицам 3-4:
1) Символ «-» в таблице означает, что соответствующая позиция для
данного гласного в материале не ожидается.
2) С* - любой мягкий согласный, !С* - не мягкий согласный (т.е. начало
слова или твердый согласный). Влияние мягких согласных на гласный любой
степени редукции (в том числе [ь]) отмечается знаком «*» слева, справа или
с обеих сторон гласного в зависимости от мягкости соседнего согласного. В
дополнение к этому почти традиционному маркированию "смягчение" гласных
отмечается также в следующих двух случаях:
а) перед неразложимыми комплексами, которые начинаются с неслогового
[й*], например, "возвращ[*а*+ йу0]тся" (см. ниже о комплексах);
б) в сочетаниях [и]-образных гласных на стыке фонетических слов, т.е.
в случаях {и+, и, ь, ьи}# {и+, и}, например, "твои игры" -> тво[и* # *и+]
гры; "эти игрушки" -> эт[ь* # *и]грушки.
3) Символ "+" обозначает гласный под ударением. Для "смягченных"
справа гласных он ставится после знака "*" (см. таблицу 2).
4) Для обозначения сильных безударных гласных используются те же
буквенные символы, что и для ударных гласных (см. таблицу 3), но,
естественно, без знака "+". Эти гласные ожидаются в следующих "сильных"
позициях:
. в первом предударном слоге;
. в абсолютном начале слова, в том числе на стыке фонетических слов;
. в абсолютном конце предложения или синтагмы перед паузой;
. внутри слова после предшествующего гласного.
Обращаем внимание, что с учетом сказанного возникают записи (и
реальные произнесения), возможность которых в описаниях русской фонетики
обычно не отмечается, например "убрать опилки" -> убра[т* # *а*]пилки, (см.
также таблицу 3).
5) Для обозначения слабых безударных гласных используются символы [ъ],
[ь] и [у0]. Символ 0 для смягченных справа [у]-образных аллофонов пишется
после знака смягчения "*", то есть у*0.
Как видно из табл.4, мы допускаем произнесение [ъ] с соответствующими
смягчениями в соседстве с мягкими согласными в заударной части слова на
месте орфографического "а" или "я". В то же время в нашей транскрипции не
ожидается [ы0], т.е. нет слабого безударного [ы]. Автоматический
транскриптор ориентирован на произнесение, в котором в слабых безударных
положениях происходит нейтрализация фонем "а" и "ы".

Неразложимые звуковые комплексы

К неразложимым звуковым комплексам относятся сегменты двух типов:
1. Сегменты типа "неслоговой [й*] + безударный гласный" внутри
фонетического слова, которые следуют после гласного и могут находиться
как в предударной, так и в заударной части слова. Фонетически такие
комплексы соответствуют упереднённым гласным, которые могут произноситься
на месте орфографических йотированных безударных букв в следующих позициях:
а) В начале слова, если предшествующее слово, в том числе предлог
оканчивается на гласный.
Например, "к нашему ягнёнку", "по яровой пшенице" и т.д.
б) Внутри слова после гласного. Например, "знаю", "играет", "детская",
"поясню" и т.д.
В автоматической транскрипции различаются следующие сегменты
описанного типа:
[йа] арми[йа]
[йи] бо[йи]вой
[йи*] по[йи*]снить
[йу] зна[йу]
[йу0] се[йу0]т
[йу*0] ка[йу*0]сь
[йэ] красно[йэ]
[йъ] за[йъ]ц
[йъ*] се[йъ*]ть
Отметим, что в этих случаях знак "*" после [й] не пишется, а весь
комплекс записывается без внутреннего пробела.
2. Сегменты типа "ь(ъ) + безударный гласный" внутри слова.
Орфографически эти сегменты соответствуют последовательности из двух
безударных гласных букв (зиянию), из которых первая буква представляет
слабый редуцированный гласный.
*ьа н[*ьа]пходимо
*ьа* ф[*ьа*]летовый
*ьи н[*ьи]справимый
*ьи* н[*ьи*]стественно
*ьо рад[*ьо]
*ьо* кард[*ьо*]хирург
*ьу н[*ьу]гомонный
*ьу* н[*ьу*]рядицы
*ьэ пят[*ьэ]тажка
*ьэ* д[*ьэ*]лектрик
ъа з[ъа]сад
ъа* к[ъа*]перация

В автоматической транскрипции звуковые комплексы указанных типов
всегда считаются монофонами, то есть не сегментируются. Однако в
соответствующих случаях диктор может произнести и последовательность звуков
с достаточно отчётливой внутренней границей. Такое произнесение на этапе
верификации нужно транскрибировать как последовательность звуков, то есть
внести необходимую коррекцию в автоматический "подстрочник". Например, [йа]
надо исправить на [й*] [*а]; [*ьа] - на [*ь] [а] и т.п.

Транскрипционные обозначения для границ

В автоматической транскрипции используются следующие символы для
обозначения границ между фонетическими объектами:
%% - начало и конец предложения или синтагмы;
# - знак границы между фонетическими словами;
_ - этим знаком отделяются внутри фонетического слова полные клитики
(предлоги, частицы, союзы и т.д.) от знаменательного слова.

Пример автоматической транскрипции с возможными граничными символами:
«У нас в стране всегда был народ и аристократия, неотделимая от
чиновничьего бомонда.»
%% у _ н а+ с # ф _ с т р а* н* *э+ # ф с* *и г д а+ # б ы+ л # н а р о+ т
# ы _ а* р* *ь с т а к р а*+ т* *ь* йа %% %% н* *ьа* д* д* *и* л* *и+ м ъ*
йъ # а* ч* _ ч* *и н о+ в н* *ь* ч* й* *ъ в ъ # б о м о+ н д а %%.
Два подряд идущих обозначения «%%» внутри транскрипции предложения
объясняются тем обстоятельством, что это место является концом одной
синтагмы и началом следующей.

Список монофонов и их транскрипционные обозначения

(в алфавитном порядке)

1. а [а] т [а] ман

2. а* [а*] пилки

3. *а ч [*а] кона или закрыть [*а]кно

4. *а* ч [*а*] йхана или пять [*а*]опят

5. а+ п [а+] ра

6. *а+ р [*a+] д

7. а*+ г [а*+] рь

8. *а*+ п [*а*+] ть

9. б [б] аран

10. б* [б*] ит

11. в за [в] од

12. в* [в*] ера

13. г [г] ород

14. г* по [г*] иб

15. гх бо [гх] а

16. д [д] ом

17. д* [д*] я [д*] я

18. дз оте [дз] был

19. дж* до [дж*] была

20. ж [ж] ара

21. ж* дро [ж*] и

22. з ба [з] ар

23. з* [з*] има

24. и [и] гра

25. *и з [*и] ма

26. и* [и*] меть

27. *и* к [*и*] петь

28. и+ [и+] глы

29. *и+ б [*и+] нт

30. и*+ [и*+] щет

31. *и*+ ч [*и*+] стить

32. й* [и*](я)ма

33. йа арми [йа]

34. йи бо [йи] вой

35. йи* по [йи*] снить

36. йу зна [йу]

37. йу0 се [йу0] т

38. йу*0 ка [йу*0] сь

39. йэ красно [йэ]

40. йъ за [йъ] ц

41. йъ* се [йъ*] ть

42. к [к] у [к] ла

43. к* [к*] ино

44. л цик [л]

45. л* [л*] ес

46. м [м] эр

47. м* се [м*]

48. н [н] ужда

49. н* ко [н*]

50. о б [о] монд

51. о* в пери [о*]де

52. о+ д [о+] м

53. *о+ п [*о+] с

54. о*+ [о*+] сь

55. *о*+ т [*о*+] тя

56. п [п] оза

57. п* са [п*] ёр

58. р па [р] ад

59. р* [р*] яд

60. с по [c] ол

61. с* [c*] иний

62. т по [т] ок

63. т* [т*] ё [т*] я

64. у [у] ха

65. *у ч [*у] дак

66. у* [у*] лика

67. *у* т [*у*] лень

68. у+ ст [у+] л

69. *у+ т [*у+] к

70. у*+ [у*+] лица

71. *у*+ т [*у*+] ль

72. у0 град [у0] с

73. *у0 пол [*у0] с

74. у*0 гол [у*0] бь

75. *у*0 ч [*у*0] гунок

76. ф [ф] анат

77. ф* кро [ф*]

78. х слу [х]

79. х* слу [х*] и

80. ц [ц] апля

81. ч* по [ч*] истить

82. ш [ш] есть

83. щ* помо [щ*]

84. *ь ч [*ь] совой

85. *ь* б[*ь*]лизна

86. *ьа н [*ьа] пходимо

87. *ьа* ф [*ьа*] летовый

88. *ьи н [*ьи] справимый

89. *ьи* н [*ьи*] стественно

90. *ьо рад [*ьо]

91. *ьо* кард [*ьо*]хирург

92. *ьу н [*ьу] гомонный

93. *ьу* н [*ьу*] рядицы

94. *ьэ пят [*ьэ] тажка

95. *ьэ* д [*ьэ*] лектрик

96. ы ц [ы] ган

97. ы* п [ы] лить

98. ы+ т [ы+] л

99. ы*+ ж [ы*+] ть

100. ъ с [ъ] довод

101. *ъ вид [*ъ] т

102. ъ* кап [ъ*] ть

103. *ъ* туч [*ъ*] ми

104. ъа з [ъа] сад

105. ъа* к [ъа*] перация"

106. э [э] таж"

107. *э к Юр [*э]

108. э* [э*] тюд

109. *э* рисовать [*э*]тюд

110. э+ ш [э+] ст

111. *э+ б [*э+] лый

112. э*+ ш [э*+] сть

113. *э*+ м [*э*+] ль

114. гх*

Подготовка текстового материала

Текстовый материал для речевой базы данных обычно представляет собой
совокупность отдельных предложений, которым соответствуют речевые
фрагменты, входящие в речевую базу. Такая совокупность готовится заранее,
причем может состоять из нескольких наборов предложений, формирующихся тем
или иным образом в зависимости от требований, предъявляемых к фонетическим
характеристикам этих наборов.
Построение таких наборов предложений мы производили различными
способами.
Это могли быть специально подобранные лингвистами предложения,
транскрипционные представления которых удовлетворяют некоторым условиям,
характеризующим фонетические свойства формируемого набора предложений.
Это могли быть предложения из различных газет, журналов или новостных
сайтов сети Интернет. Тематика статей относилась к различным областям
политики, экономики, науки, культуры, медицины, спорта и т.д. Из этих
статей предложения отбирались таким образом, чтобы, во-первых, они были не
слишком длинными и, как правило, содержали не более 9 - 10 полнозначных
слов, а, во-вторых, чтобы они носили самодостаточный характер и не
нуждались в наличии контекста для своего понимания. Чтобы удовлетворить
этим требованиям, многие предложения, взятые из первичного источника,
приходилось частично корректировать.
Наконец, это могли быть взятые подряд предложения некоторого слитного
литературного текста, подкорректированные с учетом ограничений на длину
предложения.
Требования, предъявляемые к составу текстового материала, могут иметь
различный характер и обычно определяются конкретными задачами, для решения
которых формируется речевая база данных. Рассмотрим некоторые, наиболее
часто встречающиеся, требования такого рода.
Можно потребовать, чтобы лексический материал удовлетворял некоторым
условиям фонетической полноты. Например, чтобы транскрипционное
представление набора текстов содержало все допустимые в языке монофоны, и
каждый монофон входил бы в этот набор не менее некоторого, наперед
заданного количества раз. Предложения, входящие в такой набор, подбирались
у нас специальным образом специалистами в области лингвистики.
Можно рассматривать и другое требование фонетической полноты,
характеризующее достаточную представительность трифонов (то есть монофонов
с учетом их правого и левого контекстов) в базе данных. Это требование
состоит в том, чтобы транскрипционное представление набора предложений
содержало все или почти все допустимые трифоны. Для удовлетворения такого
требования можно, конечно, неограниченно увеличивать количество входящих в
набор предложений. Однако при условии фиксированного числа предложений в
наборе можно применить специальную автоматическую итерационную процедуру
фильтрации. Эта процедура состоит в следующем.
Первоначально готовится множество, состоящее из гораздо большего числа
предложений, чем должно входить в соответствующий набор базы данных. Затем
из подготовленного множества отбираются в первую очередь те предложения,
транскрипционное представление каждого из которых добавляет новых трифонов
больше, чем некоторый, заранее заданный, достаточно высокий порог.
Остальные предложения отбрасываются. Если после такого отбора необходимое
количество предложений еще не набрано, то порог понижается, и процедура
повторяется уже для отброшенных на предыдущем этапе предложений.
Иногда к текстовому материалу, включаемому в базу данных,
предъявляются требования иного характера, а именно, требуется, чтобы
множество текстов было фонетически репрезентативным. Множество текстов мы
называем фонетически репрезентативным, если распределение частот фонем и
других фонетических единиц в этом множестве близко к теоретическому
распределению, под которым понимаются частоты языковых единиц, полученные
на достаточно представительных и больших по объему выборках. При подборе
таких текстов мы исходили из гипотезы о том, что любой достаточно большой
отрывок литературного текста является фонетически репрезентативным.

Запись речевых фрагментов

Важным шагом в технологической цепочке формирования речевой базы
является подбор дикторского состава для произнесения подготовленных
текстовых материалов. Этот состав обычно должен соответствовать
требованиям, предъявляемым к проектируемой базе, и учитывать такие факторы,
как распределение дикторов по полу, возрасту, образованию, диалектному
произношению. Например, иногда к формированию базы могут быть допущены
дикторы с произвольным произношением, в других же случаях, напротив,
дикторы должны соответствовать определенному фиксированному списку
диалектных произношений. Так, для одной из построенных нами баз требовались
дикторы, в основном, с московским произношением, поэтому впоследствии
приходилось отбраковывать речевые фрагменты тех дикторов, у которых
обнаруживалось явное диалектное отклонение от такого произношения.
При проектировании крупномасштабных речевых баз с большим количеством
дикторов и большим текстовым материалом полезно автоматизировать процедуру
формирования наборов предложений, которые должны произносить дикторы. Такая
автоматизация позволяет сократить количество ошибок и легко видоизменять
сформированные наборы по заранее заданной настройке.
Запись речевых фрагментов производилась дикторами под наблюдением
специально обученных операторов.
Для обеспечения процесса записи была разработана специальная
программа, с помощью которой осуществлялась регистрация диктора,
формирование индивидуального множества предложений для него, запись
речевого фрагмента и его прослушивание. Каждый речевой фрагмент
формировался в виде отдельного файла в звуковом формате, содержащего
оцифрованную звуковую волну, и информационного файла в текстовом формате,
содержащего дополнительную информацию о тексте предложения и о дикторе,
который произнес данное предложение.
Текст очередного предложения, которое должен произнести диктор,
выводился на экран монитора, диктор читал его и переходил к следующему
предложению.
Если при произнесении диктором некоторого предложения максимум
абсолютного значения амплитуды создаваемой звуковой волны выходил за
границы интервала, установленного в настройках программы, то речевой
фрагмент не записывался в базу данных, а на экран выдавалось
соответствующее предупреждение.
В этом случае оператор мог произвести необходимую подстройку
параметров микрофона и предложить диктору повторную запись этого
предложения. Однако в некоторых случаях особенности диапазона голоса
диктора не позволяли исправить ситуацию путем настройки микрофона. Тогда
оператор изменял настройки программы записи, увеличивая допустимый интервал
значений звуковой волны, и повторял запись. Обычно такие настройки
параметров микрофона и, в исключительных случаях, параметров программы
требовались только при произнесении первых нескольких предложений из всего
множества предложений, прочитанных диктором.
Роль оператора во время записи чрезвычайно важна и требует от него
напряженного внимания. Он должен следить за тем, чтобы процесс записи не
начинался позже начала чтения диктором предложения и не заканчивался раньше
окончания чтения. Включение и выключение процесса записи предложения может
осуществляться как оператором, так и самим диктором. Одновременно оператор
должен следить за соответствием текста предложения, выведенного на экран и
произносимого диктором, а также фиксировать свое внимание на появлении
посторонних шумов во время записи. В случае обнаружения сбоев во время
записи предложения возникала необходимость повторения записи. При этом
операторы придерживались, в зависимости от обстоятельств, различной
тактики. Иногда оператор просил диктора сразу же повторить запись
предложения. А иногда просто отмечал у себя номера неверно записанных
предложений и лишь после завершения записи диктором всех предложений просил
перезаписать все предложения с отмеченными номерами.
Записанные речевые фрагменты хранятся на жестком диске компьютера,
установленного на рабочем месте записи дикторов. Таких мест может быть
несколько. Кроме того, существовало центральное хранилище на компьютере
разработчиков речевого корпуса, куда, по мере накопления записей,
заносились фрагменты со всех рабочих мест по каналам локальной сети или
записанные предварительно на компакт-диски. Дальнейшая работа по
формированию речевого корпуса велась уже с этим хранилищем.

Первичная проверка записи и ее коррекция

В свободное от записи дикторов время оператор производил первичную
проверку записанного речевого материала. С этой целью он с помощью
программы записи прослушивал произнесенные диктором предложения и
фиксировал имеющиеся ошибки или технические погрешности записи. Среди
типичных ошибок или погрешностей можно выделить следующие:
. отсечения - диктор начинал произносить предложение до включения записи
или выключал запись раньше, чем заканчивал предложение;
. искажения - диктор пропускал или вставлял какое-либо слово, произносил не
то слово, которое находилось в предложении, либо произносил его с
искажениями или запинками (отметим, что неправильная постановка ударения
не считалась искажением);
. шумы - при прослушивании предложения были слышны посторонние шумы,
разговоры или вздохи.
После прослушивания коррекция обнаруженных ошибок производилась
следующим образом.
Внешние шумы, то есть шумы, посторонние разговоры или вздохи,
наблюдавшиеся вне границ произнесения собственно текста предложения,
удалялись отсечением соответствующих концов звуковой волны с помощью
звукового редактора. При обнаружении у диктора ошибок другого рода он
приглашался для того, чтобы произнести повторно предложения, в которых были
отмечены такие ошибки. Если же возможность приглашения диктора для
повторного произнесения отсутствовала, то элементы речевого корпуса,
принадлежащие этому диктору, отписывались в специальный вспомогательный
раздел усеченных фрагментов речевого корпуса, если в предложении
наблюдалось отсечение, или в другой вспомогательный раздел искаженных
фрагментов, если наблюдалось искажение.
В некоторых случаях ошибки при записи того или иного диктора носили
столь массовый характер, что разработчиками принималось решение отписать
все речевые фрагменты, принадлежащие этому диктору, в специальный
вспомогательный раздел «плохих дикторов».
На этапе первичной проверки обнаруживались также 2 типа ошибок,
которые могли быть допущены при формировании дополнительной информации к
речевым фрагментам и для исправления которых была разработана специальная
технология.
Во-первых, ошибки могли быть внесены при заполнении информационной
карточки диктора в процессе его регистрации (например, указан не тот пол, с
ошибками заполнены поля фамилии диктора или его места рождения, и т.п.).
Естественно, что после завершения записи программа записи автоматически
тиражировала эти ошибки по всем информационным файлам данного диктора.
Поэтому была создана программа, которая позволяла указать идентификатор
диктора и измененное содержимое поля, после чего это новое содержимое
автоматически вносилось во все информационные файлы, относящиеся к данному
диктору.
Во-вторых, несмотря на тщательную проверку текстов на этапе подготовки
текстового материала, некоторые ошибки как в текстах предложений, так и в
их фонетических транскрипциях иногда встречались и на последующих этапах
формирования речевого корпуса. Каждая такая ошибка также носила
множественный характер, поскольку проявлялась в информационных файлах всех
дикторов, которые произносили данное предложение, а также во всех файлах,
содержащих множества текстов или их фонетических транскрипций,
предназначенных для этих дикторов. Поэтому была разработана специальная
программа, с помощью которой можно исправлять такие ошибки. Для исправления
подобной ошибки нужно указать программе файл, содержащий тексты предложений
или их фонетические транскрипции, а также директорию, в которой необходимо
произвести изменения, и программа запишет эти тексты или транскрипции во
все необходимые места указанной директории и всех ее поддиректорий.

Структуризация речевого корпуса

Как уже отмечалось, речевой корпус или речевая база представляет собой
структурированное множество речевых фрагментов. Характер
структурированности речевого корпуса в значительной степени зависит от
целей, которые ставятся при его создании.
Большинство крупномасштабных речевых корпусов формируется с целью их
использования для решения задач распознавания речи, и поэтому они обычно
содержат разделы, предназначенные для обучения систем распознавания и для
последующего тестирования качества работы этих систем.
Каждый из этих двух разделов обычно еще разбивается на подразделы,
каждый из которых, в свою очередь, содержит речевые фрагменты,
произнесенные одним диктором. При этом желательно поддерживать выполнение
двух требований. Во-первых, не должны пересекаться составы дикторов,
относящихся к этим разделам, а, во-вторых, наборы предложений,
произнесенных дикторами, относящимися к разделу обучения и к разделу
тестирования, должны быть различны.
Иногда бывает удобно разделы обучения и тестирования структурировать
дополнительно, разбивая их на подразделы, соответствующие, скажем, дикторам-
мужчинам и дикторам-женщинам, или на подразделы, соответствующие различным
диалектам дикторов.
Бывает целесообразно также, наряду с основными разделами обучения и
тестирования формировать еще один специальный раздел речевой базы,
предназначенный для целей отладки и совершенствования самой системы
распознавания речи. В этом случае желательно, чтобы состав дикторов,
соответствующих этому разделу, не пересекался с составами дикторов для
разделов обучения и тестирования. Это ограничение накладывается также и на
множество предложений, подготовленных для такого раздела.
Мы формировали для речевой базы данных еще и три вспомогательных
раздела, в которые заносили дефектные речевые фрагменты, то есть те
фрагменты, в которых в процессе проверки записи диктора были обнаружены
ошибки или технические погрешности. В один из них помещали те фрагменты,
которые содержали искажения, в другой - фрагменты с отсечениями, а третий
раздел предназначался для занесения в него всех речевых фрагментов так
называемых «плохих дикторов», то есть тех дикторов, которые по заключению
экспертов отличались существенными дефектами произношения или для которых
фрагменты с ошибками искажения и отсечения носили массовый характер. Такие
вспомогательные разделы могут использоваться в исследовательских целях как
разработчиками систем распознавания речи, так и специалистами в области
лингвистики.
Если формируемая речевая база предназначена не только для
использования в системах автоматического распознавания речи, но и для
теоретических исследований в области фонетики, то желательно
структурировать ее еще и в соответствии с фонетическими особенностями
лексического материала, такими, например, как фонетическая полнота,
фонетическая сбалансированность, фонетическая репрезентативность и т.п. В
этом случае в те или иные разделы базы заносятся речевые фрагменты,
образованные дикторами при произнесении наборов предложений, обладающих
соответствующими фонетическими особенностями.

Фонетическая верификация речевого корпуса

После первичной проверки и коррекции элементов речевого корпуса они
записывались на компакт-диски и передавались экспертам для фонетической
верификации.
Задача эксперта-фонетиста состояла в том, чтобы верифицировать и
откорректировать, если необходимо, полученную автоматическим способом
ожидаемую транскрипцию каждого произнесенного предложения в соответствии с
реальным произнесением диктора (исходная автоматическая транскрипция
используется при этом как своего рода "подстрочник", который требует
верификации).
Для выполнения верификационной работы в удобном для эксперта режиме
была создана специальная программа, которая организует рабочее место и
деятельность эксперта. С ее помощью эксперт имеет возможность прослушивать
звуковую волну или ее части и формировать реальное транскрипционное
представление речевого элемента. Он может также вызвать любой звуковой
редактор или анализатор для просмотра осциллограммы и/или спектрограммы
произнесенного предложения.
Формируя поле реальной транскрипции произнесенного диктором
предложения, эксперт, при необходимости, может использовать только
допустимые фонемы (монофоны) и соответствующие транскрипционные
обозначения, то есть те, которые внесены в специальный список допустимых
символов. При попытке использовать недопустимый монофон (символ) программа
сообщает об этом, так что эксперт застрахован от возможности внести такую
ошибку. Однако на практике возникали случаи, когда эксперты считали
необходимым расширить список допустимых монофонов. Каждый такой случай
обсуждался совместно с разработчиками, и иногда, в виде исключения,
производилось соответствующее расширение списка допустимых монофонов и
символов.
Свои соображения относительно вносимых изменений по сравнению с
каноническим транскрипционным представлением эксперт может, при желании,
записать в комментарии. Там же эксперт может сделать отметки, если
обнаружит, что чтение какого-либо предложения осуществлено с дефектом
(запинка на звуке, поправка, замена или пропуск слова и пр.). Этот
комментарий вместе с реальной транскрипцией, а также фамилия эксперта и
дата верификации автоматически заносится в информационную составляющую
речевого фрагмента (в информационный файл).
Для того чтобы облегчить обработку результатов верификации, экспертам
рекомендовалось, например, начинать комментарий с символа «!», если они
обнаружили ошибку типа «отсечение» или другой технический брак, допущенный
при записи диктора, и с символа «?», если встретили ошибку типа
«искажение».
Общие замечания о фонетических особенностях диктора и характере его
произношения эксперт мог записать в автоматически создаваемый файл, свой
для каждого диктора.
Отверифицированные таким образом элементы речевого корпуса, точнее,
информационные файлы, эксперты периодически (как правило, раз в неделю)
передавали в архивированном виде разработчикам речевого корпуса, объединяя
их в порции, каждая из которых содержала информационные файлы одного
диктора.
Для облегчения и унификации верификационной работы экспертов-
фонетистов была составлена специальная инструкция, содержащая детальное
описание базовой транскрипционной системы и перечень различных ситуаций,
которые предположительно могли возникнуть у экспертов при верификации
автоматических транскрипций, построенных с помощью этой транскрипционной
системы. Для подобных ситуаций в инструкции давались рекомендации, которые
регламентировали действия экспертов. Заранее предусмотреть все сложные
ситуации при верификации невозможно, поэтому руководители разработки
поддерживали постоянный рабочий контакт с экспертами и текущим образом
вносили необходимые дополнения и поправки в рабочую инструкцию. Полезность
такой инструкции для получения достоверных и единообразных результатов
верификации трудно переоценить, особенно в условиях, когда работает бригада
экспертов в течение достаточно длительного времени.

Обработка результатов верификации

После получения отверифицированных информационных файлов они
записывались в специальный архив, в котором для каждого эксперта отводилась
отдельная директория. Далее эти файлы обрабатывались программой
перекодировки.
Эта программа, во-первых, перекодировала ожидаемое и актуальное
транскрипционные представления предложения в ASCII-код, формируя в
информационном файле соответствующие дополнительные поля.
Во-вторых, она создавала 5 протоколов, в один из которых записывались
все обнаруженные при перекодировке недопустимые фонемы (символы), а
остальные использовались на заключительной стадии создания речевого корпуса
при формировании его вспомогательных разделов, содержащих усеченные и
искаженные фрагменты.
Первый протокол содержал недопустимую фонему, идентификатор
информационного файла, в котором она встретилась, идентификатор диктора и
фамилию эксперта. Этот протокол направлялся соответствующему эксперту для
исправления ошибок, а после получения исправленных информационных файлов
процедура проверки повторялась.
Остальные 4 протокола содержали:
. тексты всех комментариев в информационных файлах, соответствующих
усеченным фрагментам;
. тексты всех комментариев, соответствующих искаженным фрагментам;
. тексты вообще всех комментариев в информационных файлах;
. тексты всех комментариев, соответствующих правильным, с точки зрения
программы, фрагментам.

Окончательное формирование речевого корпуса

На этой стадии завершалось формирование структуры и состава речевого
корпуса. С помощью редактора звуковых волн разработчики анализировали
ошибки, выявленные экспертами и отмеченные в первых двух из четырех
указанных выше протоколов. Внимание обращалось, в основном, на ошибки типов
«отсечение», «искажение» и «шум», которые были определены выше. По каждой
из таких ошибок разработчики принимали решение о целесообразности переноса
соответствующего элемента в раздел усеченных фрагментов или в раздел
искаженных фрагментов. Если ошибка типа "шум" находилась в начале или в
конце звуковой волны, то эта волна корректировалась с помощью звукового
редактора без перемещения соответствующего элемента в другой раздел.
Так как при обнаружении отсечений или искажений эксперты хотя и
отмечали эти особенности фрагментов в своих комментариях, но иногда
забывали помечать текст комментария соответствующими символами, то
разработчики на заключительной стадии формирования разделов усеченных и
искаженных фрагментов речевого корпуса кроме первых двух из перечисленных
четырех протоколов просматривали и последний протокол.
Отметим, что указанная выше программа перекодировки была составлена
таким образом, что может корректно использоваться как для обработки
множеств, состоящих только из информационных файлов, так и для обработки
уже сформированного речевого корпуса или его частей, причем неоднократно
для одного и того же множества.

Некоторые выводы

Опыт формирования речевого корпуса, имеющего сложную структуру и
содержащего десятки тысяч элементов, причем такого формирования, которое
осуществлялось в результате выполнения целого ряда описанных выше
последовательных этапов, позволяет сделать некоторые выводы. Сформулируем
два основных, хотя, казалось бы, и очевидных вывода.
1. Результаты работы на каждом этапе требуют аккуратной и многократной
проверки. Чем меньше ошибок будет допущено на ранних этапах, тем
более значительную экономию времени мы получим на последующих
этапах.
2. Необходимо тщательно продумывать и постоянно поддерживать систему
резервного копирования всех основных хранилищ информации,
используемых для формирования речевого корпуса. Мы поддерживали
такую систему для исходной информации, получаемой в процессе записи
дикторов, для формируемого речевого корпуса, для отверифицированных
информационных файлов. При этом копия каждого из хранилищ
размещалась на жестком диске другого компьютера локальной сети.

Литература

1. Аванесов Р.И. Русское литературное произношение. Москва, 1972, 1984.
2. Русское литературное произношение и ударение. Словарь-справочник. Под
ред. Р.И.Аванесова и С.И.Ожегова. Москва, 1959.
3. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я., Фарсобина В.В. База
речевых фрагментов русского языка ISABASE. // В сб. «Интеллектуальные
технологии ввода и обработки информации». М., Эдиториал УРСС, 1998.
4. Мисюрёв А.В., Подрабинович А.Я, Брухтий А.В. Использование искусственной
нейронной сети для оценки близости векторов акустических параметров. // В
сб. «Интеллектуальные технологии ввода и обработки информации». М.,
Эдиториал УРСС, 1999.
5. Кривнова О.Ф., Захаров Л.М., Строкин Г.С. Речевые корпусы (опыт
разработки и использование) // Труды международного семинара Диалог'2001
по компьютерной лингвистике и ее приложениям. Аксаково, 2001.
6. Арлазаров В.В., Богданов Д.С., Брухтий А.В., Подрабинович А.Я.
Программное обеспечение для формирования речевых баз данных. // В
настоящем сборнике.