Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://www.lcl.srcc.msu.ru/mainstream_pages/5_mainstream.htm
Дата изменения: Wed Apr 24 15:30:31 2013 Дата индексирования: Thu Feb 27 20:49:23 2014 Кодировка: |
ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ ЛЕКСИКОГРАФИЧЕСКИХ СИСТЕМ |
|
English |
|
Компьютерная справочно-аналитическая система для работы с текстами русских сказок |
||||||||
---|---|---|---|---|---|---|---|---|---|
А. В. Рафаевой разрабатывается справочно-аналитическая система СКАЗКА-2, предназначенная для работы с русскими народными сказками, прежде всего для анализа сюжета, мотивного фонда и персонажей русских волшебных сказок. При проектировании системы СКАЗКА-2 преследовались следующие цели: · создание полнотекстовой БД, содержащей русские сказки из наиболее авторитетных источников и научное описание этих сказок; · разработка дополнительных средств (правил поиска и выборки текстов, удовлетворяющих определенным условиям, дополнительные словари и т.п.) для предварительного анализа текстов на естественном языке (записей сказок и описаний из фольклорных указателей). Эта часть работы во многом опирается на опыт разработки и использования системы СКАЗКА.
В отличие от системы СКАЗКА-2, система СКАЗКА базируется на фрагменте указателя Аарне-Томпсона[1] (далее АТ). В качестве среды для реализации системы была выбрана СУБД STARLING. Система СКАЗКА разрабатывалась как исследовательская система, позволяющая ставить компьютерные эксперименты над текстом указателя АТ. Требовались возможности обработки указателя АТ как текстовой и структурированной информации (обработка описания типа целиком и отдельно по полям БД), возможность в дальнейшем изменять и дополнять систему по мере необходимости, создание и сохранение правил выборки текстов, содержащие определенные мотивы, наборы мотивов и т.п. Все эти возможности в системе реализованы (частично они предоставляются средой STARLING, частично реализованы в виде отдельных программных модулей). Кроме того, в систему вошли процедуры, позволяющие создавать частотный словарь, словарь мотивов, а также модуль создания конкордансов заданного слова или сочетания слов.
В процессе работы с системой СКАЗКА был выработан
ряд принципов компьютерной обработки фольклорных указателей, а также требований
к текстам таких указателей. К примеру, эти принципы использовались для
нахождения мотива чрезмерной тоски по умершему в текстах ряда
русскоязычных указателей сказок и несказочной прозы, доступных в электронной
форме на сайте "Фольклор и постфольклор"
http://ruthenia.ru/folklore/
Работа с системой СКАЗКА позволила также сделать ряд выводов об организации исследований с помощью компьютерной системы, построенной на основе указателя. · необходимо применять различные принципы анализа и наборы ключевых слов для различных сказочных жанров. Например, такой персонаж как лиса будет играть различную роль в волшебных сказках и сказках о животных. · существует возможность организации связи между указателем и записями фольклорных текстов, каталогизированных по этому указателю. Организовать подобную связь технически несложно; в то же время она позволит существенно расширить возможности системы. В настоящее время поддержка системы СКАЗКА прекращена, однако ряд результатов, полученных при разработке и использовании этой системы, применяется и при проектировании системы СКАЗКА-2.
Основой системы СКАЗКА-2 являются записи фольклорных сказок. Система разрабатывается в СУБД Starling для обеспечения частичной совместимости с системой СКАЗКА. В дальнейшем возможен перенос системы в СУБД MySQL. И в том, и в другом случае основными критериями выбора СУБД является наличие полей переменной длины, встроенного языка запросов и возможность создания и подключения дополнительных программных модулей. В настоящее время создан макет системы, включающий тексты русских сказок из собрания А.Н. Афанасьева (используется электронная версия, опубликованная на сайте Фундаментальной электронной библиотеки http://www.feb-web.ru), а также ряд отдельных сказок из других собраний. Работа над системой производится в несколько этапов. 1. Подготовка текста. Тексты сказок переводятся в электронную форму, вычитываются с учетом последующего автоматического анализа. Определенную сложность представляют собой записи, отражающие диалектные и просторечные формы. По-видимому, в этом случае придется прибегать либо к специальной разметке текста, либо к составлению таблиц или правил соответствия для автоматического анализа текста. 2. Разработка программных модулей для создания словарей. Предполагается создание и подключение к системе следующих словарей: частотный словарь; словарь персонажей; словарь ключевых слов; словарь имен. 3. Разработка правил автоматического поиска мотивов в тексте. Правила разрабатываются и дополняются вручную для каждого мотива по мере пополнения системы новыми текстами. В частности, в настоящее время разрабатываются правила нахождения русских волшебных сказок, содержащих мотивы чудесного зачатия, чудесного рождения и связанных с ними. Вспомогательным средством для построения правил поиска мотивов является программа составления конкордансов заданного слова. 4. Разработка алгоритмов подключения и обработки новых текстов. Подключение новых сказочных текстов к системе должно вызывать изменение автоматически создаваемых словарей. 5. Разработка пользовательского интерфейса системы, автоматизация частых запросов и т.п. [1] АТ – Thompson S. The Types of the Folktale: A Classification and Bibliography. Anti Aarne's Verzeichnis der Märchentypen. Third printing. Helsinki, 1973. FFC No. 184.
|