Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~rlc2004/files/sec/19.doc
Дата изменения: Mon Mar 29 00:00:00 2004
Дата индексирования: Sat Dec 22 05:32:37 2007
Кодировка: Windows-1251


Секция XIX.

Компьютерная и прикладная лингвистика


Цели и принципы построения системы 'Манускрипт'1
В. А. Баранов, А. А. Вотинцев, А. Н. Миронов, С. В. Ощепков,
В. А. Романенко
Удмуртский государственный университет, Ижевск
baranov@udm.ru
русский язык, полнотекстовые базы данных, древние славянские рукописи
Summary. The report presents an experience of creation of full text
databases of ancient Slavonic manuscripts. The features of the Manuscript
system are storing all the particularities of the original in the
electronic form, the possibility of fragmentation of the text into
desirable structural-functional components, hierarchic organization of the
text units, and access to the database by means of the internet.


Современные компьютерные технологии предоставляют принципиально новые
способы хранения, структурирования и отбора текстовой информации и доступа
к ней. Для нау?ных исследований, основой которых являются уникальные
тексты, существенным является нали?ие электронной копии, адекватной
оригиналу по структуре и составу. Зада?и хранения, редактирования,
трансформации, структурирования и отображения текстовой информации можно
решить с помощью информационно-поисковых систем на основе полнотекстовых
баз данных. При проектировании подобных систем важным является обеспе?ение
доступа к объектам (единицам) в связи с необходимостью обеспе?ения переда?и
информации ?ерез Интернет и обеспе?ение корпоративного наполнения
информационных хранилищ.
В Удмуртском госуниверситете твор?еским коллективом филологов и
программистов ведется работа по проектированию и созданию компьютерной
системы обработки рукописных памятников - Системы 'Манускрипт
(Manuscript)', создание которой продиктовано 1) необходимостью обеспе?ения
исследователя многофункциональными возможностями работы с текстами (поиск и
выборка единиц, входящих в несколько текстов, обладающих аналоги?ными
параметрами, и / или в однотипные структурные ?асти этих текстов);
2) желанием предоставления ?ерез Интернет широкому кругу исследователей
уникальных рукописных памятников, по тем или иным при?инам пока не
изданным, и справо?ных материалов к ним.
В основу разработки положены принципы минимальности составляющих,
иерархи?ности типов единиц, открытости пере?ня объектов, их зна?ений и
свойств.
Система состоит из многотекстовой базы данных, специализированного
редактора и WEB-интерфейса.
Разработанная для системы 'Манускрипт' универсальная модель представления
текстов в базе данных позволяет хранить и описывать практи?ески любые
объекты - единицы, представляющие собой выделенные на разли?ных основаниях
фрагменты текста или рукописи, а также введенные пользователем абстрактные
единицы и их свойства (например, на?альная форма, словарь, алфавит, род
имени, тип синтакси?еской связи), которые связаны с выделенными в тексте
или рукописи единицами. Основанием выделения является, в ?астности, нали?ие
в тексте единиц с иденти?ными структурно-функциональными признаками. Между
единицами существуют разли?ного рода связи. Совокупность единиц и связей
между ними представляет собой сеть единиц. В сети единиц на основании
определенных свойств выделяются подсети. Некоторые из подсетей имеют
структуру иерархи?еской под?иненности, ина?е - являются иерархиями.
Для доступа к системе ?ерез Интернет применяется трехуровневая
архитектура: Oracle Server 9i - Oracle9i HTTP Server - Web браузер.
Cпециализированный редактор текстов и набор форм для заполнения
справо?ников используют клиент-серверную ахритектуру для доступа к базе
данных. Данные в базу данных поступают 1) в пакетном режиме после обработки
файлов, подготовленных в текстовом редакторе ChiWriter, 2) в интерактивном
режиме с помощью специализированного редактора текстов.
К настоящему времени:
1. Разработана универсальная модель хранения информации о текстах (графико-
орфографи?еской, граммати?еской, комментирующей и др.).
2. Построена БД под управлением СУБД Oracle, ориентированная на хранение,
многофункциональную обработку и исследование текстов сложного графи?еского
состава и текстовой структуры (тестирование проводится на материале
древнерусских текстов XI века).
3. Разработаны конверторы для переда?и информации между Системой обработки
древнерусских текстов (версия 2.20), Системой Манускрипт и текстовыми
стандартами MSWindows.
4. В Интернет опубликован Web-сайт, представляющий собой электронное
издание текста XI века, предоставлен доступ к тексту и разли?ным
указателям, формирующимся в БД системы (несколько видов текста, ?астотные,
алфавитные указатели на?альных и текстовых форм и др.). Адрес сайта:
http://io.udsu.ru/ptm/.
5. Для возможности наполнения и корректировки информации о текстах
непосредственно в БД разрабатывается специализированный текстовый редактор,
поддерживающий работу с 16-битными шрифтами.
6. Ведутся работы по разработке собственной коди

рово?но-шрифтовой системы, содержащей древнерусские и другие встре?ающиеся
в текстах символы, на основании которой создан набор символов для базы
данных Oracle.
7. Создан комплект шрифтов, содержащий практи?ески все необходимые для
набора древнейших славянских рукописей символы, вклю?ая вариантные и
лигатурные на?ертания; подготовлены раскладки клавиатуры.
Продемонстрированные в Интернет возможности публикации древних славянских
текстов (в первую о?ередь, разнообразные формы представления текста и
указателей, возможность осуществления выборки) с помощью системы
'Манускрипт' или аналоги?ных ей систем является одним из решений сложного
вопроса издания рукописных памятников: в какой форме, с каким справо?ным
аппаратом и на какой стадии исследования можно представлять текст нау?ной
общественности - рукопись и перви?ные справо?ные материалы могут быть
доступны пользователям Интернета уже во время набора текста и наполнения
базы данных разли?ной информацией.
___________________________________
1 Работа осуществляется при финансовой поддержке РФФИ (гранты ? 02-07-
90424в, ? 02-07-90318-в.) и РГНФ (грант ? 01-04-12027в).

Стратификация корпусов и иерархия словарей
А. В. Венцов, В. Б. Касеви?, Е. В. Ягунова
Санкт-Петербургский государственный университет
ilena@EI2192.spb.edu
корпус текстов, русский язык, психолингвистика
Summary. The National Corpus of Russian currently compiled by a consortium
of St. Petersburg and Moscow linguists is designed as a set of subcorpora
with its own lexicon each. It is important to realize that a difference in
word frequency is a sufficient reason to split a word into two different
lexical entries belonging to two separate subcorpora. Anyway, speech
perception models are thought of as relying on lexical and semantic
adjustment to the text to be comprehended, thus using specifivc subcorpora
and (sub)lexicons rather than undifferentiated 'general' lexicons.


Национальный корпус русского языка, создаваемый консорциумом лингвистов
Санкт-Петербурга и Москвы, должен носить универсальный характер в том ?исле
и с то?ки зрения представленности текстов разных жанров и отбора авторов,
которые, можно полагать, отражают характеристики современного состояния
русского языка в его развитии. Из этого следует, ?то 'генеральный' корпус -
это система подкорпусов, обращение к которым обеспе?ивается соответствующей
СУБД.
В свою о?ередь, это озна?ает, ?то для каждого подкорпурса возможен и
необходим собственный (под)словарь. Отли?ия между двумя и более
(под)словарями могут состоять как в несовпадении состава слов и
словоподобных со?етаний, так и в разных индексах ?астотности для одних и
тех же слов. С у?етом последнего параметра может оказаться, ?то общая
(совпадающая) ?асть словарей, характеризующая корпус в целом, не столь уж
обширна (хотя, разумеется, предстоит определить, какая разница в
?астотности достато?на для признания одного и того же слова с отли?ающейся
применительно к двум подкорпусам ?астотностью в каком-то смысле двумя
разными единицами двух словарей).
Естественным итогом данного подхода будет некоторая иерархия словарей: от
общего словаря к словарю, например, современной драмы, далее к словарю
А. Вампилова - наконец, к словарю драмы 'Прошлым летом в Чулимске'.
Составление словарей конкретных писателей, равно как и глоссарии к
конкретным текстам, - довольно давняя традиция. Создание Национального
корпуса русского языка даст новый импульс этой традиции и предоставит
широкие возможности для литературовед?еской, текстологи?еской и иной
компаративистики.
Для лингвистики и психолингвистики структура корпуса как множества
подкорпусов (ср. обы?ную характеристику языка как 'системы систем') также
будет эффективным средством для создания моделей, более адекватно
отражающих структуру ре?евой деятельности. В одной из предыдущих работ
(Венцов, Касеви? 1994) было выдвинуто понятие 'текущего словаря',
использующегося при восприятии ре?и. Имелось в виду, ?то подобно тому, как
в самом на?але восприятия ре?евого сообщения осуществляется подстройка под
диктора, имеет место и своего рода подстройка под лексико-семанти?еские
особенности воспринимаемого текста. Такая лексико-семанти?еская подстройка
позволяет сузить объем словаря, к которому обращается воспринимающий ре?ь
?еловек - перейти от общего словаря к текущему. Соответственно облег?аются
и становятся более эффективными процедуры лекси?еского поиска за с?ет
сокращения ?исла единиц, входящих в состав 'когорты' - класса слов-
кандидатов.
Еще одно следствие введения системы иерархизированных словарей,
соотнесенных с подкорпусами 'генерального' корпуса - это возможность
синтеза по заданным параметрам. Особенно любопытным этот подход окажется
при нали?ии в составе 'генерального' корпуса подкорпусов разговорного
языка: возникнет реальная база для моделирования порождения текстов,
типи?ных, например, для разных социо-культурных групп (скажем, студентов-
гуманитариев столи?ного вуза).
Коммер?еское имя как результат индивидуального словесного твор?ества

в аспекте лингвисти?еской экспертизы
Е. И. Галяшина
Государственное у?реждение 'Экспертно-криминалисти?еский центр МВД России',
Москва
galyashina@mtu-net.ru
лингвисти?еская экспертиза, твор?еская оригинальность, товарный знак
Summary. The report eliminates the approach for forensic linguistic
investigation of brand names, slogans and trademarks considered as the
result of individual creative activity in Russian language and concerned to
a number of objects of the intellectual property protected according to the
current legislation. The distinctive ability of similar trademarks with the
verbal component must represent attributes of phonetic and semantic
creative originality that grows out from objective processes of life and
development of lexical and grammatical system of the Russian language.


В докладе рассматривается проблема лингвисти?еской экспертизы
русскоязы?ного вербального (словесного) компонента комбинированных товарных
знаков. Актуальность работы обусловлена множественностью исков в
оте?ественных судебных инстанциях, связанных с отказом в регистрации
товарных знаков, не обладающих способностью отли?аться от фонети?ески
похожих коммер?еских имен, зарегистрированных ранее. Необходимость
назна?ения лингвисти?еской экспертизы вызвана тем, ?то в соответствии с
действующими правилами1 не допускается регистрация в ка?естве товарных
знаков обозна?ений, не обладающих разли?ительной способностью, а также тех,
которые являются общепринятыми символами и терминами. К общепринятым
символам относятся, как правило, лекси?еские единицы, характерные для
конкретных областей науки и техники; символизирующие отрасль хозяйства или
область деятельности, к которым относятся товары, условные обозна?ения,
применяемые в науке и технике. Эти вербальные компоненты могут быть
вклю?ены как неохраняемые элементы в товарный знак, если они не занимают в
нем доминирующего положения. При определении, занимает ли неохраняемый
вербальный компонент в товарном знаке доминирующее положение, принимается
во внимание его смысловое и / или пространственное зна?ение. Если такое
обозна?ение занимает доминирующее положение, то делается вывод о
невозможности регистрации заявленного обозна?ения в ка?естве товарного
знака.
На разрешение лингвисти?еской экспертизы в отношении конкретного
комбинированного товарного знака,
___________________________________
[?] См. Закон Российской Федерации от 23 сентября 1992 года ? 3520-I 'О
товарных знаках, знаках обслуживания и наименованиях мест происхождения
товаров'; 'Правила составления, пода?и и рассмотрения заявки на регистрацию
товарного знака и знака обслуживания', утвержденные приказом Роспатента от
05 марта 2003 г. ? 32.
в структуру которого входит вербальный компонент, ставятся вопросы: какие
слова входят в его состав; относятся ли они к ?ислу терминов или
обозна?ений, являющихся общепринятыми наименованиями или терминами,
характерными для какой-либо конкретной отрасли производства или области
науки и техники; доминирует ли в рассматриваемом комбинированном товарном
знаке вербальный компонент (словесное обозна?ение). Лингвисти?еская
экспертиза сравниваемых коммер?еских имен не сводится только к изу?ению
степени фонети?еского сходства или разли?ия, а должна базироваться на
комплексном, всестороннем анализе сравниваемых обозна?ений, их восприятии
как доминирующих или не доминирующих элементов, сопоставлении звукового
состава, ассоциативного ряда, степени семанти?еской близости. При
определении сходства комбинированных обозна?ений исследуется зна?имость
положения, занимаемого тождественным или сходным элементом в заявленном
обозна?ении в ка?естве коммер?еского имени.
В докладе рассматривается пример словесного обозна?ения 'фармсинтез',
входящий в ка?естве вербального компонента в состав ряда комбинированных
товарных знаков, определяется, относится ли данное словесное обозна?ение к
?ислу охраняемых или неохраняемых (в соответствии с п.1 ст.6 Закона 'О
товарных знаках'). Для решения данной зада?и проверялось, является ли
вербальный компонент 'фарм' самостоятельной лексико-граммати?еской единицей
современного русского языка (и какова его распространенность в сфере
фармакологи?еского или иного типа дискурса), либо это несамостоятельный
словообразовательный компонент, служащий лишь для образования новых слов
русского языка; какова сфера функционирования лекси?еских единиц 'фарм' и
'синтез'. Проведенный раздельный анализ каждого элемента словесной ?асти
заявленного комбинированного товарного знака ('фарм' и 'синтез') показал
следующее. Слово фарм, образованное путем усе?ения слова фармация широко
употребляется как самостоятельное слово, и как сокращенная основа в составе
двухкомпонентных номинаций разли?ных фирм и компаний (например, Фармсинтез
и ЗАО 'Фарм-Синтез').
Аббревиация фарм в названиях фирм, организаций и других номинативных
конструкциях употребляется: как сокращение: доктор фарм. наук, фарм.
фабрика; как первый компонент при образовании существительных способом
словосложения. Фармпрепараты, фармихимия, фармсинтез; фармрынок,
фармвестник и т. д.; как первый (или последний) компонент аббревиаций
Фармснабсбыт, Фармимэкс; Новосибхимфарм; как первый (или последний)
компонент существительных, образованных путем сложения производящих слов:
Фарм-Синтез, Дао-Фарм, Артис-Фарм, Фалвест-Фарм, Фарм-Стрит и т. д.; как
самостоятельное слово: Солвей Фарма, ОРИОН Фарма, Канон Фарма продакшн,
группа Фарм, ЗАО ФАРМ, ФАРМ в цифрах.
Интернет дискурс отражает твор?еские потенции русского языка в этой сфере
лексики - богатство и конкретных форм, и разнообразие моделей для
образования коммер?еского имени, содержащего компонент ФАРМ.
Существительное фармсинтез является сокращением более полного
словосо?етания фармацевти?еский синтез, озна?ающего полу?ение лекарственных
веществ путем хими?еского синтеза. При этом семанти?еский акцент делается
на втором компоненте (синтез) посредством словесного ударения на втором
слоге данного трехсложного слова. Данное имя встре?ается не только в
наименованиях фирм (как имя собственное), но и как узкий конкретный термин,
относящейся к области фармакохимии (то есть как имя нарицательное).
Сокращение ФАРМ, употребляемое как самостоятельное слово и синоним слова
фармация, преимущественно используется как коммер?еское имя в широком
зна?ении - термина для маркирования определенной отрасли, относящейся к
производству лекарственных веществ, и области науки, изу?ающей вопросы
добывания, обработки, изготовления, хранения, отпуска лекарственных
средств. В этом смысле соположенные в комбинированном товарном знаке
элементы 'фарм' и 'синтез' можно квалифицировать как неохраняемые авторским
правом элементы, так как они являются терминами в области фармации, не
оригинальны, а общеупотребительны. Анализ позволил выявить разли?ительную
способность комбинированных товарных знаков, в структуре которых данный
словесный компонент не доминировал и не представлял структурно сильную
концепцию.
Русский язык есть результат - народного твор?ества, а потому термины и
отдельные общеупотребительные слова, не отве?ающие критерию оригинальности
(то есть неповторимости, уникальности, принадлежности самобытному
индивидуальному словесному твор?еству только одного автора) не могут
являться ?ьей-либо исклю?ительной собственностью, препятствующей их
употреблению другими носителями русского языка, в том ?исле в ка?естве
коммер?еского имени.
Корпус текстов литературной критики произведений постмодернизма

как база лексикографи?еских исследований
Д. В. Гугунава
Нижегородский государственный педагоги?еский университет
gugunava@nm.ru
корпусная лексикография, терминология, неологизм
Summary. The literary criticism in Russia is some kind of political tribune
and it reflects (and creates) 'public moods'. Modern word-formative
processes in this meta-discourse are extremely intensive, because of the
new special terminology establishment and other reasons. So corpora forming
and investigation is to help systemize (non)terminological neologisms.


По словам М. Эпштейна, в конце ХХ века метадискурсивные языки преобладают
над перви?ными объектами, в ?астности критика преобладает над литературой.
Между тем литературная критика в России традиционно выполняла роль
публицистики и являлась общественно-полити?еской трибуной. Весьма
перспективны исследования новообразований в новейшей литературной критике,
особенно в критике произведений постмодернизма (ЛКП), которая активно
влияет на формирование общественного сознания и эстети?еский вкус публики,
стремится к языковой игре и словотвор?еству, заимствует интернациональные
термины и создает собственные, выстраивая при этом определенную картину
мира. Однако особенности словотвор?ества современной критики, несмотря на
бурное развитие неологии и теории кказиональности, практи?ески не
исследованы (лишь некоторые новообразования упоминаются, например, в
работах Я. Мукаржовского и В. Н. Виноградовой.
Исследование корпуса текстов ЛКП прежде всего преследует цель
систематизации (не)терминологи?еских новообразований, функционирующих в
литературно-крити?еском дискурсе, экспликации полу?енных знаний на теорию и
практику лексикографии (составление толковых словарей, словарей
неологизмов, терминологи?еских словарей и пр.). Дости?ь этой цели можно,
например, решением следующих зада?:
1) составление корпуса (тексты объединяются общим предметом, жанром,
стилем, хронологией; форма пода-

?и - преимущественно электронная);
2) выявление окказионализмов в корпусе (эта зада?а выполняется
полуавтомати?ески, поскольку можно выявить автомати?ески все необы?но
выглядящие слова средствами, например, программы проверки орфогра-

фии, далее приходится 'сортировать вру?ную', выявляя собственно
окказионализмы на фоне опе?аток, малоупотребительных слов, не у?итываемых
при проверке

и т. п.);
3) составление конкорданса новообразований (желательно применение
соответствующего программного обеспе?ения, например, из серии UNILEX);
4) выявление терминообразующих потенций окказионализмов (?астотность,
моносеманти?ность и другие параметры);
5) составление словаря специфи?еской терминосистемы ЛКП;
По нашим рас?етам, в корпусе из 200 авт. л. (около 1 млн.
словоупотреблений) выявляется до 3000 окказионализмов в 4500 употреблениях.
О?евидно, далеко не все из них могут быть востребованы узусом. Наибольшие
шансы на узуализацию у ?асто употребляющихся терминоидов, образованных в
соответствии с регулярными деривационными типами и моделями
высокопродуктивными средствами деривации. Кроме того, термин по возможности
должен быть немногозна?ным, кратким, потенциально быть конституентом
широкого деривационного гнезда и обладать про?ими свойствами, облег?ающими
его использование.
В результате опытов по составлению конкорданса выявлены терминоиды, вполне
удовлетворяющие ряду критериев (сюда можно отнести множество префиксальных
и суффиксальных дериватов, образованных по высокоактивным моделям). Не
претендуют на терминологи?ность в первую о?ередь многокомпонентные
композиты типа империалисти?ески-коммунисти?ески-фашистски-косми?ески-
идеологи?ески-атомно-энергети?еский или постструктуралистско-
деконструктивистско-постмодернистский, а также дериваты с ярко выраженной
экспрессией, например, идиоти?ески-тупой, исповедалка, кинуха,
постмодернюга. Коне?но, здесь немало переходных слу?аев и подробный анализ
терминологи?ности новообразований ЛКП - предмет весьма объемной работы.
О?евидно, однако, ?то лексикографи?еская фиксация многих из них в
традиционной форме объективно отстает от реальной узуализации. Вместе с тем
вклю?ение корпуса ЛКП на правах гипокорпуса в общенациональный гиперкорпус
должно стереть этот барьер. В некотором роде создание словаря терминов ЛКП
решает ту же зада?у: словарь так же может быть гипокорпусом (метакорпусом)
исследуемого корпуса ЛКП.
Корпусные исследования могут расставить новые акценты в неологии и теории
окказиональности. По всей видимости, идеальный корпус текстов
общенационального языка должен демонстрировать своеобразное слияние ре?и и
узуса, в котором деление на неологизмы и окказионализмы потеряет смысл,
ведь все новообразования будут зафиксированы этим глобальным гипертекстовым
словарем. В своем развитии корпусная лингвистика, наверное, стремится к
этому.
Лексико-граммати?еская и граммати?еская омонимия

в украинском и русском языках
Н. П. Дар?ук, Л. А. Алексеенко
Киевский национальный университет имени Тараса Шев?енко (Украина)
n_darchuk@yahoo.com
омонимия, лексико-граммати?еская омонимия, граммати?еская омонимия,
дизъюнктивная цепо?ка
Summary. The project goal is to study all possible homonyms on the basis of
different dictionaries of the Ukrainian and Russian languages. About 2,5
Million Russian wordforms and about 3 Million Ukrainian wordforms were used
during the analysis which were created as the result of synthesis of
paradigms of the Russian and Ukrainian languages.


Явление омонимии издавна интересует исследователей, хотя существует то?ка
зрения, ?то омонимы - явление слу?айное, но большое коли?ество
исследований, проводимых на матерале разли?ных языков, свидетельствуют о
постоянном интересе к этому 'неинтересному', 'слу?айному' явлению [1, 272].
Омонимия - это нарушение 'закона знака': при омонимии одному и тому же
озна?ающему соответствуют разные озна?аемые, то есть такие, между которыми
нет ни?его общего. Поскольку язык - семиоти?еская система с нежестким
соотношением между озна?аемым и озна?ающим, то, о?евидно, ?то, во-первых,
закон знака сохраняется, ина?е процесс коммуникации был бы невозможным, а,
во-вторых при определенных обстоятельствах допускается нарушение этого
закона [1, 273]. При каких условиях это происходит, какой допустимый
процент этих нарушений, одинаков ли он в разных языках или разли?ный - все
это пока не ясно и нуждается в исследовании.
Целью данной работы является выяснение всех возможных омонимов по
материалам словарей русского

и украинского языков и сравнительная их характерис-

тика. Такое внимание к этому типу омонимов обусловлено двумя при?инами: во-
первых, отсутствием полно-

го словаря лексико-граммати?еских омонимов (желательно с ?астотами,
показывающими вес в языке и ре?и каждого типа омонима), создать который
вру?ную о?ень тяжело (в обоих языках существуют данные о лекси?еской
омонимии). Такой словарь важен как для тео-

рети?еских обобщений, так и для практи?еских по-

требностей (дидактика, прикладная лингвистика). Во-вторых, омонимия -
существенная преграда на пути

создания автомати?еских текстовых анализаторов (морфологи?еского,
синтакси?еского, семанти?еского), не-

обходимых при машинном переводе. Эта работа стала возможной только
благодаря автомати?ескому морфологи?ескому анализу (АМА) русского и
украинского языков, разработанному исследовательской группой сотрудников
Института языковедения АН Украины и Киевского университета. В системе АМА
предусмотрена возможность делать анализ и синтез парадигмы каждо-

го изменяемого слова и, имея все словоформы всех из-

меняемых слов и последовательно сравнивая их, можно автомати?ески создать
омоними?ескую цепо?ку словоформ и слов. Этот подход является ис?ислением
лекси-

ко-граммати?еской омонимии языка. Материалом для анализа были 2,5 млн.
словоформ русского и 3 млн. украинского языка, автомати?ески полу?енные в
результате синтеза парадигм слов русского и украинского языков. В АМА
предусмотрено автомати?еское кодирование форм слов с помощью
двухэлементного кода, первая буква которого обозна?ает принадлежность к
?асти ре?и, а другая - граммати?еские характеристики (род, ?исло, падеж,
лицо). Для слов, которые вступают в омоними?еские отношения, предусмотрен
так называемый дизъюнктивный код, который и является показателем омонимии.
В результате експеримента было полу?ено 543 омоними?еские цепо?ки русского
языка и 716 украинского. Омонимия зафиксирована в 482839 словоформах
русского и 581305 словоформах украинского языка. Менее половины цепо?ек в
двух языках - это граммати?еские омонимы, которые являются проявлением
парадигмати?еских и синтагмати?еских связей конкретных форм слова в
языковой системе (см. табл.1). Сложное соединение морфологи?еских признаков
свидетельствует о неравномерности их распределения в двух языках.
Интересным является тот факт, ?то граммати?еские омонимы в русском языке
составляют 60,08%, а в украинском - 89,9% всех лексико-граммати?еских
омонимов.
Таблица 1. Соотношение граммати?еской омонимии в русском и украинском
языках
| |Украинский язык |Русский язык |
| |Кол-во |Кол-во |Кол-во |Кол-во |Кол-во|Кол-во |
|Классы омонимов |омоним. |омоним.|цепо?ек |омоним. |омоним|цепо?ек |
| |форм в |форм в |дизъюнк. |форм в |. форм|дизъюнк. |
| |словаре |% |типов |словаре |в % |типов |
|Прилагательные и|351082 |60,390 |16 |228445 |47,310|9 |
|адъективир. | | | | |0 | |
|деепри?астия | | | | | | |
|Сущ. муж. род. |81883 |14,080 |31 |22720 |4,7050|27 |
|Сущ.. жен. род. |43540 |7,740 |15 |21235 |4,3900|16 |
|Сущ. сред. р. |36623 |6,300 |11 |13526 |2,8000|13 |
|Plur. Tan. |641 |0,110 |4 |86 |0,0178|3 |
|Местоим-сущ. |71 |0,010 |6 |41 |0,0080|8 |
|Местоим.-прил. |301 |0,050 |11 |244 |0,0500|10 |
|Числ. коли?. |227 |0,039 |11 |272 |0,0560|11 |
|Межродов. омон. |8304 |1,420 |218 |3526 |0,0070|134 |
|Всего |522672 |89,900 |323 |290095 |60,080|312 |
| | | | | |0 | |

Лексико-граммати?еская омонимия как графемное тождество слов разных ?астей
ре?и является проявлением функциональных синтакси?еских отли?ий между
словами. Каждому классу свойственно свое соединение морфологи?еских,
синтакси?еских, словообразовательных и лексико-граммати?еских особенностей,
взаимодействие которых проявляется в омоними?еских соотношениях слов. Нет
ни одного класса, слова которого не вступали б в омоними?еские соотношения
со словами хотя бы одного другого класса в каждом из двух языков. Это
свидетельствует о высокой степени взаимодействия между ?астями ре?и в
лексико-граммати?еской системе двух языков. Но выявив все живые способы
перехода из одного лексико-граммати?еского класса в другой, следует
обратить внимание на возможные сдвиги в граммати?еском зна?ении, связанном
с изменением граммати?еской формы. Следующей важной зада?ей можно с?итать
накопление данных о ре?евой ?астоте в разных типах дискурсов, ?тобы
окон?ательно сформулировать направления взаимоперехода ?астей ре?и, общее и
отли?ное в родственных языках.

Литература
1. Малаховский Л. В. О возможностях сравнительно-типоло-

ги?еского исследования омонимии // Проблемы семантики. М., 1974.
Использование Perl и Excel для создания базы данных

и статисти?еской оценки текстовых массивов в русском и украинском языках
З. В. Дудник, О. В. Затайдух, П. В. Майдиков
Институт филологии Киевского национального университета имени Тараса
Шев?енко (Украина)
zvd@bigmir.net
гласные, согласные, последовательность, украинский, русский
Summary. Attention of given publication is concentrated on fragmentation
and analysis of consonants and vowel consecutions in ukrainian and russian
texts by the medium of Perl and Excel.


Достоверный анализ фонети?еских особенностей текста (извле?ение
факти?еского материала, его обработка) требует привле?ения программных
средств, отве?ающих поставленным зада?ам исследования. Современные
возможности компьютерного инструментария сделали общедоступными и
достато?но простыми операции символьной трансформации и структурирования,
сортировки и оценки полу?енных данных.
В поле внимания данной публикации некоторые результаты разбиения и анализа
последовательностей графем на материале поэти?еских текстов русского и
украинского языков длиной 10043 и 10058 фонети?еских слов и ритми?еских
групп (76022 и 73961 символов соответственно, по 8 выборок для каждого)
средствами языка Perl и программного обеспе?ения MS Excel. Основной зада?ей
было единообразное трансформирование текстов в достато?но простую структуру
фонетико-графи?еской последовательности согласных и гласных для
статисти?еской обработки, теорети?еского осмысления и создания приложений
для автомати?еского распознавания и синтеза ре?и на базе двух упомянутых
языков.
В реализованном алгоритме разбиения текстового массива на согласные и
гласные с закрепленными позициями о?ередности с помощью регулярных
выражений решены зада?и вы?ленения фонети?еских слов (Т0 > Т1), их
разбиения на последовательности С (С, #, СС, ССС, СССС.) и V и дальнейшего
присвоения первой и последней позициям индексов на?ала (^) и конца (_), как
маркеров возможной паузы (Т1 > Т2). Итоговые данные сохраняются в файле CSV
(Comma separated value). Далее для проведения статисти?еского анализа
используется инструментарий Excel пакета MS Office: данные из CSV файла
импортируются с указанием типа разделителя, а затем к рабо?ему листу
применяется автофильтр и другие операции обработки данных. Данная
программная реализация позволяет делать выборки как по отдельным элементам,
так и по их комбинациям (по связям между я?ейками).
В настоящее время на основе трансформированных текстов выполняется
сопоставительный анализ на уровне функционирования интеграции
артикуляторных работ в русской и украинской ре?и, формируется база
прототипных слогов для создания конкатенативного синтезатора украинской
ре?и. Как известно, элементарные со?етания сегментов CV, VC и CC
представляют собой три типа интеграции артикуляторных работ и составляют
структуру артикуляторного жеста в таких произносительных единицах, как слог
и фонети?еское слово. Частота исполнения таких интеграционных работ
является, с одной стороны, следствием, а с другой, - одним из определяющих
факторов развития автоматизмов произносительного навыка и соответствующего
'слияния' отдельных усилий для данного со?етания сегментов. Их инвентарь и
?астота употребления составляют содержание перви?ного массива данных.
Исследования, производимые ранее на материале русского языка, дают оценку
со?етаниям внутри лексем или словоформ, при этом они у?итывают разные
критерии слогоделения. В реализации же ре?евого континуума актуальны и
со?етания, возникающие в более широком контексте, о ?ем свидетельствует
сопоставление с выборками из орфографи?еского текста (Т0). Данные,
полу?енные на десятитыся?ных массивах, демонстрируют, ?то для наиболее
?астотных со?етаний CV русской ре?и (у?итываются все встре?ающиеся в
графи?еской последовательности со?етания независимо от структуры слога -
всего 170 разновидностей) характерно употребление разли?ных типов согласных
сегментов и ограни?енного ?исла гласных - [и] и [a]. Другими словами, в
наиболее ?астотных артикуляторных усилиях преобладает интеграция сегментов
по форме и локализации языка (гоморганность). Наиболее ?астотные со?етания
CV украинской ре?и (160 разновидностей) характеризуются преобладанием
интеграции близких по ка?еству голосовых режимов - это со?етание сонорных
сегментов с разли?ными гласными. Нужно отметить, ?то внутрисистемное
соотношение со?етаний CV по глухости, звонкости, сонорности первого
элемента в двух языках приблизительно одинаково: наиболее ?астотны CV с
сонорными, за ними следуют со?етания с глухими, а затем - со звонкими.
Имеющиеся в массиве со?етания СС анализируются по позициям о?ередности.
Наиболее много?исленными по разновидностям оказались 2-я и 3-я позиции.
Анализ разновидностей СС показывает, ?то среди консонантных интервокальных
соединений согласных, встре?ающихся в первой позиции фонети?еских слов
украинской ре?и, доминирующими являются со?етания глухих с сонорными,
звонких с сонорными, сонорных с сонорными, глухих с глухими. Для вторых и
третьих неконе?ных позиций более характерны со?етания звонких и сонорных,
глухих и сонорных, глухих фрикативных и глухих взрывных, а также глухих
африкат с сонорными. В СС русской ре?и преобладают разновидности со?етаний
глухих с глухими, звонких со звонкими, глухих и звонких с сонорными.
Частотная нагрузка на сонорные, также как и для со?етаний CV, больше в
украинской ре?и.
Данная основа трансформированного текста используется для создания
алгоритма слогоделения. Главной объектной областью при слогоделении
являются последовательности VCCV, VCCCV и VCCCCV. При создании правил
маркировки слогораздела вна?але у?итываются общие для разных языков органо-
генети?еские свойства артикуляторной интеграции, а затем слогоделение
оценивается с то?ки зрения ?астотной типологии и на основе акусти?еского и
слухового анализа. Особого внимания требуют со?етания, реализация которых
осуществляется со сдвинутой субстанциальной границей слогораздела (в
?астности, проходящей внутри основной фазы сегмента). Именно они составляют
группу со?етаний с наибольшим разбросом оценок относительно места
слогораздела.
Гипертекстовый мультимедийный словарь лингвокультурного дискурса
М. В. Емельянова, Е. Н. Трегубова
Славянский-на-Кубани государственный педагоги?еский институт, Славянск-на-
Кубани
bagrova-m@yandex.ru
региональный дискурс, гипертекст, диалектная лексикография, компьютерная
лексикография
Summary. The vocabulary of discourse and simultaneously published unity of
texts, accompanied by the CD disk, being the database is material for
further linguistic research. The complete dictionary with the pointed
frequency coefficient as well as the hypertextual dictionary allows
comparing the active and passive vocabulary of a dialect; the traditional
layer and innovatory inclusions, variants; this material also allows to
describe the leading tendencies in the sphere of regional lexicology.


Еще недавно идея полного диалектного словаря казалась трудно осуществимой,
хотя потребность в таком словаре назрела давно, ибо системные отношения в
языке (диалекте) возможно изу?ать при нали?ии полного лексикона. Традиция
опроса информантов, сложившаяся в диалектологии, ориентирована в основном
на полу?ение ответов, в которых содержится диалектная лексика, толкуются
отдельные диалектные слова, словосо?етания, поясняются диалектоносителем;
темати?еские вопросники ЛАРНГ также нацелены на полу?ение диалектных
лексем, маркирующих определенную территорию.
Несмотря на свою 'нелитературность', на наш взгляд, диалектная ре?ь
представляет ?резвы?айный интерес для современного исследователя в разных
аспектах и на разных уровнях. Во-первых, она является региональным
вариантом русской ре?и, а следовательно, содержит в себе как общерусские,
так и локальные тенденции. Во-вторых, она как всякая ре?ь объективирует
наивную картину мира и представляет интерес с то?ки зрения реконструкции
региональной культуры. В-третьих, функционируя как устная языковая форма,
диалект отражает законы разговорной ре?и. Все это подводит нас к
необходимости предлагать новые технологии сбора и систематизации
диалектного материала.
Применительно к диалектной ре?и мы используем термин дискурс, понимая под
таковым корпус записанных от информантов текстов в рамках определенной темы
- метеорология, флора, фауна, ландшафт и т. п. Целью является создание
полного словаря темы, ?то мы называем в дальнейшем словарем дискурса.
Полу?ение словаря дискурса и одновременно изданный корпус текстов,
сопровожденный звуковым диском, представляет для современного исследователя
ис?ерпывающую базу данных. Полный словарь дискурса с указанием коэффициента
?астотности - гипертекстовый словарь, предоставляет лингвисту возможность
сопоставить активный и пассивный словарь диалекта, выявить его традиционный
пласт и инновационные вклю?ения, вариантные единицы, описать на этом
материале ведущие тенденции в области региональной лексикологии. Применение
компьютерных технологий позволяет полу?ить парадигматику дискурса, открывая
тем самым возможности описания граммати?еского наполнения темы, то?нее ее
граммати?еской организации.
Под автомати?еским (то?нее, автоматизированным) компьютерным словарем
будем понимать систему программных средств, позволяющих создавать словарную
базу данных из внешнего исто?ника, хранить словарную информацию на
электронном носителе и обрабатывать ее в автомати?еском режиме с помощью
ЭВМ. Внешним исто?ником может служить текстовый архив или другой словарь;
словарная информация вклю?ает тексты, отдельные слова, словосо?етания.
Построение автомати?еского словаря разделяется на несколько этапов.
I. Подготовительный этап вклю?ает в себя создание текстового архива, ввод
диалектных текстов в память компьютера. Тексты вводятся в транскрипции,
разделяются специальными маркерами на однородные отрезки.
II. Полу?ение ?астотного словаря словоформ.
На основе диалектных текстов, введенных в память компьютера, будут
полу?ены:
- словник словоформ;
- словоуказатель;
- словарь-конкорданс;
- ?астотный словарь словоформ;
- обратный словарь словоформ
Словник словоформ содержит все словоформы, встре?енные в тексте,
словоуказатель - словоформы и адрес в тексте. Словарь-конкорданс -
традиционная, давно известная, но до сих пор недооцененная форма
представления лекси?еского состава текста. В конкордансе обы?но в
алфавитном порядке (прямом или обратном) представлены употребления всех или
отобранных по какому-либо критерию лексем в своих ближайших контекстах
(ширина контекста либо задается автомати?ески, либо варьируется и
определяется положением специальных маркеров, заносимых при вводе текста).
Словарная

статья конкорданса имеет структуру словоформа - контекст. При формировании
словника, отсортированно-

го по алфавиту, автомати?ески подс?итывается ?ас-

тотность. Исто?ник полу?ения словника и словаря-конкорданса - текстовый
архив, цель - создание картотеки. Этот этап построения словаря полностью
автоматизирован.
Следующим шагом построения словаря является лемматизация словоформ. Этот
процесс организован как диалог 'исследователь-лингвист - компьютер'. На
выходе - файл словоупотреблений, имеющий структуру лексема - список
словоформ, встре?енных в тексте. Прямая сортировка словоупотреблений по
алфавиту систематизирует лекси?еский материал, собирает словоупотребления
одной словоформы и, как правило, одной лексемы практи?ески в одном месте
(за исклю?ением лексем с супплетивными формами). На первом шаге работы
алгоритма будут выделены группы словоформ, принадлежащих одной лексеме, на
втором шаге исследуются выделенные группы, анализируются контексты и
разграни?иваются омоними?ные формы, омоними?ные лексемы и лексико-
семанти?еские варианты одного слова. Такой алгоритм сведения словоформ в
лексемы позволит надежно распознавать массу общеупотребительных слов, а
остальные слова, выходящие за этот круг и составляющие меньшую ?асть
наполнения любого текста, должны контролироваться путем просмотра
лингвистом в конкордансе принятых по ним решений. В процессе сведения
словоформ в лексемы возможно построение словаря основ, а затем
использование такого словаря для более полной автоматизации работы.
Заклю?ительная ?асть первого этапа: автомати?еское полу?ение ?астотного
словаря лексем. В ?астотном словаре должны быть разли?ены и представлены
вместе с исходной формой и разные словоупотребительные формы лексемы с их
?астотами. Частотный словарь лексем может явиться исто?ником дальнейшего
исследования. В ?астности, автомати?ески может быть полу?ена информация о
том, в каких реляционно-граммати?еских категориях, с какими ?астотами
употребления реализовалась каждая лексема, возможен достато?но обоснованный
анализ вопроса о граммати?еской вариативности лексики, т. е. в этом слу?ае
можно рассмотреть ряд проблем взаимодействия лексики и грамматики.
Таким образом, результатом первого этапа работы являются следующие
словари: словник, словоуказатель и составленные на их основе словарь-
конкорданс, ?астотный словарь лексем.
Зна?имость элементов текста в свете теории синтакси?еской парадигмы
А. Е. Ермаков
ООО 'Гарант-Парк-Интернет'
ermakov@metric.ru
содержательный портрет текста, синтакси?еская парадигма, коммуникативный
ранг
Summary. The meaning of text elements from the point of view of syntactic
paradigm theory. The method for estimation of text element meanings based
on communicative aspects of a text generation is described. This method
uses syntactic analysis to determinate parts of a sentence and its topic
structure.


При компьютерном анализе текста в информационно-поисковых системах
за?астую необходимо ранжирование элементов текста по некоторому критерию,
который можно назвать их зна?имостью для решения определенного класса
зада?. К таковым прежде всего относят сравнение документов по подобию и
формирование содержательного портрета документа - некой терминологи?еской
аннотации.
Для оценки зна?имости на практике традиционно используют методы, которые
у?итывают ?астоту встре?аемости терминов и характеристики, отражающие
некоторые структурные свойства текста, например, совместную ?астоту
встре?аемости (ассоциированность) [1, 2, 3] и плотность распределения
терминов в тексте (свехфразовые свойства) [3, 4]. Используя разли?ные
математи?еские модели, все эти методы имеют общее обоснование в рамках
нейропсихологи?еской модели 'грубой' обработки информации в правом
полушарии мозга. Достоинством такого подхода является алгоритми?еская
простота, не требующая то?ного лингвисти?еского анализа.
Сегодня развитие лингво-алгоритми?еской базы на фоне роста вы?ислительных
мощностей позволило проводить полный синтакси?еский анализ предложения и
выделение его зна?имых элементов с приемлемым ка?еством и быстродействием
[5]. А привле?ение теории синтакси?еской парадигмы (ТСП) [6] позволяет
сформировать фундаментальные критерии оценки зна?имости этих элементов,
взяв за основу коммуникативные аспекты построения текста автором.
В свете ТСП каждое предложение рассматривается как ?лен парадигмати?еского
ряда, образованного множеством предложений, которые описывают одну типовую
ситуацию и имеют тождественную структуру пропозиции. Ядром
парадигмати?еского ряда является изосеми?ески изоморфная конструкция,
обеспе?ивающая наиболее корректный способ представления ситуации -
номинативный стандарт, который строится по принципу однозна?ных
соответствий элементов плана содержания и плана выражения, свободен от
побо?ных непропозитивных зна?ений и коннотаций. Любая модификация
предложения связана со смыслом, вкладываемым в него автором, и
актуализацией тех или иных у?астников ситуации в соответствии с ракурсом ее
пода?и. При этом задействуются механизмы двух уровней - семанти?еского и
синтакси?еского, которые формируют так называемые актуализационную и
трансформационную парадигмы предложения. В контексте решаемой нами зада?и
важно то, ?то первые устанавливают отношения предицирования и отражаются в
тема-ремати?еском ?ленении предложения, а вторые обеспе?ивают распределение
имен компонентов предложения по синтакси?еским позициям, используя систему
?ленов предложения, которая позволяет представить ситуацию в соответствии с
коммуникативным заданием.
Зна?имость элементов предложения с позиции автора характеризует
коммуникативный ранг, который определяется их порядком (прежде всего -
отнесенностью к теме или реме) и соотнесением с ?ленами предложения.
Коммуникативный ранг последних установлен в [6] посредством соотнесения
синтакси?еских трансформаций предложения и стоящих за ними коммуникативных
целей. В порядке убывания ранга выделяются: подлежащее, субстантивное
сказуемое, дополнение, глагольное сказуемое, обстоятельства (места,
времени, при?ины, цели), определения и про?ие обстоятельства (образа
действия, меры, степени).
Анализ примеров данной работы показывает, ?то для определения актуального
?ленения предложения вполне достато?но синтакси?еских критериев. Так, темой
является вся на?альная ?асть предложения вплоть до первого глагола в ли?ной
форме или связки. Оставшаяся ?асть всегда соответствует реме. Вопрос
отнесения глагола к теме или реме не может быть достоверно решен
формальными способами, однако не будет ошибкой приписать ему ранг,
промежуто?ный между темой и ремой.
За рамками работы [6] остались факты, связанные с тем, ?то элементы текста
?асто представляются не отдельными словами, а словосо?етаниями. Например,
несогласованные определения в составе именной группы 'встре?а президента
России', не равнозна?ны: ре?ь идет в первую о?ередь о 'президенте', и лишь
опосредованно затрагивает 'Россию'. В тоже время цельный элемент 'президент
России' более информативен, ?ем просто 'встре?а', так как вклю?ает в себя
конкретизирующие зна?ения. То же относится к группе составного глагольного
сказуемого. Как видно, коммуникативный ранг зависит еще от уровня
синтакси?еской зависимости в пределах группы, от синтакси?еской роли
главного слова группы, а также от относительной длины словосо?етаний в
группе. Особенностям выделения всех зна?имых элементов текста посвящена
работа [5].
Совокупный коммуникативный ранг по всем предложениям текста, дополненный
у?етом позиции в составе именных и глагольных групп, предлагается вы?ислять
как
(i = ( t TRi*(t) Wi*(t) Li(t) / (Li*(t) Li? (t) ) ,
где t - номер предложения , а i - номер элемента в тексте;
TRi*(t) Wi*(t) - полный коммуникативный ранг, вклю?ающий фактор тема-рема и
вес ?лена предложения для наиболее полной группы, содержащей i-ый элемент;
Li(t) - ?исло слов в составе группы, соответствующей

i-му элементу;
Li*(t) - ?исло слов в составе наиболее полной группы, содержащей i-ый
элемент;
Li? - ?исло слов в пути синтакси?еского под?инения между главным словом в
группе i-го элемента и главным словом наиболее полной группы, его
вклю?ающей.
Выбор конкретных зна?ений множителей TRi*(t) и Wi*(t) определяется
эмпири?ескими соображениями.

Литература
1. Чанышев О. Г. Ассоциативная модель естественноязыкового текста //
Вестник Омского государственного университета. Вып. 4. 1997. Омск, 1997.
С. 17-20.
2. Харламов А. А., Ермаков А. Е., Кузнецов Д. М. Технология обработки
текстовой информации с опорой на семанти?еское представление на основе
иерархи?еских структур из динами?еских нейронных сетей, управляемых
механизмом внимания // Информационные технологии. 1998. ? 2. С. 26-32.
3. Ермаков А. Е. Темати?еский анализ текста с выявлением сверхфразовой
структуры // Информационные технологии. 2000. ? 11.
4. Ермаков А. Е., Плешко В. В. Ассоциативная модель порождения текста в
зада?е классификации // Информационные технологии. 2000. ? 12. С. 34-37.
5. Ермаков А. Е. Эксплицирование элементов смысла текста средствами
синтакси?еского анализа-синтеза // Компьютерная лингвистика и
интеллектуальные технологии: Труды Международной конференции Диалог'2003.
М., 2003. С. 136-140.
6. Всеволодова М. В., Деменьтева О. Ю. Проблемы синтакси?еской
парадигматики: коммуникативная парадигма предложений. М., 1997.
Этапы лингвисти?еского анализа текста в программных продуктах RCO
А. Е. Ермаков
ООО 'Гарант-Парк-Интернет'
ermakov@metric.ru
Summary. The stages of linguistic text analysis in RCO program kit. RCO is
а trademark of program kit for Russian natural language text processing.
The basic stages of this processing include morphology and syntactic
analysis followed by semantic transformations to get a text semantic
network. Further application of pragmatic models gives possibilities to
translate language-depended relations to real facts from data domain.


Семейство программных продуктов, выпускаемых под торговой маркой RCO
(http://www.rco.ru/), предназна?ено для решения прикладных зада?, требующих
автомати?еского анализа текста на русском языке. Разработанное
лингвисти?еское и алгоритми?еское обеспе?ение позволяет проводить все этапы
разбора текста с последующей интерпретацией языко-обусловленных синтактико-
семанти?еских структур посредством привле?ения моделей из предметной
области. Особенностям реализованной технологи?еской схемы обработки текста
посвящен настоящий доклад.
1. Текст фрагментируется на предложения и лексемы с у?етом формальных
особенностей написания, переносов, дефисные слова, сокращений и др.
2. Производится морфологи?еский анализ отдельных лексем с генерацией
множества гипотез о граммати?еских характеристиках и лексико-семанти?еских
разрядах слов. Как словарный, так и бессловарный анализ на основе правил
словообразования и словоизменения реализуются в предположении о возможности
омонимии. При этом даже для известного слова могут строиться дополнительные
гипотезы, если есть вероятность, ?то оно является именем собственным,
словоизменение которого строится по иной парадигме.
3. Предсинтакси?еский анализ уто?няет результаты избыто?ного
морфологи?еского разбора и снимает омонимию в тех слу?аях, где это возможно
без проведения полного синтакси?еского анализа. При этом, используется
информация о синтакси?еском контексте в рамках отдельного предложения
(реализация предикативного минимума, предлоги, согласование) и предыстория
разбора текста, ?то позволяет попутно разрешить кореферентность имен
собственных в слу?ае краткой номинации после введения в текст полным
наименованием.
4. Выделение сложных текстовых единиц и идиом реализуется специальным
модулем [1], который объединяет цепо?ки лексем, удовлетворяющие заданным
лексико-граммати?еским шаблонам. К таковым относятся многословные служебные
единицы (предлоги, наре?ия, вводные слова), полные имена физи?еских и
юриди?еских лиц и другие, написание которых имеет особую специфику. В ходе
этого дополнительно снимается омонимия и выделенному объекту как единому
целому приписываются граммати?еские характеристики, которые могут
наследоваться от главного слова в словосо?етании. Части наименований
физи?еских и юриди?еских лиц классифицируются и запоминаются для
отождествления на этапе 3, например Иван Абрамови? Кабак = Иван Абрамови? =
Кабак, ООО 'Пелкора' = Пелкора.
5. На этапе синтакси?еского анализа [2] линейная последовательность
элементов текста, соответствующая предложению, преобразуется в дерево
синтакси?еских зависимостей на основании общих правил грамматики языка и
словаря моделей управления, в ходе ?его снимается остаток омонимии там, где
это удается.
6. Постсинтакси?еские трансформации преобразуют дерево зависимостей в сеть
синтактико-семанти?еских отношений, узлами которой являются отдельные слова
или более сложные объекты с указанием лексико-семанти?еского разряда, а
связи имеют синтактико-обусловленные типы (более 15-ти), плюс
дополнительные характеристики: семанти?еский падеж и роль, коннектор.
Реализуется эксплицирование ряда неявно выраженных отношений, например,
'на?альник R подписал R сомневаясь' = 'на?альник R сомневается'. При
нали?ии некоторых видов метоними?еского переноса зна?ения восстанавливается
исходная связь, например 'купил R ?асть R акций' = 'купил R акции'. Связи
сирконстант переносятся на всех у?астников ситуации в рамках куста дерева
зависимостей, под?иненного предикату, например 'после назна?ения Петров
поддержал Иванова на выборах' = 'Петров R после назна?ения', 'после
назна?ения ѓ поддержать R на выборах', 'Иванов R на выборах'. Реализуется
трансформация пассивного залога в активный, переход от граммати?еских
падежей к семанти?еским и ряд других операций. Отдельным подэтапом является
разрешение кореферентности местоимений. Семанти?еская сеть представляет
собой объективное описание ситуации, в максимальной степени
абстрагированное от субъективных компонентов плана содержания и плана
выражения.
7. Объединение сетей синтактико-семанти?еских отношений для отдельных
предложений в единую сеть текста на основе тех совпадающих узлов, которые
обозна?ают конкретные сущности (прежде всего, кореферентные имена и
местоимения), завершает собственно лингвисти?еский анализ текста. В
зависимости от поставленных зада? дальнейшая обработка производится в двух
направлениях: cинтез элементов связного текста или интерпретация синтактико-
семанти?еских отношений.
8. Синтез простых элементов текста, используемых в ка?естве
содержательного портрета документа, описан в работе [3]. Полноценный синтез
нового связного текста (например, реферата) представляет отдельную, еще не
исследованную зада?у.
9. Завершающий этап анализа текста предполагает интерпретацию синтактико-
семанти?еских отношений с привле?ением прагмати?еских знаний. Поскольку
коли?ество интерпретаций текста потенциально бесконе?но, для каждого вида
отношений должны быть заданы шаблоны, позволяющие распознать и отождествить
разли?ные способы его выражения в языке. Например, отношение 'персона R
должность' может выражаться такой конструкцией, как 'семанти?еский_объект ѓ
снять R с поста R название_должности', которая описываются целым подграфом
семанти?еской сети. Извле?ение целевых отношений реализуется как поиск в
сети текста подграфов, изоморфных заданным графам-шаблонам, в результате
?его в сеть добавляются новые связи или извлекаются требуемые зна?ения
аргументов отношений. Написание подобных шаблонов представляет зада?у
инженера по знаниям и завершает переход от языкового описания фактов к их
типизированному представлению. В настоящий момент нами реализованы описания
для нескольких десятков фактов, которые представляют особый интерес для
сбора разведывательных данных о физи?еских и юриди?еских лицах: поездки,
встре?и, приобретения, конфликты и др.
Литература
1. Ермаков А. Е., Плешко В. В., Митюнин В. А. RCO Pattern Extractor:
компонент выделения особых объектов в тексте // Информатизация и
информационная безопасность правоохранительных органов: XII Международная
нау?ная конференция: Сборник трудов. М., 2003. С. 312-317.
2. Ермаков А. Е., Плешко В. В. Синтакси?еский разбор в системах
статисти?еского анализа текста // Информационные технологии. 2002. ? 7. С.
30-34.
3. Ермаков А. Е. Эксплицирование элементов смысла текста средствами
синтакси?еского анализа-синтеза // Компьютерная лингвистика и
интеллектуальные технологии: труды Международной конференции Диалог'2003.
М., 2003. С. 136-140.
Средства выражения рационального и эмоционального в судебной ре?и
С. Ю. Камышева
Волгоградский институт экономики, социологии и права
radvest@avtlg.ru
судебная ре?ь, рациональное, эмоциональное, воздействие, средства выражения
Summary. The present report is devoted to the interaction of the rational
and emotional in judicial monologue.


Выступая и убеждая, стремясь установить истину по делу, оратор содействует
формированию убеждения судей, воздействует на них, апеллируя и к разуму, и
к ?увству. Как известно, убеждение достигается двумя путями: рациональным и
эмоциональным. 'Челове?еская мысль, - по справедливому заме?анию Ш. Балли,
- постоянно колеблется между логи?еским восприятием и эмоцией; .?аще всего
наша мысль складывается одновременно из логи?еской идеи и ?увства' [1].
Рациональное воздействие на судей достигается убедительной системой
аргументации, строгой логикой рассуждений и доказательств, использованием
так называемых 'интеллектуализированных' средств языка. Одним из способов
воздействия является прием адресации, то есть способ отражения в тексте
нали?ия лица, к которому обращена ре?ь. Основным средством адресации в
судебном монологе (а монолог, как и любой текст, по М. М. Бахтину, насквозь
диалоги?ен) является собственно обращение, употребление которого
обусловлено стилевой нормой: господа судьи и господа присяжные заседатели.
Используются также местоимения Вы, Вам (вы слышали интересное показание,
дело, по которому вам предстоит произнести приговор. глаголы повелительного
наклонения: но взгляните на них. и вы поверите их показаниям).
В судебном монологе, как защитительном, так и обвинительном, зада?е
воздействия служат и 'эмоциональные' средства языка; возможно обращение к
образным средствам, если это обращение мотивировано содержанием
высказывания. '.Только краски и образы, - писал П. Сергеи?, - могут создать
живую ре?ь, то есть такую, которая могла бы произвести впе?атление на
слушателей' [2]. В целях воздействия на аудиторию в зале судебного
заседания используются изобразительно-выразительные средства языка,
поддерживающие интерес к ре?и и способствующие активному ее восприятию.
Например, А. Ф. Кони в обвинительной ре?и по делу о составлении подложного
духовного завещения от имени умершего капитана гвардии Седкова использует
сравнения - этот ?еловек нем, как рыба, семья эта есть поле битвы, на
котором расположены два враждебных стана, не доверяющие друг другу ни в
?ем, Седков, который оставил такой сладкий кусок, ?то в нем увязли все
слетевшиеся им попользоваться; каждое преступление, совершенное несколькими
лицами по предварительному соглашению, представляет целый живой организм,
имеющий и руки, и сердце, и голову; его сознание, как электри?еский тол?ок,
сообщилось неизбежно и неотвратимо и всем другим ?ленам преступного кружка;
он действовал в настоящем деле, как злой дух; важно только сцепить их, как
звенья, в одну преступную связь; метафоры - в тот день, когда смерть
простерла над ним свое ?ерное крыло, он один нес всю свою ?ерную работу, и
жизнь его потухла; эпитеты (оцено?ные) - сладкий шелест вексельной и
кредитной бумаги; нотариус, с одного из самых бойких в отношении сделок
мест города; это был холодный и ?ерствый ?еловек; громадная
ответственность; свидетели, акробати?еские показания которых вы, коне?но,
помните; злая судьба; зловредный вексель ненавистный вексель.
Каждый эпизод обвинения, каждое доказательство не только анализируется
оратором, но и оценивается с то?ки зрения обвинения или защиты. В языке это
находит отражение в высказываниях (я) думаю, я нахожу, мне по?ему-то не
думается, по моему мнению . За?астую используется прием собирательности,
когда мнение выражается как бы от имени нескольких представителей
правосудия: обвинение питает. глубокое уважение к этому свидетелю; не
станем, впро?ем, касаться истории этого. странного векселя. Авторская
оценка может выражаться в дихотомии '?астное - типи?еское', характерной для
вступления судебного монолога, например: Дело, по которому вам предстоит
произнести приговор, отли?ается некоторыми характеристи?ескими
особенностями. Оно - плод жизни большого города с громадным и разнообразным
населением, оно - создание Петербурга, где выработался известный слой
людей, которые отли?аются прили?ными манерами и внешнею порядо?ностью и
всегда заклю?ают в своей среде господ, постоянно готовых на всякую
неблаговидную, но легкую и неутомительную наживу (А. Ф. Кони).
Для синтаксиса судебного монолога характерно использование ритори?еских
вопросов, вопросно-ответных реплик, способствующих установлению
психологи?еского контакта между адресантом и адресатом: Разве возможно это
в действительности? Разве ?еловек, незаинтересованный в подделке завещания,
а действительно ?ужой, не сказал бы самому себе, ?то между 'авторитетом
закона' и лжесвидетельством отношения самые враждебные, которых никакой
нотариус изменить не может?.. Это ли положение ?еловека, слу?айно и по-
военному прямодушно попавшего в милое дело? Да и слу?айно ли попал он в
свидетели?.
В судебной ре?и могут зву?ать слова, имеющие ярко выраженную разговорную и
даже просторе?ную стилисти?ескую окраску. Так, говоря об обвиняемой
Седковой, А. Ф. Кони использует сниженную лексику - франтила и предавалась
удовольствиям, лепе?ет по-французски). Характеризуя ли?ность покойного
Седкова, употребляет отрицательно маркированную глагольную лексику -
заползать (в полк), оттуда его попросили, слова с уменьшительно-
ласкательными суффиксами, приобретающие в контексте отрицательную
семантику: мирок, скромненький, капиталец. Частотно использование
фразеологи?еских оборотов, характерных для разговорной ре?и: сбирая с мира
по нитке, это объяснение сшито белыми нитками. Необы?айно действенным
средством создания эмоционального являются разли?ные формы коми?еского -
юмор, ирония, сатира, шутка, острота, насмешка и сарказм, реально
достато?но редко встре?ающиеся в судебной ре?и. Большую роль в
эмоциональной выразительности играют паралингвисти?еские факторы - жесты,
мимика, выражение глаз, поза, походка, в которых эмоция полу?ает
'материальную то?ку опоры' [1, 352].
Основная функция судебного монолога - воздействие на судей и присяжных
заседателей - реализуется наилу?шим образом при умелом со?етании
рационального и эмоционального, при обеспе?ении не только доказательности,
но и внушающих моментов. Зада?а ближайшего будущего - выявление
закономерностей формирования коннотативного аспекта судебного дискурса.

Литература
1. Балли Ш. Французская стилистика. М., 1965. С. 182.
2. Сергеи? П. Искусство ре?и на суде. М., 1960. (Цит. по изд.: Русская
риторика. М., 1996. С. 407.)
3. Ревзина О. Г. Стилистика XXI века // Русский язык: истори?еские судьбы и
современность: Международный конгресс. Москва. МГУ. 13-16 марта 2001 г.:
Труды и материалы. М., 2001. С. 265-266.
Семанти?еское разделение омонимов

с использованием двуязы?ного словаря и словаря синонимов
Г. Е. Кедрова, С. Б. Потемкин
Московский государственный университет им. М. В. Ломоносова
kedr@philol.msu.ru, potemkin@philol.msu.ru
семантика, омонимия, граф, связность, двуязы?ный словарь
Summary. Homographs separation in lexicography studies and semantic
analysis presents significant difficulties. A full word-list of homographs
and polysemantic words (homographes hereinafter) with semantic attributes
for each homograph occurence is a need. The method for selection and
disambiguation of homographs essentially based on bilingual dictionary and
dictionary of synonyms (unilingual). It gives an extansive list of words -
candidates for their subsequent careful examination on the basis of
contexts.


Важная проблема разделения омонимов в лексикографии и лекси?еской
семантике представляет зна?ительные трудности. Было бы желаельно плу?ить
полный список омонимов и полисеми?ных слов большого толкового словаря
(русского) языка или большого двуязы?ного (англо-русского) словаря.
Словари, как правило, содержат отдельные словарные статьи для слов-
омонимов или указания на полисемию в одной словарной статье. Однако, вопрос
о полноте списка омонимов и полисеми?ных слов, зафиксированных словарем,
остается открытым. Сама грань между понятиями полисемии и омонимии размыта
и толкуется в зависимости от вкусов исследователя.
Методы разделения омонимов на основе исследования текстов при то?ном их
применении могут давать ис?ерпывающий результат, однако таие методы с
трудом поддаюся формализации, требуют привле?ения высококвалифицированных
линвистов и несвободны от субъективизма последних.
Кроме того, подобные исследования вряд и позволят выявить все слова,
имеющие омонимы в конкретном тексте и, тем более, во всем корпусе большого
словаря.
Предлагаемый ниже метод может применяться для первона?ального, грубого
выделения и разделения омонимов и полисеми?ных слов для полу?ения возможно
более полного списка таких слов - кандиатов на последующее тщательное
исследование с привле?ением контекстов.
Сущность метода заклю?ается в следующем:
(приводится для пары русский-английский язык, но применим для других пар
языков с обширной словарной базой)
1. В русско-английском словаре выбирается произвольное русское слово R0.
2. Выписываются все английские эквиваленты E1, E2 . данного слова.
3. Из английского словаря синонимов (типа Тезауруса Роже) выписываются все
синонимы для каждого из эквивалентов E1 = E11, E12 .; E2 = E21, E22 .; .
En = En1, En2. .
4. Выявляются пересе?ения в выписанных списках синонимов 'Матрица
смежности' [D] строится седующим образом:
| |E1 |E2 |E3 |. |En |
|E1 |1 |(12 |(13 | |(1n |
|E2 |(21 |1 | | |(n2 |
|E3 |(31 |(32 |1 | |(n3 |
|. | | | |. | |
|En |(n1 |(n2 |(n3 | |1 |


где
(ij = 0 если списки Ei = Ei1, Ei2, . и Ej = Ej1, Ej2, . имеют пустое
пересе?ение
и (ij = 1 в ином слу?ае (т. е. если одно и то же слово присутствует в обоих
списках синонимов для Ei и Ej). О?евидно, (ij = (ji.
Матрица [D] задает граф d, вершинами которого являются английские
эквиваленты первона?ального слова R0, а ветвями - (транзитивное) отношение
синонимиимежду этими эквивалентами.
Если полу?ен связный граф (т. е. сушествует путь из любой вершины в любую
другую), то все английские эквиваленты связаны между собой отношением
синонимии и, вероятно, первона?альное русское слово R0 не имеет омонимов
(но возможна полисемия, связанная с разли?ными зна?ениями английских
эквивалентов). Если, с другой стороны, граф d несвязный и состоит из
нескольких связных компонент, можно предположить нали?ие нескольких
омонимов R01, R02. Семантика каждого из них соответствует одной компоненте
связности графа d. В таком слу?ае целесообразно переходить к анализу
текстов, содержащих R0 для выяснения нали?ия омонимов.
В докладе будут представлены экспериментальные результаты, полу?енные с
использованием вышеприведенной процедуры на базе русско-английского и англо-
французского словарей.
Определение диалектного типа

старообряд?еских говоров Сибири - семейских с помощью АВ ДАРЯ

(автоматизированный вариант диалектологи?еского атласа русского языка)
О. М. Козина
Институт монголоведения, буддологии и тибетологии СО РАН
imbt@bsc.buryatia.ru
АВ ДАРЯ, СТК (структурно-типологи?еская классификация), тип диалекта,
старообряд?еские говоры, генезис
Summary. With the help of the automized variant of dialectological atlas of
the Russian language the dialects of Siberian Old Believers (the
semeyskiye) were compared with all dialects of DARL territory. As a result
the genesis and evolution of these dialects were discovered.


Объект исследования - говоры семейских сел Десятниково Тарбагатайского
района (Д), села Новодесятниково Кяхтинского района (НД) и села Никольское
Мухоршибирского района (Нк) Республики Бурятия.
Цель работы - определение диалектного типа исследуемых говоров семейских,
уто?нение их истории.
Эти говоры представляют собой своеобразный лингвисти?еский заповедник, так
как в основном сложились в результате колонизационных перемещений
старообрядцев и сформировались в условиях инодиалектного иноязы?ного
окружения.
Для определения диалектного типа (д. т.) рассматриваемых говоров
(Д,НД,Нк), в память ЭВМ были введены характеристики этих говоров, а именно
все показатели, по которым была проведена структурно-типологи?еская
классификация (СТК) материнских говоров, представленных в ДАРЯ. Тип
диалекта определялся методом, который был предложен Н. Н. Пшени?новой
[Пшени?нова 1996].
На первом уровне СТК выделилось ?етыре классификационных единицы: две
однородные группы - группа говоров Севернорусского д. т. (С) и группа
говоров Южнорусского д. т. (Ю), переходная совокупность говоров (П), или
Среднерусские говоры, и совокупность разнородных говоров (Р) - говоры
Западнорусского д. т. Приведем показатели близости говоров семейских с
говорами названных ?етырех классификационных единиц первого уровня СТК: tij
- таксономи?еское отношение i-ого говора с j-ой классификационной единицей.
Приведенные данные показывают, ?то самый высокий показатель близости у
всех трех ЧДС (Д, НД, Н) - с говорами Западнорусского д. т., следовательно,
рассматриваемые говоры наиболее близки материнским говорам Западнорусского
д. т. (Р).
На втором уровне СТК материнские говоры Западнорусского д. т. разделились
на три классификационные единицы: две однородные группы говоров- группа
говоров Юго-западного д. т. (Р1) и группа говоров Северо-западного д. т.
(Р2) и совокупность разнородных говоров Западнорусского д. т. (РР).
Приведем показатели близости рассматриваемых говоров с этим
классификационными единицами второго уровня СТК.
Приведенные данные показывают, ?то самый высокий показатель близости у
всех трех ЧДС - с совокупностью разнородных говоров (РР). Таких говоров в
СТК всего 81, и распространены они на карте СТК по северной и южной
периферии территории говоров Западнорусского д. т., а также редкими
едини?ными вкраплениями на остальной территории ДАРЯ [Пшени?нова 1996:
карта ? 7]. Рассматриваемые говоры семейских ближе всего к этим материнским
говорам второго классификационного ранга СТК.
Совокупность разнородных говоров второго ранга (РР) на третьем уровне СТК
разделилась на две классификационные единицы: однородную группу говоров
(РР1) и совокупность разнородных говоров (РРР). Приведем показатели
близости говоров семейских к этим классификационным единицам СТК.
|Десятниково|Новодесятни|Никольское |
| |ково |(Нк) |
|TдРРР |tндРРР |tНкРРР = |
|= 12,958 |= 16,536 |16,497 |
|TдРР1 |tндРР1 |tНкРР1 = |
|= 12,115 |= 11,431 |12,784 |


Приведенные данные показывают, ?то все три ЧДС ближе всего к группе
говоров третьего уровня СТК (РР1 - в СТК таких ЧДС 36), диалектный тип
которой на третьем уровне СТК отсутствует,- это группа говоров, относящихся
на втором уровне СТК к Юго-западному д. т., а на первом уровне- к
Западнорусскому д. т. (правило, определяющее нали?ие или отсутствие в
характеристике классификационной единицы диалектного типа, см. в:
[Пшени?нова 1996: 46-49]).
Группа говоров РР1 на ?етвертом уровне СТК разделилась на две
классификационные единицы: однородную группу говоров (РР11) и совокупность
разнородных говоров (РР1Р). Сравним показатели близости рассматриваемых
говоров семейских с этими единицами СТК ?етвертого ранга.
|Десятниково|Новодесятни|Никольское |
| |ково |(Нк) |
|TдРР1Р = |tндРР1Р = |tНкРР1Р = |
|25,577 |24,679 |28,551 |
|TдРР11 = |tндРР11 = |tНкРР11 = |
|34,830 |33,388 |38,355 |


Приведенные данные показывают, ?то все три ЧДС ближе всего к говорам
однородной группы РР11, диалектный тип которых на ?етвертом уровне
определить нельзя,- эти говоры относятся на третьем уровне к однородной
группе РР1, на втором уровне к Юго-западному д. т., а на первом
классификационном уровне - к Западнорусскому д. т. Говоры этой группы
занимают еще более компактную территорию (в СТК это 16 ЧДС) по те?ению р.
Оскол и в бассейне верхнего и среднего Дона [Пшени?нова 1996: карта ? 7].
Сопоставление исследуемых говоров Д, Нк, НД с западнорусским диалектным
типом (совокупность говоров Р): Типоопределяющие признаки.
1) генезис исследуемых говоров: в результате проведенных операций в
соответствии с программой загруз-

ки - созданной базы данных трех старообряд?еских

говоров - и запросно-ответной программы АВ ДАРЯ полу?ены данные, полностью
совпадающие с вывода-

ми А. М. Селищева [Селищев 1920] о том, ?то материнской основой семейских
говоров являются говоры, занимающие территорию верхнего и среднего бассейна
Дона;
2) исследуемые говоры семейских по комплексу лингвисти?еских признаков
(фонетика, морфология, синтаксис, лексика) с наибольшей вероятностью можно
отнести к западнорусскому диалектному типу с у?етом классификационного веса
каждого языкового уровня (признаки Типоопределяющие, Сопутствующие -
Главные, Сопутствующие-Эталонные) [Пшени?нова 1996].
Итак, ?то старообряд?еские говоры семейских изна?ально имеющие
монодиалектную основу (говоры верхнего и среднего Дона) в процессе развития
диалектно-

го языка под влиянием разли?ных факторов как внешнего (миграционные
процессы, преобладание носителей какого-либо говора и др.), так и
внутреннего характе-

ра (аналоги?еские процессы разных типов, внутрисистемные отношения языковых
единиц, местные тенденции языкового развития) сформировались в разнородную
группу говоров наиболее соотносимую по принятым критериям, с западнорусским
диалектным типом; сохранившую свою языковую индивидуальность, несмотря на
более 200-летнее инодиалектное и иноязы?ное окружение.
Аннотированный корпус русских текстов ХАНКО:

концепция и результаты работы
М. В. Копотев
Отделение славянских и балтийских языков и литератур Хельсинкского
университета (Финляндия)
Mihail.Kopotev@helsinki.fi
аннотированный корпус, морфология, синтаксис, функционализм
Summary. The Helsinki Annotated Corpus of Russian language (NANKO) is
presented in the report. The corpus, developing at the Slavic and Baltic
Department, Helsinki University, includes morphological, syntactical and
functional information about approximately 100 000 running words, extracted
from a Russian magazine. Some special questions, appeared during working
out of the corpus, will be discussed.


1. В докладе представлено краткое описание аннотированного корпуса русских
текстов 'ХАНКО' [4], который в настоящее время создается на Отделении
славянских и балтийских языков и литератур Хельсинкского университета под
руководством проф. А. Мустайоки. Автор доклада выносит на обсуждение
некоторые вопросы, стоящие перед создателями корпуса, и предлагает
возможные решения.
2. Основные принципы создания корпуса сводятся к следующему:
- направленность на широкий круг пользователей;
- направленность на максимальный охват граммати?еской информации, а не на
объем материала;
- направленность на многоуровневую граммати?ескую информацию;
- направленность на устоявшиеся представления о языке;
- возможность более ?ем одной интерпретации языковых фактов.
3. В корпусе ХАНКО представлена следующая лингвисти?еская информация.
- Морфологи?еская. Аннотирование выполнено с помощью программы RUSTWOL
[2]. Необходимая поставтомати?еская обработка проведена специалистами -
носителями языка. При выборе параметров для морфологи?еской разметки
создатели опираются на устоявшиеся теорети?еские концепции и
фундаментальные описания (Грамматика-80, Граммати?еский словарь А. А.
Зализняка и др.).
- Синтакси?еская информация маркирует три типа единиц: словосо?етание,
клаузу, сложное предложение. На уровне словосо?етания указываются тип
связи, тип опорного слова и тип зависимого слова. На уровне клаузы
отме?аются, в ?астности, структурные схемы простого предложения, а также
второстепенные ?лены предложения. На последнем синтакси?еском уровне
определяются типы сложного предложения.
- Функциональная. Создание корпуса ХАНКО мыслится как составная ?асть
проекта 'Функциональный синтаксис русского языка' ([1; 3]). Из этого
следует, ?то 'проект в проекте' ХАНКО нацелен кроме про?его на решение
зада? функциональной грамматики и должен предлагать максимально широкие
возможности для описания языка 'от зна?ения к форме'. Как известно, это
весьма сложная зада?а, поскольку семанти?еские категории репрезентируются
на поверхностном уровне самыми разными языковыми средствами. Однако
создатели уверены, ?то, используя морфологи?ескую и синтакси?ескую
разметку как своеобразный полигон, разработку функциональной ?асти корпуса
можно организовать как ряд относительно самостоятельных исследований.
Подробную информацию о корпусе можно найти в интернете по адресу:
www.slav.helsinki.fi/hanko.

Литература
1. Mustajoki A. Mielestд kieleen: kontrastiivisen funktionaalisen lauseopin
teoriaa, Helsinki. 1993.
2. Vilkki L. RUSTWOL: A System for Automatic Recognition of Russian Words.
1997 (доступно по адресу:
www.lingsoft.fi/doc/rustwol/rustwol.txt).
3. Мустайоки А. Теория функционального синтаксиса: от семанти?еских
структур к языковым средствам (в пе?ати).
4. Мустайоки А. & Копотев М. Принципы создания Хельсинкского
аннотированного корпуса русских текстов ХАНКО в сети интернет. НТИ. 2(6).
2003 (в пе?ати).
Об одной модификации глоттохронологи?еского метода
В. В. Кромер
Новосибирский государственный педагоги?еский университет
kromer@newmail.ru
глоттохронология, генеалоги?еское дерево, дивергенция, конвергенция
Summary. In this paper, a method of genealogical trees construction is
proposed. The method is based on the assumption of total additivity of
distances between languages, derived from the glottochronological matrix.
An analogy between glottochronological processes and processes of
electrical signal propagation along electrical lines is drawn.


1. Теорети?еский аппарат созданной М. Сводешом глоттохронологии [1]
основан на теории радиоактивного распада и методах радиоуглеродного
датирования. Последовательное применение основных постулатов
глоттохронологии и добавление постулата об аддитивности
глоттохронологи?еских данных позволяет расширить сферу применимости
глоттохронологи?еской модели и произвести лингвисти?ескую интерпретацию
выводимых из модели рас?етных параметров [2].
2. Основой для рас?ета параметров модели, используемых в дальнейшем для
построения генеалоги?еского дерева языков (дендрограммы), служит
глоттохронологи?еская матрица с измеренными коэффициентами совпадений между
основными списками словарей языков c. Введена единая единица для измерения
глоттохронологи?еских расстояний - сводеш, определяемая как предел
отношения
[pic].
Сводеш можно также определить как расстояние между двумя языками при
несовпадении их 100-словных основных списков на 1 слово. В сводешах
измеряются время дивергенции языков и ширина диалектных цепей.
Первона?ально рассматривается пара языков с минимальным взаимным
расстоянием. Если с?итать, ?то языки рассматриваемой пары дивергируют из
единого узла, не находит объяснения неодинаковость расстояний от каждого из
языков до любого другого языка (или узла). Наблюдающаяся в общем слу?ае
разница расстояний может быть объяснена дивергенцией языков из разных узлов
синхронной диалектной цепи. М. Сводеш в своей класси?еской работе [1],
исходя из ка?ественных соображений, сделал вывод о возможности
существования языковых цепей. После конструирования первого звена
дендрограммы производится перерас?ет глоттохронологи?еской матрицы с
вклю?ением в нее внешнего узла сконструированного звена взамен двух
рассматриваемых языков. Далее процесс повторяется, вновь конструируемые
звенья подклю?аются к ранее сконструированным звеньям и так далее до
ис?ерпывания матрицы и завершения построения дендрограммы. Для полного
воссоздания дендрограммы языковой системы необходимы данные по внешним по
отношению к рассматриваемой системе языкам. Мысль о необходимости
привле?ения внешних взаимоотношений для изу?ения взаимоотношений внутри
языковой системы принадлежит М. Сводешу [1, 33-34]. У?ет внешних связей
позволяет найти узел - то?ку связи рассматриваемой системы с внешней
системой.
Сравнение данных, выведенных из построенного генеалоги?еского дерева с
данными исходной генеалоги?еской матрицы позволяет сделать вывод о степени
адекватности сконструированный дендрограммы эмпири?еским данным. Дисперсия
погрешности восстановленных по дендрограмме расстояний между языками
позволяет у?есть 'вес' каждого языка при последующем перес?ете
дендрограммы, ?то обеспе?ивает приоритет наиболее надежным данным, а также
данным по языкам, наиболее удовлетворяющим положенным в основу модели
допущениям.
3. На основе предложенной модели были обработаны, в ?астности, данные по
салишским, балтославянским и индоарийским языкам с построением
соответствующих дендрограмм [2, 3]. При построении указанных дендрограмм в
соответствии с моделью предполагалось отсутствие позднейшей (после
расхождения языков) их конвергенции. В то же время отдельные особенности
построенных дендрограмм позволяют предполагать нали?ие подобной
конвергенции. Анализ дендрограммы германских языков позволяет сделать
предположение, ?то германские языки в большей степени, ?ем балтославянские,
были подвержены позднейшей конвергенции, т. е. находились после распада
диалектной цепи в контакте, интенсивностью которого пренебрегать при
построении дендрограммы нельзя.
Для разработки модели языковой дивергенции с у?етом процессов конвергенции
оказалась полезной аналогия между глоттохронологи?ескими процессами и
процессами распространения электри?еского сигнала по физи?еским
электри?еским линиям. Физи?еским аналогом длин отрезков дендрограммы
является электри?еское сопротивление, физи?еским аналогом времени - длина
электри?еских линий. Постоянство 'скорости выпадения' слов из основного
списка предполагает продольную однородность линии. Конвергенция у?итывается
введением попере?ной проводимости линии.
Для ?астного слу?ая полностью однородной линии расстояние между языками (в
момент времени t с на?ала дивергенции) определяется по формуле
[pic],
где Rd - ширина исходной диалектной базы развития языков, r - волновое
сопротивление линии, а t0 - характеристи?еское время системы. Для
современных германских языков установлен порядок вели?ин: r ( 22 сводеша;
t0 ( 700 лет.
Литература
1. Сводеш М. Лексикостатисти?еское датирование доистори?еских этни?еских
контактов // Зарубежная лингвистика. Ч. I. М., 1999.
2. Кромер В. В. Глоттохронология и проблемы праязыковой реконструкции:
http://www.arxiv.org/pdf/cs.CL/0303007. 14 марта 2003 г.
3. Кромер В. В. Глоттохронологи?еская ретрогностика языковой системы. Сайт:
http://www.arxiv.org/pdf/cs.CL/0304024. 17 апреля 2003 г.
Реальная омонимия по корпусным данным
О. В. Кукушкина
Московский государственный университет им. М. В. Ломоносова
kukush@orc.ru
типы омонимии, корпусные исследования, глагол
Summary. A system of notions describing a real picture of homonyms' use in
texts is introduced. Data on statistics of verbal homonymic forms in
Russian newspaper texts are provided.


1. Под реальной омонимией мы понимаем ту омонимию, которая реализуется в
тестах и дает представление о наборе омонимов, характерных для того или
иного подъязыка. Данные о реальной омонимии важны как для решения
практи?еских зада? (ср. составление эффективных алгоритмов автомати?еского
анализа текста, совершенствование методик преподавания русского языка др.),
так и для полу?ения общего представления о закономерностях функционирования
омонимов. Анализ разме?енных корпусов текстов - это единственный путь,
которым можно решить указанную зада?у.
2. В докладе излагаются некоторые результаты исследования реальной картины
омонимии по данным 'Компьютерного корпуса текстов русских газет конца XX-го
века', созданного в ЛОКЛЛ филологи?еского факультета МГУ. Объем
используемого материала - более 1.300 млн. словоупотреблений.
3. Для описания объекта использовалась следующая система понятий и
противопоставлений:
- омонимы - все одинаково пишущиеся единицы, в том ?исле и по-разному
зву?ащие (т. н. омографы);
- словарные омонимы / текстовые омонимы: это противопоставление позволяет
описать и оценить потенциальную и реализованную омонимию в корпусе, т. е.
выявить единицы корпуса, которые вообще способны выступать с омоними?ными
зна?ениями (словарные омонимы), и такие единицы, которые в корпусе
действительно выступают в омоними?ных зна?ениях (текстовые омонимы);
- лекси?еские омонимы / граммати?еские омонимы (омоформы): эта оппозиция
позволяет разграни?ить единицы типа кулак1 / кулак2, совпадающие во всех
своих формах, и банк // банка, пе?ь (сущ.) // пе?ь (гл.) совпадающие
только в одной или нескольких формах.;
- леммные // нелеммные граммати?еские омонимы ': у омонимов первого типа
омоними?на на?альная форма, поэтому они затрудняют прежде всего операцию
синтеза и поиска всех остальных форм слова (ср. леммные омонимы - расти,
пе?ь (гл.), стекло, банка); у омонимов второго типа в омоними?ные
отношения вступают нена?альные формы и затруднен процесс автомати?еского
вывода на?альной формы - лемматизация: ср. нелеммные омонимы сте?ь: стекло
(> сте?ь / стекло), стекли (> сте?ь / стеклить );
- абсолютное / ведущее / возможное омоними?ное зна?ение: это
противопоставление используется для оценки статуса каждого из
альтернативных зна?ений омоними?ного озна?ающего. Если омоними?ная единица
всегда выступает в корпусе в зна?ении Х, то такое зна?ение называется
абсолютным; если зна?ение Х реализуется зна?ительно ?аще, ?ем зна?ение Y,
то оно называется ведущим; при незна?ительном расхождении в ?астотности
или малом ?исле употреблений зна?ения Х и Y рассматривается как возможные;
- системная // регулярная // нерегулярная граммати?еская омонимия: в
русском языке есть у?астки, где омонимия форм носит обязательный характер
для всех единиц одной ?асти ре?и (ср: совпадение форм ед. тв // мн. дат. у
атрибутивных слов - новым, ?итающим и пр.); в нем также есть у?астки, где
у зна?ительного коли?ества слов, обы?но близких по формальному типу,
имеется аналоги?ная омоформа (ср. совпадение форм 2 л. мн. ?исла форм пов.
и изъявит. накл. у глаголов на -ить, типа: у?ите, звоните). Эти два типа
омонимии - системная и регулярная - противопоставлены ?исто лекси?ески
обусловленной, непредсказуемой омонимии, имеющей место только у
одной / нескольких конкретных лексем (ср.: омонимию 'инфинитив / пов.
накл': расти R расти // растить).
- внутри?астере?ная / меж?астере?ная омонимия - данное противопоставление
позволяет оценить, насколько широко представлена реальная омонимия форм и
слов одной ?асти ре?и, какие типы меж?астере?ных 'пересе?ений'
представлены в текстах и являются наиболее ?астотными и пр.
4. Процедуру составления картины реальной омонимии можно проиллюстрировать
на примере исследования одного из ее у?астков - граммати?еской
внутриглагольной омонимии. Результаты этого исследования представлены в
следующей таблице:


|Выявленные типы омоформ|Отношение |Из них |К-в|1-е зна?ение|2-е |
| |'словарные|омографы|о | |зна?ение. |
| |// | |упо|(к-во |(к-во употр |
| |текстовые |(к-во |т-р|употр. / сло|/ слов), его|
| |омонимы' |слов) |ебл|в), |статус |
| |(к-во | |. |его статус | |
| |слов) | | | | |
|1) |206/3 |11 |495|484 / 200 |11 / 9 |
|1 л. мн. буд. вр. // пр| | | |ведущее |возможное |
|и?аст. | | | | | |
|кратк. стр. наст. мужск| | | | | |
|. р. | | | | | |
|(Мы любим // Он любим) | | | | | |
|2) |159/23 |100 |466|189 / 73 |255 / 108 |
|2 л. мн. изъявит. // 2 | | | |возможное |возможное |
|л. мн. пов. (Если вы | | | | | |
|ходите. // Не ходите | | | | | |
|туда) | | | | | |
|3) |9/1 |1 |15 |6 / 5 |9 / 5 |
|3 л. мн. буд. вр. // пр| | | |возможное |возможное |
|и?. страд. | | | | | |
|кратк. мужск. р. | | | | | |
|(Они тронут // он | | | | | |
|тронут) | | | | | |
|4) |1/0 |0 |7 |0 |7 |
|2 л. ед. пов. // 2 л. е| | | | |абсолютное |
|д. наст. | | | | | |
|(Давай ешь! Ты еще | | | | | |
|ешь?) | | | | | |
|5) |6/1 |0 |42 |39 |3 |
|Инфинитив // 2 л. ед. п| | | |ведущее |возможное |
|ов. | | | | | |
|(перестал | | | | | |
|расти // Скорей расти!| | | | | |
|) | | | | | |

Из данной таблицы видно, ?то рассматриваемый тип омонимии представлен 5-ю
слу?аями, наиболее важными и ?астотными из которых являются первые два (см.
табл.). Можно говорить о том, ?то они носят регулярный характер.
Коли?ественно эта зона омонимии представлена 381 словоформами - словарными
омонимами. Однако в зву?ащей ре?и она сужается до 269 единиц (см. ?исло
омографов). Текстовыми омонимами при этом являются только 28 словоформ, для
которых в корпусе действительно зафиксировано нали?ие разных зна?ений.
Таким образом, текстовая омонимия в этой зоне во много раз уже, ?ем
словарная, потенциальная, ?то существенно облег?ает возможность
автомати?еского разрешения омонимии.
С то?ки зрения семанти?еской центральным для этой зоны является совпадение
форм повелительного наклонения с другими формами (см. 2, 4, 5). Однако
большой процент омографов (100 словоформ из 166 ) показывает, ?то в
зву?ащей ре?и зона омонимии повелительного наклонения намного меньше и ?то
граммати?еская роль ударения в выражении зна?ения повелительного наклонения
в русском языке действительно о?ень велика. Разли?ение с помощью места
ударения омоформ 2-го типа носит регулярный характер, т. к. представлено у
100 лексем одного и того же типа (глагы на -ить). Эту регулярность,
преобладание в текстах глаголов на -ить с подвижным ударением нельзя
игнорировать, когда мы пытаемся объяснить 'всплывание' ошибок типа
'позв?ните' вместо 'позвони@те' при малейшей потере контроля за
правильностью ре?и.
Для омоформ 1, 4, 5 типов на основе данных корпуса удается выделить
зна?ения, которые являются ведущими или абсолютными. Это озна?ает, ?то
именно эти зна?ения могут автомати?ески приписываться данным единицам при
?астотном подходе к проблеме снятия омонимии словоформ в газетных текстах.

Проблемы адекватности данных, репрезентативности и удобства

в эксплуатации электронных корпусов средневековых текстов
А. М. Лаврентьев
Институт филологии СО РАН, Новосибирск
alexei-lavrentev@mail.ru
корпусная лингвистика, дипломати?еская транскрипция, древнерусские рукописи
Summary. Text corpora are a valuable source of data for linguistic
research, especially for studies in historical linguistics. In this paper
we consider the challenges connected with the creation and use of different
kinds of corpora of medieval texts. A number of solutions for the problems
that arise in this field are proposed.


Современная лингвистика все шире опирается в своих исследованиях на данные
электронных корпусов текстов. Особое зна?ение такие корпусы имеют для
исследований (синхронных и диахронных) в области истории языка, где
проведение разного рода экспериментов с 'носителями языка' невозможно и
тексты являются единственным исто?ником данных. Уже созданы и активно
функционируют корпусы текстов на древнеанглийском, старофранцузском и
других языках средневековой Европы. Ведется работа и над созданием
машинного фонда русского языка, однако этот фонд вклю?ает только тексты XIX-
XX вв. (если не с?итать 'Слова о полку Игореве' в разли?ных переводах на
современный русский язык).
Когда ре?ь идет о корпусе старых текстов, остро встает вопрос об
адекватности электронной версии рукописному исто?нику. В настоящее время
большая ?асть корпусов средневековых текстов основана на крити?еских
изданиях. Не подвергая сомнению достоинства таких изданий, заметим, ?то для
лингвисти?еских исследований особый интерес представляют ошибки и
намеренные изменения, сделанные писцами, от которых издатели стремятся
'о?истить' первона?альный текст. Кроме того, в крити?еских изданиях, как
правило, модернизируются пунктуация и сегментация (разделение на слова), не
разли?аются каллиграфи?еские варианты букв и буквиц, расшифровываются
сокращения и т. п. Таким образом теряется ?асть информации о рукописном
тексте, и если исследователя заинтересует один из названных аспектов
графи?еской системы, он вынужден будет обращаться к первоисто?никам и
факти?ески на?инать работу 'с нуля'.
Современные компьютерные технологии позволяют вклю?ать в электронное
издание высокока?ественные цветные фотографии рукописи (иногда на них можно
увидеть детали, едва разли?имые в оригинале). Без сомнения, полноценное
электронное издание старого текста должно содержать такого фотографии,
однако их нали?ие не решает проблемы поиска и обработки текстовых данных.
Существующие системы распознавания текста не расс?итаны на работу со
старыми рукописями с их 'нестандартными' по?ерками, буквами и символами.
Заметим, ?то даже 'вру?ную' отдельные фрагменты рукописей практи?ески не
поддаются однозна?ному про?тению. Таким образом, требуется разработка такой
системы переда?и (кодирования) рукописного текста, которая бы отражала все
существенные данные оригинала и вместе с тем позволяла достато?но легко
извлекать и анализировать эту информацию с помощью современных программных
средств.
Работа в данном направлении ведется уже достато?но долго, и существуют
общепринятые принципы электронной записи текстов для лингвисти?еских и
филологи?еских исследований. В 1988 г. на?алась работа в рамках
международной 'Инициативы по кодированию текстов' (Text Encoding
Initiative, TEI), в результате которой была предложена система 'тагов'
(tags), позволяющих отразить в электронной версии в формате SGML самую
разнообразную информацию о физи?еских и содержательных характеристиках
текста. Эта система была принята в большинстве электронных текстовых
архивов, в том ?исле в Машинном фонде русского языка. В настоящее время
формат XML (современный подвид SGML) с системой тагов, отве?ающей
требованиям TEI, представляется, на наш взгляд, оптимальным средством
записи и хранения электронных корпусов текстов. Вместе с тем стандартный
набор тагов, рекомендуемых TEI, не позволяет в полной мере кодировать
информацию о специфи?еских элементах графи?еской системы средневековых
рукописей (таких, как каллиграфи?еские варианты букв, размер и цвет буквиц,
нестандартная сегментация и т. п.), и возникает необходимость дополнить
этот набор новыми элементами.
Одна из первых и наиболее развернутых систем дипломати?еской транскрипции
средневековых текстов была разработана в рамках проекта 'Charrette'
Принстонского университета (США). Этот проект представляет собой доступный
?ерез Интернет (http://www.princeton.edu/~lancelot) гипертекстовый архив
рукописной традиции и крити?еского издания романа 'Рыцарь телеги'
('Chevalier de la Charrette') французского писателя XIII в. Кретьена де
Труа. Принципы организации электронных корпусов старых текстов,
выработанные в рамках проекта 'Charrette', могут использоваться при
подготовке электронных изданий любых обладающих истори?еской ценностью
рукописных текстов, в том ?исле древнерусских.
Важнейшими принципами таких изданий являются:
1. Вклю?ение в издание высокока?ественных цветных фотографий оригинала.
2. Максимально полное и адекватное отражение оригинала в транскрипции.
3. Система специальных кодов для трудно?итаемых и допускающих
неоднозна?ную интерпретацию фрагментов оригинала.
4. Соответствие транскрипции общепринятым международным стандартам
электронной записи текстов (TEI).
5. Совместимость транскрипции с современными программными средствами
визуализации и обработки электронных документов (XML, XSLT).
Основная проблема, связанная с созданием корпусов старых текстов,
основанных на технологии проекта 'Charrette', состоит в необходимости
больших финансовых и трудовых затрат для их реализации. Совершенно
о?евидно, ?то широкомасштабный проект по созданию адекватных электронных
версий древнерусских рукописей в современных российских условиях
нереалисти?ен.
Решение проблемы видится нам в комплексном подходе, со?етающем несколько
направлений работы:
1. Определение приоритетного списка наиболее зна?имых памятников
древнерусской литературы, электронное издание которых следует осуществить в
первую о?ередь.
2. Создание корпуса дипломати?еских транскрипций небольших фрагментов
выборки древнерусских рукописей, отве?ающей требованию репрезентативности с
то?ки зрения времени и места написания, а также жанра письменности.
3. Создание обширного корпуса древнерусских текстов в упрощенном формате
(основанного на современных изданиях) для проведения исследований, для
которых то?ное воспроизведение графи?еской системы рукописных исто?ников не
имеет определяющего зна?ения.
В настоящее время в Институте филологии СО РАН идет подготовительная
работа по проекту электронного издания ряда русских сибирских летописей и
памятников фольклора народов Сибири. Предполагается, ?то эта работа
на?нется с издания Есиповской летописи.
Разграни?ение общезна?имой лексики и терминологии

и автомати?еская обработка больших электронных коллекий
Н. В. Лукашеви?, Б. В. Добров
Московский государственный университет им. М. В. Ломоносова
ouk@mail.cir.ru
общезна?имая лексика, терминология, автомати?еская обработка текстов,
электронные коллекции
Summary. In the paper we argue that there exists a polythematic domain
which situated in an intermediate position between senses of a general
language area and specific domains. This domain, called 'Sociopolitical
domain', contains general language senses practically coinciding with
concepts of social subdomains and concepts of specific domains
understandable for native speakers.


1. Границы между общезна?имой лексикой и терминологией: традиционный
взгляд
Подавляющее большинство текстов, хранимых в современных электронных
коллекциях и нуждающихся в эффективной обработке и поиске, содержат как
общезна?имую лексику, так и терминологию конкретных предметных областей.
Между тем общезна?имые слова и термины изу?аются представителями совершенно
разли?ных нау?ных дисциплин.
Основоположник Венской школы терминологии Вюстер [2] под?еркивал, ?то одно
из существенных разли?ий между методами исследования, используемых
лингвистами и терминологами, заклю?ается в том, ?то терминологи на?инают
свое рассмотрение с понятия, которое должно быть то?но определено и не
зависит от своего наименования, а лексикологи на?инают с языкового
выражения. Поэтому терминологи говорят о понятиях, а лингвисты о зна?ениях.
В терминологии существует представление о идеальных терминах, которые
должны быть ?етко определены (иметь ?еткие определения), не должны иметь
синонимов, должны быть однозна?ны. Все это дополнительно под?еркивает
разли?ие между общезна?имой лексикой и терминологией.
Как отдельный способ формирования терминов рассматривается превращение в
термин общезна?имого слова - терминологизация, когда общезна?имое слово
полу?ает новое терминологи?еское зна?ение в конкретной предметной области
[4].
2. Существование смешанного лексико-терминологи?еского слоя языковой
системы. Общественно-полити?еская область
Однако зна?ительное коли?ество слов русского языка одновременно является
термином в одной или более областях без серьезного сдвига зна?ения.
Например, слово 'здание' является необходимым элементом терминологии по
крайней мере в двух областях: в области строительства и в области
коммунального обслуживания. Таким образом, подавляющее большинство
общезна?имых слов-артефактов должны иметь ?резвы?айно близкие по смыслу
терминологи?еские аналоги по крайней мере в двух предметных областях:
области производства этого артефакта и области его использования.
В [4] предполагается, ?то всякое терминологи?еское зна?ение должно быть
отделено от общелекси?еского зна?ения. Однако выделение разли?ных зна?ений
предполагает, ?то эти зна?ения функционируют в разли?ных контекстах и
совмещение их в одном и том же предложении приводит к такому явлению как
'игра слов' [1]. Если такое слово как 'здание' употребляется в газетном
тексте, то ?асто невозможно отли?ить, в каком зна?ении общелекси?еском или
терминологи?еском это слово употреблено.
Мы оцениваем, ?то до 40 процентов слов, содержащихся в общих толковых
словарях, обладают похожими свойствами. Кроме того, существует зна?ительное
коли?ество многословных выражений, которые являясь терминами в специальных
предметных областях, понятны носителям языка и могут не рассматриваться ими
как термины, например, военная помощь, авиационная промышленность, внешняя
миграция. Это озна?ает, ?то взаимопроникновение лексики и терминологии
имеет зна?ительно больший масштаб, ?ем это предполагалось ранее
терминологами и лексикологами.
Таким образом, существует зна?ительный лексико-терминологи?еский слой
языка, и граница между общезна?имой лексикой и специальной терминологией
представляет собой достато?но широкую полосу. В состав этого слоя попадает
та терминология предметных областей, с которой носители языка сталкиваются
в повседневной жизни и также должны иметь названия для соответствующих
явлений. Поэтому можно выделить особый тип области, которую мы называем
общественно-полити?еской областью, охватывающей объекты и явления, зна?имые
в современной жизни общества.
3. Свойства лексики и терминологии общественно-полити?еской области
Выделение такой области, а также выделение среди общезна?имой лексики
лексем, принадлежащих этой области, является ?резвы?айно полезным для
разработки лингвисти?еских ресурсов и технологий автомати?еской обработки
больших электронных коллекций.
Прежде всего, терминология и лексика из этой области активно используется
в самых разных по жанру, но зна?имых для жизни общества текстах, как
законы, международные договора, другие официальные документы, газетные
сообщения, экономи?еские документы [3].
Кроме того, если рассмотреть коли?ество многозна?ных общезна?имых слов
внутри общественно-полити?еской области и вне ее, то многозна?ных слов в
общественно-полити?еской области зна?ительно меньше, а процедуру
автомати?еского разрешения многозна?ности работает эффективнее, поскольку
?асто зна?ения относятся к разли?ным подобластям общественной жизни. Это
разли?ие можно также эффективно использовать при автомати?еской обработке
текстов.

Литература
1. Cruse D. Lexical Semantics. Cambridge University Press. 1986.
2. Wuster E. Einfurung in die Allgemeine Terminologielehre und
terminologishe Lexicographie. Vien; N. Y., 1979. Bd 1-2.
3. Loukachevitch Natalia V., Dobrov Boris V., Evaluation of Thesaurus on
Sociopolitical Life as Information Retrieval Tool // Proceedings of Third
International Conference on Language Resiurces and Evaluation (LREC2002) /
M. Gonzalez Rodriguez, C. Paz Suarez Araujo (Eds.) Vol. 1. 2002, Gran
Canaria, Spain. P. 115-121.
4. Суперанская А. В., Подольская Н. В., Васильева Н. В. Общая терминология.
Вопросы теории. М, 2003.
Проблемы разработки синтакси?еского анализатора

русских техни?еских текстов
О. А. Невзорова, Н. В. Пяткин
Казанский государственный педагоги?еский университет; НИИММ им. Н. Г.
Чеботарева, Казань
olga.nevzorova@ksu.ru
cинтакси?еский анализ, автомати?еский анализ текста
Summary. The paper presents the object-oriented approach to the development
of syntactical analyzer of Russian technical texts.


1. Постановка зада?и. Наиболее типи?ные исследовательские проекты,
связанные с обработкой текстов, относятся к областям автомати?еского
индексирования и реферирования текстов, статисти?еской обработки
специальных текстов, машинного перевода и многоязыковой генерации текстов,
систем извле?ения текстовой информации. Как правило, на вход системы
последнего класса подается текст, отобранный в процессе информационного
поиска, а на выходе формируется набор заполненных необходимой информацией
шаблонов. Мы рассматриваем зада?у анализа концептуальных структур знаний,
извле?енных из техни?еских текстов специального класса, на информационную
целостность. Контроль информационной целостности вклю?ает, прежде всего,
контроль составляющих концептуальной структуры и построение связных
компонентов описания. Решение поставленной зада?и требует разработки
системы семантико-синтакси?еского анализа техни?еских текстов, которая
содержит класси?еские модули лингвисти?еской обработки теста:
морфологи?еский и семантико-синтакси?еский анализ.
2. Модель синтакси?еского анализа. В работе рассматривается объектно-
ориентированный подход к разработке синтакси?еского анализатора русских
техни?еских текстов. Для описания синтакси?еской структуры предложений
используется понятие сегмента - расширенная модель составляющей (из системы
составляющих). Это позволяет ввести иерархию на множестве сегментов с
помощью выделения в каждом сегменте главного слова и установления
направленных связей между главными словами. Сегменты могут быть как
простыми, так и сложными, т. е. содержащими другие, более простые сегменты.
Самый простой сегмент состоит из одного слова. Кроме свойств систем
составляющих, сегменты имеют свой тип (именной сегмент, глагольный,
при?астный оборот и т. д.), а так же главное слово, морфологи?еские
характеристики которого приписываются всему сегменту [1].
Основные проблемы синтакси?еского анализа общеизвестны. Трудными для
автомати?еской обработки являются проблемы разрешения морфологи?еской и
синтакси?еской неоднозна?ности в предложении: выделение границ простого
предложения в составе сложного, выделение границ и определяемого слова
при?астного оборота и т. п. Специфи?ескими проблемами анализа
рассматриваемого класса техни?еских текстов является анализ аббревиатур
(стандартных и вводимых по тексту), реальные ошибки пунктуации в сложных
предложениях. Подобная сложная ситуация анализа потребовала выработки ряда
ограни?ений на правила построения определенных синтакси?еских конструкций,
а также введения диалоговых процедур разрешения неоднозна?ностей в
некоторых тупиковых ситуациях.
Основные проблемы формального синтакси?еского анализа, по нашему мнению,
нельзя успешно разрешить без использования внешних исто?ников знаний. К
таким внешним знаниям относятся, прежде всего, знания о предметной области.
В [2] описана прикладная онтология предметной области текстов, а также
некоторые результаты применения онтологии в зада?е автомати?еского анализа
техни?еских текстов. Знания о структурных моделях русских предложений
содержатся в специальном словаре контекстов семанти?еских ролей синтаксем,
разрабатываемом на основе Синтакси?еского словаря Золотовой Г. А. [3].
3. Реализация модели синтакси?еского анализа. При реализации программы
синтакси?еского использовался один из вариантов метода информационной
доски. Основу метода составляют три элемента: информационная доска,
совокупность исто?ников знаний и контроллер, управляющий исто?никами
знаний. Информационная доска содержит данные, которыми манипулирует
программа. Данные представляют собой иерархию объектов, которая строится в
соответствии с иерархи?еской структурой синтакси?еских единиц предложения
(предложение, ?лен предложения, слово и т. п.).
Исто?ники знаний - это иерархи?ески организованные объекты, содержащие
процедурные знания о языке (исто?ники знаний о предложениях, о конкретных
структурных синтакси?еских единицах предложения, о сегментах конкретного
типа и т. д.). Процедуры в объектах-правилах обладают свойством
функциональной неоднородности и могут быть легко расширены и модифицируемы.
Контроллер (управляющий элемент в методе информационной доски) является
коне?ным автоматом, который в зависимости от ситуации и состояния
активизирует тот или иной исто?ник знаний.
Проведенное тестирование программы на реальных текстах дало хорошие
результаты при сегментации предложений в принятых ограни?ениях. Объектно-
ориентированный подход оправдал себя в ?асти представления сложной
структуры синтакси?еских составляющих единиц текста и разработке методов
синтакси?еского анализа.
Литература
1. Невзорова О. А., Сергеев М. П. Алгоритмы сегментации предложений на
простые составляющие // Тр. межд. сем. Диалог' 2000. Т. 2. Протвино, 2000.
С. 278-283.
2. Лукашеви? Н. В., Невзорова О. А. Прикладная онтология в зада?е
автомати?еского анализа текстов // Обработка текста и когнитивные
технологии. Вып. 8. Сб. докладов межд. конф. 'Когнитивное моделирование в
лингвистике', 1-7 сентября 2003 г., Варна, Болгария. С. 253-262.
3. Невзорова О. А. Подход к построению семантико-синтакси?еского
анализатора текстов на основе моделей синтаксем // Тр. межд. сем.
Диалог'99. Т. 2. Таруса, 1999. С. 215-219.
Морфологи?еская информация

в Национальном корпусе русского языка
В. А. Плунгян, Д. В. Си?инава
Московский государственный университет им. М. В. Ломоносова
plu@plu.mccme.ru, mitrius_tipl@mtu-net.ru
корпусная лингвистика, русский язык, морфология, граммати?еские категории,
словоизменение, словообразование
Summary. The paper is concerned with theoretical and practical issues
related with corpus building. The most general principles of morphological
tagging in Russian National Corpus are sketched, along with concrete
difficulties conditioned by specific properties of a corpus as a universal
research tool. We suggest that a broader interpretation of 'paradigm' and
'word form' should be used in the tagset of grammatical properties.
0. Национальный корпус русского языка (далее - Корпус) создается рабо?ей
группой, вклю?ающей лингвистов университетов и академи?еских институтов
Москвы и Санкт-Петербурга. Проект призван заполнить лакуну в оте?ественной
лингвистике, где до недавнего времени отсутствовали крупные общедоступные
корпуса электронных текстов, снабженные морфосинтакси?еской разметкой и
удобным механизмом поиска. В настоящее время корпус доступен в Интернете по
адресу http://www.ruscorpora.ru.
В то время как в фокусе внимания современной корпусной лингвистики
находятся, прежде всего, проблемы представления синтакси?еской и
семанти?еской информации, вопрос о том, каким образом и в каком объеме
должны представляться в корпусе сведения о морфологи?еской структуре слова,
за?астую обходится как самоо?евидный. Тем не менее, выбор и реализация того
или иного морфологи?еского стандарта представляет собой самостоятельную
лингвисти?ескую проблему, решение которой во многом обусловливается
спецификой корпуса как 'универсального инструмента' исследования языка.
1. В основу морфологи?еского стандарта Корпуса положено описание русской
морфологии, воплощенное в Граммати?еском словаре А. А. Зализняка. Пока лишь
одна существенная ?асть этой информации не воплощена в Корпусе, а именно
сведения о месте ударения и о букве е. В настоящее время ведутся работы по
интеграции акцентной информации в морфологи?ескую разметку корпуса.
В граммати?еской помете, приписываемой словоформе, разли?аются следующие
поля: 1) лексема, которой принадлежит словоформа; 2) граммати?еские
признаки лексемы (в том ?исле ?астере?ная информация), 3) граммати?еские
признаки словоформы (словоизменительные категории) и 4) сведения о
граммати?еской нестандартности формы, орфографи?еских искажениях и т. п.
2. Целью морфологи?еской разметки Корпуса является, в ?астности, снятие
омонимии форм, полу?ающих несколько альтернативных разборов, таких, как
пе?ь (существительное, инфинитив) или пе?и (родительный, дательный,
предложный, второй предложный падеж ед. ?., именительный, винительный падеж
мн. ?.). В некоторых слу?аях, однако, жесткая дискретность нецелесообразна:
например, в слу?аях одушевленного дополнения при отрицании (не знал родного
отца) выбор между родительным или винительным падежом сделать невозможно. К
неразрешимым или трудноразрешимым на практике слу?аям омонимии относятся и
некоторые контексты с двувидовыми глаголами типа атаковать, формами
открытый или полированный (прилагательные или при?астия), регулярная
омонимия Хорошо! (?астица) - О?ень хорошо! (предикатив), Это ему было
тяжело (краткое прилагательное), Ему было тяжело (предикатив), Большое
спасибо (существительное) - Спасибо тебе (предикатив). Исследователь,
изу?ающий слово спасибо, может быть заинтересован в поиске и статистике по
всем употреблениям этого слова, не 'разнесенным' по разли?ным ?астере?ным
(факти?ески - синтакси?еским) рубрикам.
Неснятая омонимия также удобна в связи с такой важной теорети?еской
проблемой русской морфологии, как отнесение вида и залога к
словоизменительным или словообразовательным категориям. Так, вхождения
словоформы прошел в Корпусе должны иметь, как представляется, 'двойную'
трактовку - как форма лексемы проходить или пройти. Лингвист, изу?ающий
семантику глагола, полу?ит при поиске слова проходить также и формы от
пройти; исследователь же глагольного вида, выбрав соответствующий параметр,
ограни?ит свой поиск нужным ?леном видовой пары. То же относится и к
залоговым парам вроде проходить-проходиться.
3. На дальнейших этапах работы представляется перспективным применение в
Корпусе понятия 'расширенной парадигмы' и вклю?ения в формы лексемы также
продуктов регулярного словообразования. Сюда, в ?астности, относятся:
автомати?ески образуемые наре?ия, многие из которых не у?итываются
словарями (серо, по-французски, программистски и т. п.), образования с
транскатегориальным формантом не- (нефранцуз, ненадежно, невыспавшийся
и т. п.), с продуктивными приставками типа недо-, гипер-, вне-;
приставо?ная перфективизация; регулярные композиты типа хинди-тамильско-
английский, двадцатидвухлетний, притяжательные формы (лисий, мамин),
диминутивы и нек. др.
Особая группа проблем связана с разрывными (формально многословными)
лекси?ескими единицами, которые иногда входят в парадигму неразрывных
(напр., кое с кем при кое-кто, не о ?ем при не?его). Предлагается вводить
понятие словоформы, немаркированной по словоизменительному признаку, как
например, в слу?аях типа в тыся?а девятьсот восемьдесят втором году, где
под?еркнутые словоформы (составляющие сложное порядковое ?ислительное)
затруднительно отнести к предложному либо именительному падежу. Это же
верно и для несклоняемых ?астей имен собственных, пишущихся раздельно,
вроде Дон Кихот, фон Гумбольдт или Жюль Верн (ср. также русские разговорные
со?етания типа Пал Иваны?).
Общее направление работы по совершенствованию морфологи?еского стандарта
Корпуса определяется, с одной стороны, стремлением по возможности сохранить
традиционные интерпретации и, с другой стороны, стремлением максимально
у?есть практи?еские потребности реальных пользователей. Соединение этих
двух тенденций создает полезное 'поле напряжения', в котором всегда есть
место для нетривиальных теорети?еских решений.
Новые информационные технологии и медиа лингвистика
Р. К. Потапова
Московский государственный лингвисти?еский университет
potapova@linguanet.ru
медиа лингвистика, виртуальная коммуникация, Интернет, многоуровневая
структура языка
Summary. The Russian Language being used in Internet nowadays is affected
by multilingual, multimodal and multimedial factors and this leads to
transformations on every level of the language, on the one hand, and this
also contributes to the appearance of new kind of Conversational-Written
Russian Language of the virtual communication, on the other hand.
Виртуальная коммуникация с помощью новых информационных и
телекоммуникационных технологий поставила перед лингвистами целый ряд
вопросов, связанных с возникновением особого рода языка - языка
виртуального общения, специфика которого не вызывает сомнения. Именно
лингвисту предстоит попытаться ответить на следующие вопросы:
1. Каково соотношение письменных и устных форм языка в стремительно
развивающемся особом языке виртуального общения.
2. В ?ем специфика многоуровневой лингвисти?еской организации ре?евых
высказываний в режиме on-line коммуникации.
3. Каково лингвисти?еское коммуникативное пространство, выход за рамки
которого может привести к недопониманию и непониманию партнера по
коммуникации.
4. Какие лингвисти?еские и экстралингвисти?еские факторы могут повлиять на
формы успешного диалога / полилога и на коммуникацию в целом.
5. Достигается ли полное понимание партнерами по виртуальной коммуникации
языкового материала, функционирующего в режиме on-line с большой скоростью
(например, при деловых переговорах в ?ате).
6. Каковы пределы применения модально-эмоциональных языковых и неязыковых
средств воздействия на партнера при виртуальной коммуникации.
7. Какова типология текстов виртуальной коммуникации.
8. В ?ем заклю?ается сходство и разли?ие между традиционной медиа
лингвистикой и виртуальной медиа лингвистикой.
9. Какова интер- и интраязыковая специфика виртуальной коммуникации.
Вышесформулированные проблемы образуют открытый список и могут быть
дополнены с у?етом зада? лингвистики, психолингвистики, прагмалингвистики,
пара- и экстралингвистики.
Исследование текстов, функционирующих в медиа лингвистике, вступило в
особую фазу, ?то вызвано появлением новых информационных и
телекоммуникационных технологий, а также глобализацией мирового
информационного пространства. В этой связи особую роль играет Интернет (а
также Рунет), являющийся особой коммуникативной средой, в рамках которой
реализация естественного языка приобретает специфи?еские ка?ества,
отражающиеся на коне?ном продукте коммуникации - виртуальных текстах.
Согласно то?ке зрения ряда лингвистов, тексты в сети Интернет (а также
Рунет) можно распределить следующим образом:
1. Подготовленные, отредактированные и скорректированные (так называемые
'при?есанные') тексты: сетевые версии книг, газет, журналов и разного рода
документов.
2. Неподготовленные, спонтанные высказывания в разнообразных ?атах, где
преобладает разговорный жанр, на который, однако, накладывает свой
отпе?аток специфика обмена репликами в письменной форме.
Посредством ?ата возникла по сути новая форма языкового взаимодействия
(симбиоз письменной и разговорной ре?и). Потребность полноценного общения в
Интернете вызвала к жизни новые знаковые системы. Невозможность
использовать во время коммуникации в Интернете стандартные невербальные
средства пода?и информации привела к созданию системы так называемых
смайликов, с помощью которых может быть выражена достато?но разнообразная
гамма ?увств. В ка?естве заменителя модуляций голоса используются также
заглавные буквы, которые вне заголовка передают повышение голосового тона.
Зна?имые ?асти текста выделяются также с помощью знака *.
Особенности организации диалога в Интернете состоят, во-первых, в
абстрагировании от материальных проявлений процесса общения (собеседники в
Интернете лишены голоса, мимики, жестикуляции как естественных проявлений),
во-вторых, - в возможности вести разговор анонимно.
3. Форумы, гостевые книги, конференции - это система общения, находящаяся
на пересе?ении делового и фати?еского общения. Тексты в гостевой книге
более приближены к жанру письма - жанру, который успешно возрождается
именно благодаря Интернету.
4. Реклама в Интернете (Рунете) - разли?ного рода объявления, предложения
и т. д.
5. Электронные письма - эпистолярный жанр, возрожденный на базе новых
информационных технологий и имеющий ряд отли?ительных особенностей.
Отдельной проблемой русского языка в глобальной сети являются иноязы?ные
заимствования, их употребление в сети Интернет и появление новых зна?ений
слов.
Особенности организации диалога / полилога в Интернете (а также Рунете)
оказывают непосредственное влияние на используемый язык, ?то приводит к
сращиванию письменных и устных форм вербального общения, появлению ряда
неологизмов, заимствований из других языков, нетрадиционных аббревиатур и
т. д. При этом русский язык виртуального общения находится под прямым
влиянием со стороны американского варианта английского языка, собственного
русскоязы?ного молодежного сленга, жаргона программистов. Кроме того на
коне?ный вербальный текстовый продукт влияют такие факторы, как скорость
переда?и сообщения в реальном времени, доступность полиадресного общения,
анонимность, если этого требует ситуация, информационная мультимодальность
(вклю?ение видео иллюстраций, ссылки на другие веб-страницы, музыкальные
вставки и др.).
Все вышесказанное свидетельствует о том, ?то русский язык, функционирующий
в настоящее время в Интернете (а также Рунете), испытывает на себе особый
вид 'нагрузки', исходящей от мультилингвального, мультимодального и
мультимедиального исто?ников, ведущих, с одной стороны, к появлению
трансформаций на всех языковых уровнях, с другой стороны, способствующих
возникновению новой разновидности разговорно-письменного русского языка
виртуальной коммуникации.
В докладе излагаются предварительные результаты лингвоконтрастивного
исследования на материале русского языка в сопоставлении с английским и
немецким языками в вышеозна?енной области знаний.
Лекси?еская база данных с наложенной семанти?еской метрикой
С. Б. Потемкин
Московский государственный университет им. М. В. Ломоносова
potemkin@philol.msu.ru
семантика, расстояние, лексика, поиск, машинный перевод
Summary. Lexical database (LDB) of about 1 mln. records includes English-
Russian equivalents with grammar notes and source indication. This LDB is
used for definition of the fundamental relation between Russian words - the
distance. Obstacles and prospects while using metric measure superposed
over the set of lexical units are described.


Вопрос задания метри?еского отношения на словаре русского языка
представляет большой теорети?еский и практи?еский интерес. Его решение
позволило бы в теорети?еском плане более ?етко определить понятия
синонимии, омонимии и полисемии, а в практи?еском плане решить многие
вопросы информационного поиска, унификации текстов, выражающих одинаковый
смысл, машинного перевода.
К сожалению, до настоящего времени не дано строгого определения понятия
(семанти?еского) расстояния между словами, (семанти?еской) близости, не
выделены непересекающиеся классы понятий, не разработана методика
соотнесения имен с денотатом.
Предлагаемый словарь (лекси?еская база данных - ЛБД) составлен с целью
выяснения возможности задания метрики на непересекающихся классах понятий
русского языка. В своей основе ЛБД имеет англо-русские и русско-английские
словари, доступные автору в электронном виде и ?асти?но введенные в
компьютер с бумажных носителей с у?астием автора. Таким образом собрано
более 1 млн. записей ЛБД, имеющей структуру плоской реляционной таблицы.
Каждая запись вклю?ает следующие поля:
- английское слово (словосо?етание);
- русское слово (словосо?етание);
- грамматика русского слова (по А. А. Зализняку);
- пометы и комментарии;
- список словарей, зафиксировавших данную англо-русскую пару.
Представление ЛБД в виде таблицы DBF позволяет легко проводить
всевозможные сортировки, индексирование, вносить новые поля для записи
производных данных, и составлять программы обработки, пользуясь языками
программирования БД.
Наиболее перспективным представляется алгоритм определения расстояния
между двумя русскими словами, связанными английскими эквивалентами.
Определим это расстояние как 1 / n, где n - ?исло английских эквивалентов,
приписанных одновременно обоим русским словам. Можно определить расстояние
более то?но, как 1 / N, где N - общее ?исло словарей, зафиксировавших
вышеуказанные эквиваленты.
Вероятно, определенное таким образом расстояние задает метрику на каждом
из непересекающихся множеств русских слов, связанных английскими
эквивалентами при выполнении некоторых дополнительных ограни?ений. К
наиболее серьезным ограни?ениям относится у?ет омонимии (омографии) в
русской и английской ?асти словаря. Выделение и разделение омонимов
предоставляет собой отдельную проблему, возможные пути решения которой
наме?ены в работе [1].
После задания метрики становится возможным проводить разли?ные виды
коли?ественного анализа ЛБД, вклю?ая:
1) Расширение возможностей информационного поиска, как в локальных базах
данных, так и в Интернете. В настоящее время поисковые машины находят
документы, содержащие слово, заданное в запросе на поиск. Вместо этого
иногда было бы полезно производить поиск некоторой e-окрестности указанного
слова, куда попадут все слова, близкие (или совпадающие) по зна?ению с
заданным.
2) Уто?нение результатов, предлагаемых программами машинного перевода.
Полностью автомати?еские программы машинного перевода не дают, и в
обозримом будущем не будут давать адекватных результатов. В настоящее время
успешно применяется подход Translation memory, когда в памяти машины
накапливаются переводы предложений, выполненные ?еловеком-перевод?иком, и
извлекаются из памяти при необходимости перевести новый текст. Этот подход
дает хорошие результаты при полном совпадении исходных предложений. Если
определить подходящим образом лекси?ескую e-окрестность переведенного
предложения, в нее попадет зна?ительное ?исло сходных по смыслу новых
предложений, подлежащих переводу.
3) Кластеризация и определение иерархи?еских отношений между словами, ?то,
в ?астности, поможет в построении развитого Тезауруса русского языка и
установлении его связи с тщательно разработанным Тезаурусом Роже.
Методы коли?ественного анализа базируются на фундаментальном понятии
расстояния между объектами. Применение этих методов для исследований в
области семантики возможно только после задания метрики на множестве
лекси?еских единиц. Предлагаемый подход представляет один из возможных
способов задания такой метрики. Собранная лингвисти?еская база данных
является основой для определения расстояния между словами русского языка.
Литература
1. Кедрова Г. Е., Потемкин С. Б. Homograph disambiguation with the use of
bilingual dictionary and dictionary of synonyms. 32-я Конференция
Европейских лингвистов, Лион, Франция, 02-07.09.2003.
Автоматизированная система обработки и анализа литературных текстов
'СМАЛТ'1
А. А. Рогов, Ю. В. Сидоров, А. В. Король
Петрозаводский государственный университет
rogov@psu.karelia.ru, sidorov@psu.karelia.ru, aleko@onego.ru
компьютерный анализ текстов, атрибуция, стилеометрия, авторский инвариант
Summary. This paper presents an information system which main purpose is to
collect and store literary texts together with their morphological and
syntactical structures for further statistical processing. Statistical
Methods of Literary Texts Analysis (SMALT) information system consists of
two main parts: the functional one intended for texts morphological and
syntactical analysis, filling up literary texts database, correction
making, and analytical one, which contains parts, implementing different
statistical methods for texts analysis.


На?ало работ по созданию информационной системы 'Статисти?еские методы
анализа литературных текстов' (ИС 'СМАЛТ') связано с исследованиями по
решению проблемы установления авторства некоторых анонимных и псевдонимных
публицисти?еских статей из Петербургских журналов 'Время' и 'Эпоха' (1861-
1865), редактировавшимися братьями Достоевскими [1-5]. Возникшие в процессе
решения данной проблемы новые идеи, подходы к решению зада?, связанных с
автомати?еской обработкой и анализом текстов, а также желание
___________________________________
[?] Проект разработки системы поддержан грантом РГНФ ? 02-04-12015в.
аккумулировать в единой информационной системе как можно больше хорошо
зарекомендовавших себя методов атрибуции литературных произведений подвели
авторов к разработке такой системы. ИС 'СМАЛТ' имеет в основе базу данных
(БД) текстов (на данный момент 81 публицисти?еская статья из упомянутых
выше журналов) и их морфологи?еских и синтакси?еских параметров и
предоставляет открытый доступ к накопленной информации с возможностью
проведения многократных проверок и повторных исследований. Интернет-адрес
проекта: http://smalt.karelia.ru.
ИС состоит из двух основных блоков: функционального блока,
предназна?енного для морфологи?еского и синтакси?еского анализа текстов,
пополнения БД литературных произведений, а также внесения исправлений; и
аналити?еского блока, состоящего из модулей, реализующих разнообразные
методики статисти?еского анализа текстов. На рисунке представлена
концептуальная модель функционирования ИС 'СМАЛТ'.
В ка?естве исходного исто?ника данных для клиентского приложения
используется текстовый файл в кодировке Unicode, ?то позволяет избежать
проблем, связанных с использованием в отдельных текстах специфи?еских
символов, которые встре?аются в исследуемых произведениях.
ЛВС ПетрГУ

Клиентское Сервер БД Сервер WWW
приложение
Сервер




Клиентское Программа-
приложение browser

Интернет


Обработка текстов в информационной системе производится в несколько
этапов. На первом шаге выполняется автоматизированное разбиения исходного
текста на лекси?еские единицы, среди которых выделяются ?асть (или раздел),
абзац, предложение, слово. На втором этапе осуществляется автомати?еская
обработка текста и его морфологи?еский разбор. На базе построенного
морфологи?еского разбора производится третья стадия обработки текста -
синтакси?еский анализ.
На следующем этапе пользователь может выполнять операции по анализу
текстов, находящихся в БД, как с использованием клиентского программного
обеспе?ения, так и ?асти?но ?ерез WEB используя предоставляемый web-узлом
интерфейс. На этой стадии в распоряжении пользователя - набор методов
кластерного, компонентного анализов, ряд реализованных методик
распознавания образов на основе нейронных сетей и группа методов,
предоставляющих возможность проверки гипотез авторства [4]. Все
используемые методы обработки текстов реализуются в виде легко расширяемого
набора динами?еских библиотек.
Кроме этого пользователям ИС СМАЛТ предоставляется возможность внесения
изменений и поправок в опубликованные данные. Таким образом, можно
просмотреть одни и те же данные в редакции разли?ных специалистов, а также
сравнить результаты, полу?аемые при статисти?еской обработке разли?ных
редакций.

Литература
1. Rogov A. A., Sidorov Yu. Vl. Statistical and Information-calculating
Support of the Authorship Attribution of the Literary Works. Computer Data
Analysis and Modeling: Robustness and Computer Intensive Methods: Proc. of
the Sixth International Conference (September 10-14, 2001, Minsk). Vol. 2:
K-S / Edited by Prof. Dr. S. Aivazian, Prof. Dr. Yu. Kharin and Prof. Dr.
H. Rieder. Minsk, 2001. P. 187-192.
2. Захаров В.Н. Гениальный фельетонист // Ф.М. Достоевский. Полн. собр.
со?. Канони?еские тексты. Т. IV. Петрозаводск, 2000. С. 801-812.
3. Захаров В. Н., Рогов А. А., Сидоров Ю. В. Поиск граммати?еского
инварианта Ф. М. Достоевского методами статисти?еского анализа // Труды
Петрозаводского государственного университета. Сер. 'Прикладная математика
и информатика'. Вып. 9. Петрозаводск, 2000. C. 67-80.
4. Захаров В. Н., Рогов А. А., Сидоров Ю. В. Проблема грам-

мати?еского инварианта Достоевского и атрибуция анонимных и псевдонимных
статей в журналах 'Время' и 'Эпоха' (1861-1865). Труды и материалы
Международного конгресса 'Русский язык: истори?еские судьбы и
современность' (13-16 марта 2001 года). М., 2001. С. 404-405.
5. Сидоров Ю.В. Математи?еская и информационная поддержка методов
обработки литературных текстов на основе формально-граммати?еских
параметров. Автореф. дис. ... канд. тех. наук. Петрозаводск, 2002.
Корпус текстов - новый тип словесного и знакового единства
В. В. Рыков
Московский физико-техни?еский институт (МФТИ)
rykov2000@mail.ru
корпус текстов, состояние языка, определение корпуса текстов,
представительность корпуса, общая филология, фактура ре?и
Summary. Classical corpus definition is discussed according to the General
Philology paradigm invented and developed by MSU Professor Yu. V.
Rozhdestvensky. Only corpora reflecting the whole scope of speech activity
can be treated as universal and hence can be used as reliable source of
scientific investigation.


Первый компьютерный корпус был создан в США (так называемый Брауновский
корпус текстов) вот уже по?ти сорок лет назад. За это время было созданы
другие корпуса текстов - похожие и не похожие на Брауновский. Созданные
корпуса текстов стали использоваться в самых разнообразных исследованиях.
Соответственно, появилось много публикаций, описывающих не только
результаты этих исследований, но и свойства корпуса текстов как нового типа
словесного единства. Появилась новая наука - корпусная лингвистика.
Полу?или названия разнообразные жанры корпусов текстов - двуязы?ные,
у?ебные и т. п.
Однако разнообразие жанров и областей применения породило проблему более
то?ного описания термина 'корпус текстов' и, соответственно, определения и
описания этого нового типа словесного единства. Определение, ставшее уже
общепризнанным, наделяет корпус текстов следующими ка?ествами -
расположение на машинном носителе, все тексты корпуса полу?ены специальными
процедурами отбора для того, ?тобы корпус стал репрезентативным и разме?ены
на машинном носителе однородным образом для удобства обработки его
компьютером, а также ?то весь корпус имеет коне?ный размер. В результате
полу?ается ?етыре минимальных базовых ка?ества, делающих собрание текстов
корпусом - расположение на магнитном носителе (machine readable form),
процедуры отбора (sampling) и репрезентативность (representativeness),
единство разметки или представления корпуса на этом носителе и коне?ный
размер.
Это определение никем не оспаривается, но иногда понимается по-разному, а
иногда, похоже, не совсем верно понимается. Можно сделать вывод, ?то
существует проблема интерпретации того, ?то такое корпус. Также можно
утверждать, ?то корпус текстов настолько новый филологи?еский феномен, ?то
коли?ество и ка?ество публикаций с адекватным описанием этого необы?ного
типа словесного единства оставляют простор для достато?но неадекватных
суждений. О?евидно, ?то правильные ответы на эти вопросы имеют не только
теорети?еское, но и практи?еское зна?ение. Поэтому в этой работе делается
попытка более глубокого анализа и описания корпуса текстов, как нового типа
словесного единства, исходящее как из традиционного его определения, так и
из всего многообразия практики его реализации.
Расположение текстов корпуса на машинном носителе выглядит как наиболее
тривиальное требование или свойство. В оте?ественной филологи?еской
традиции существует простая, понятная, однако не слишком широко известная
парадигма нау?ного описания этого свойства - система понятий общей
филологии, разработанной профессором МГУ Ю. В. Рождественским. Одним из
изна?альных понятий этой науки с?итается фактура ре?и, которая
рассматривается как материал ре?и, соединенный с орудиями ре?и. Каждая
фактура ре?и формирует свой род словесности. Из ?етырех фактур ре?и первые
три уже давно известны. Это устная, письменная и пе?атная. У ?етвертой
фактуры ре?и орудием письма является компьютер, а материалом - машинный
носитель. Сей?ас мы все видим, ?то в ?етвертой фактуре ре?и формируется
довольно новый род словесных произведений. Многие жанры этой фактуры имеют
прототиы или аналоги в истори?ески более ранних ранних фактурах. Например -
электронные книги, письма. Но многие - нет.
Обратив теперь внимание на корпус текстов, можно утверждать, ?то это один
из жанров нового рода словесности, возникший в ?етвертой фактуре ре?и и не
имеющий прямых аналогов в устной, письменной или пе?атной ре?и. Он появился
впервые именно на машинном носителе, записанный и подготовленный особым
образом при помощи компьютера как орудия ре?и.
Более показательным может показаться другое свойство корпуса. Это
приготовленное достато?но сложным образом словесное произведение, строго
говоря, никто не ?итает в обы?ном смысле этого слова. Коне?но, есть
достато?но много жанров пе?атной ре?и, которые крайне редко ?итают подряд -
например словари или энциклопедии. Но для корпуса это свойство оказывается
существенно усиленным. В данном слу?ае компьютер выступает даже не просто
как средство визуализации текста на машинном носителе. Между его ?итателем
(пользователем) и его текстами стоит достато?но сложный программный
интерфейс, позволяющий сделать выборку словесного материала из корпуса по
разнообразно сформулированным запросам. Одно только это свойство позволяет
говорить о корпусе как о сложном знаковом единстве.
Как можно видеть, приложение парадигмы общей филологии позволяет более
?етко и вполне адекватно осмыслить даже такие казалось бы простые на вид
понятия, как написание и ?тение текста. Гораздо сложнее обстоит дело с
двумя другими свойствами корпуса - процедурами отбора (sampling) при его
создании и репрезентативностью как коне?ным результатом этого процесса.
Здесь они выступают в диалекти?еском единстве.
Действительно, отбор текстов в корпус производится по ясно описанным и
?етко выполненным критериям. Эти критерии и следующие этим критериям
процедуры отбора и конструирования (или проектирования) корпуса - так
называемые design criteria - должны отразить в составе текстов корпуса то,
ради ?его этот корпус создавался. В нашем примере ставший уже класси?еским
Брауновский корпус текстов (далее - БК) создавался для того, ?тобы отразить
специфи?еские особенности пе?атной прозы США 60-х годов ХХ века. Этот
специальный набор признаков и процедур, использующихся для создания корпуса
текстов с целью отражения определенной лингвисти?еской реалии, описывается
парой взаимосвязанных признаков - отбором и репрезентативностью. Корпус для
того, ?тобы с?итаться корпусом, а не архивом или библиотекой, должен быть
особым образом построен (отобран) и отве?ать критерию репрезентативности,
который по своей сути является знаковым. Однако, здесь важно, ?то, как уже
было сказано выше, репрезентативность - это и есть то свойство, которое
делает корпус корпусом, отли?ает его от более аморфных образований,
расположенных также на машинном носителе - например электронного архива или
библиотеки. Репрезентативность (representativeness) - это название того
набора принципов или требований, на основе которых был организован или
составлен корпус.
Однако практика составления и использования корпусов текстов (далее КТ)
дает основания утверждать, ?то существет много жанров КТ, построенных по
несколько другому принципу. Эти принципы основаны на том, ?то из доступного
составителям множества текстов составляется КТ, отве?ающий какой-либо
специфи?еской потребности его составителя (отладка системы машинного
перевода, обу?ение иностранному языку и т. п.). Такие КТ можно назвать
специальными. О?евидно, ?то использоваться они должны, как правило, в тех
целях, для которых они спроектированы. Вообще говоря, нельзя быть уверенным
в надежности лингвисти?еского исследования многообразия лекси?еского
состава какого-либо языка, если материалом для него послужил специальный
корпус. Специальный корпус не всегда может быть объективным отражением
внешней по отношению к нему ре?евой деятельности, так как он предназна?ен
для использования его только для тех целей, для которых он был
спроектирован.
В этой связи виновата власть?

Влияние политики на язык как предмет статисти?еского анализа
А. Д. Смолянский
Информационное агентство Integrum World Wide, Москва
alsmol@mail.ru
Интернет, русский язык, лексика, статисти?еский анализ, социолингвистика
Summary. The author discusses how computer technology introduce new ways
of philological research. Among other examples the paper shows several
sociolinguistic implications of this IT approach. One of them regards how
current Russian politics affects Russian language.Using statistical
analysis of more than 200 Moscow newspapers, 900 Russian regional
newspapers, arhives of 450 information agencies, more than 250 magazines
and 300 mass-media titles of the former USSR, the author shows a picture
(tables and graphics) of how Russian-Ukranian relations affect usage of the
prepositions v and na with the toponim Ukraina in the last 8 years. The
difference of the usage of these prepositions in different types of media
shows the degree of their political affiliation with Russian government. Of
special interest are the results relevant to Crimea newspapers. The
comparison of the Ukraina results with those of Tallinn/Tallin shows how
two types of integration policy of Russian minorities respectively in the
Ukraine and in Estonia affects their usage of Russian language. Another
example is statistical approach to jazykovaja norma illustrated by two
prepositions 'v etoj svjazi' and 'v svjazi s etim'.


В докладе обсуждается использование компьютерных технологий для работы
филологов. На основе анализа более 20 000 произведений художественной
литературы, архивов более 200 московских и 900 региональных газет, газет,
450 информационных агентств, 250 журналов и 300 русскоязы?ных зарубежных
газет и журналов обсуждаются результаты нескольких статисти?еских
исследований. В ка?естве иллюстраций обсуждаются:
1. Поиск рифмы в поэти?еских текстах, например статистика использования
банальных рифм поэтами XIX века.
2. Сдвиг языковой нормы или вариативность? 'В этой связи' и 'В связи с
этим'. Графики показывают, как принадлежащие государству СМИ
последовательно навязывают употребление предлога 'в этой связи', создавая
новую языковую норму, при этом ?астота употребления предлога 'в связи с
этим' в других СМИ обратно пропорциональна возможности влияния на них
государства.
3. На примере в Украине / на Украине и Таллинн / Таллин показано, как на
словоупотребление влияют особенности отношений России и Украины, центр /
провинция в России, Россия / государства СНГ а также разли?ия в
интеграционной политике государств СНГ.

Новый подход к сжатию корпусов и словарных данных
Д. В. Хмелев
Московский государственный университет им. М. В. Ломоносова
dima@vvv.srcc.msu.su
корпусная лингвистика, сжатие, словари, BWT
Summary. When dealing with text documents in the corpora we often do not
need to keep track of their order, since all the necessary information is
already present in the contents of each document (e. g. source and the date
for an article in newspaper corpora, another example is a dictionary, which
can be kept unordered). This paper suggests a new approach for compressing
text collections, which takes advantage of the fact that the texts can be
kept in any order.
1. Введение
При хранении сборников текстовых документов за?астую не важен порядок их
хранения, поскольку вся необходимая информация обы?но содержится внутри
самих документов. Например, в газетном корпусе каждая статья уже содержит
исто?ник и дату публикации. Другой пример: орфографи?еские и про?ие
словари, хранение которых допускает любой порядок словарных статей.
В настоящем докладе предложен новый метод сжатия текстовых сборников
указанного типа, основанный на некоторой модификации преобразования
Барроуза-Уилера (BWT). В связи с тем, ?то метод опускает информацию о
порядке документов, повышается эффективность сжатия текстовых коллекций по
сравнению с традиционными методами. Мы приведем описание метода и
проиллюстрируем его применение на примерах сжатия орфографи?еского словаря
и ?асти словаря Ожегова. Тем не менее, целевая область применения метода -
именно сжатие корпусов текстов.
2. Алгоритм сжатия
Пусть текст T[1.. N] состоит из n текстов T1, ., Tn, разделенных
вспомогательными символами $1, ., $n: T[1.. N] = T1$1?Tn$n. Символы $1, .,
$n лексикографи?ески предшествуют алфавиту A текстов T1, ., Tn. На символах
алфавита A и разделителях $1, ., $n определим какой-нибудь
лексикографи?еский порядок, обозна?аемый в дальнейшем <. Порядок <
индуцирует лексикографи?еский порядок на строках. Обозна?им ?ерез SiT
цикли?еский сдвиг текста T на i символов влево: SiT = T[i+1.. N]T[1.. i].
Обозна?им ?ерез s перестановку ?исел 1, ., N, удовлетворяющую условию
Ss(j)T < Ss(j+1)T при 1 ? j < N. Определим расширенное преобразование
B[1.. N] Барроуза-Уилера (DK) текста T по следующему правилу:
B[j] = (Ss(j)T)[N], если (Ss(j)T)[N] ? $1, ?, $n и
B[j] = $, если (Ss(j)T)[N] = $k, при некотором k = 1, ?, n,
где $ - дополнительный разделитель, лексикографи?ес-

ки предшествующий всем буквам текстов T1, ., Tn, и

j = 1, ., N.
Текст B легко подвергнуть сжатию без потерь с помощью известных методов
(01BFA, ARI, RLE, DC и т. п., см. [1]).
Теорема. По тексту B можно восстановить исходные тексты T1, ., Tn,
возможно и в другом порядке.
3. Результаты экспериментов
Приведем результаты сжатия орфографи?еского словаря А. Лебедева из 100183
слов, возглавляющих словоизменительную парадигму (словарь составлен на
основе словаря А. Зализняка). Таким образом имелось 100183 слов T1, .,
T100183, разделенных символом возврата каретки. Порядок на разделителях $1,
., $100183 задавался по правилу $i < $j если Ti < Tj. Выход преобразования
B можно сжимать разными методами. В настоящей работе использовались методы
ASH и 01BFA (Е. Шелвин). Данные об объемах в байтах: словарь целиком
1083491 (100%), DK + 01BFA 151616 (14%), DK + ASH 154210 (14,2%); RAR
321528 (29,7%), BZIP2 350139 (32,3%), GZIP 324980 (30%). Под DK
подразумевается изложенный метод.
Второй пример - сжатие ?асти словаря С. И. Ожегова. Общий объем ?асти
словаря Ожегова (5197 слов на буквы А, Б и В) в байтах составляет 941523
(100%). Результаты сжатия таковы: DK + 01BFA 242336 (25,7%), DK + ASH
254419 (27,0), RAR 301988 (32,1%), BZIP2 265414 (28,2%), GZIP 349688
(37,1%).
Коне?но, использование специализированных методов сжатия словарей может
показать лу?шие результаты. Тем не менее, полу?енные данные демонстрируют
большой потенциал предложенного подхода.
4. Благодарности
Автор признателен Е. Шелвину за обсуждения и предоставленные программы
сжатия BWT-выхода. Автор также признателен А. А. Поликарпову за
предоставленный словарный материал.

Литература
1. Ватолин Д., Ратушняк А., Смирнов М., В. Юкин. Методы сжатия данных. М.,
2002.