Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://lcl.srcc.msu.ru/seminar.files/shaikevich_seminar.htm
Дата изменения: Wed Apr 24 15:30:41 2013 Дата индексирования: Thu Feb 27 20:20:26 2014 Кодировка: |
ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ ЛЕКСИКОГРАФИЧЕСКИХ СИСТЕМ |
|
English |
|
Архив семинара «Когнитивные аспекты лексикографии» |
||||||||
---|---|---|---|---|---|---|---|---|---|
30.03.10
А. Я. Шайкевич, Текстуальные связи слов в языке газеты: результаты и трудности Формальная статистическая процедура применяется к корпусу «Независимой Газеты» (1990-е гг.). Исследуемый корпус (35 млн словоупотреблений) автоматически разбивается на фрагменты равной длины (40 слов). Зная частоту слов в корпусе можно подсчитать математическое ожидание числа фрагментов, в которых встретилась произвольная пара слов (в предположении их взаимонезависимости). Сравнение реального числа подобных фрагментов с математическим ожиданием позволяет оценить степень статистической неслучайности для всех пар слов корпуса. В результате получаем грандиозную сеть текстуально связанных пар слов. Построенная (семантическая?) сеть варьируется в зависимости от тематики газетных материалов.
|