Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://scon155.phys.msu.ru/~swan/index.html
Дата изменения: Mon Oct 26 17:58:29 2009
Дата индексирования: Mon Oct 1 19:33:19 2012
Кодировка: koi8-r
Александр Лебедев. Ненаучные интересы
Настоящая страница является продолжением моей
официальной
страницы и описывает некоторую деятельность, которой я занимаюсь
в свободное время.
Орфографический словарь русского языка
для ispell, ориентированный прежде всего на пользователей Unix.
Объем словаря -- 137.2 тысячи слов и более 1.354 миллиона словоформ (версия
0.99g4). Входит во многие дистрибутивы Unix и Linux (Debian, FreeBSD) и
используется в системе OpenOffice. Может использоваться также в операционных
системах DOS и Windows. Словарь строится на основе полного морфологического
словаря, который свободно не распространяется. Обновляется примерно раз в
месяц.
Таблицы переносов для TeX'а.
Включены во все современные дистрибутивы TeX'а (в составе пакета ruhyphen).
Словарная база строится на основе упомянутого выше орфографического словаря
с помощью программы patgen. Последняя версия выпущена 10 марта 2003 года.
Коллекция
кириллических шрифтов в формате Type1 для TeX'а. Может использоваться
также для набора текстов на болгарском, украинском и белорусском языках. Мои
изменения в коллекции описаны в докладе на
конференции CyrTUG-2000. Текущая версия -- 0.4c, более продвинутая
версия 0.4d находится в стадии бета-тестирования. В версии 0.4d наряду с
другими добавлениями появилась возможность набора текстов в дореформенной
орфографии (с буквами ять, фита, ижица) в TeX'овской кодировке T2D (три
семейства шрифтов) и возможность поиска русских слов в файлах pdf с помощью
программы Acrobat.
Поиск информации в интернет. На основе упоминавшегося выше
полного морфологического словаря русского языка и модифицированной программы
HTDig разработана поисковая система для поиска информации в интранет,
которая некоторое время использовалась на химическом факультете МГУ.
Система обеспечивает релевантный поиск по ключевым словам с учетом морфологии
(словообразования) в русском языке, то есть проводит поиск всех возможных
словоформ, образующихся при склонении и спряжении заданных слов. Для
расчета релевантности в системе реализована векторная tf.idf модель с учетом
длины документа и расстояния между словами.
При обсуждении полноты поиска поисковыми системами может быть также полезна
моя статья шестилетней давности по поиску
научной информации в интернет.