Александр Лебедев. Ненаучные интересы

Документ взят из кэша поисковой машины. Адрес оригинального документа : http://scon155.phys.msu.ru/~swan/index.html
Дата изменения: Mon Oct 26 17:58:29 2009
Дата индексирования: Mon Oct 1 19:33:19 2012
Кодировка: koi8-r

Настоящая страница является продолжением моей официальной страницы и описывает некоторую деятельность, которой я занимаюсь в свободное время.

Орфографический словарь русского языка для ispell, ориентированный прежде всего на пользователей Unix. Объем словаря -- 137.2 тысячи слов и более 1.354 миллиона словоформ (версия 0.99g4). Входит во многие дистрибутивы Unix и Linux (Debian, FreeBSD) и используется в системе OpenOffice. Может использоваться также в операционных системах DOS и Windows. Словарь строится на основе полного морфологического словаря, который свободно не распространяется. Обновляется примерно раз в месяц.
Таблицы переносов для TeX'а. Включены во все современные дистрибутивы TeX'а (в составе пакета ruhyphen). Словарная база строится на основе упомянутого выше орфографического словаря с помощью программы patgen. Последняя версия выпущена 10 марта 2003 года.
Коллекция кириллических шрифтов в формате Type1 для TeX'а. Может использоваться также для набора текстов на болгарском, украинском и белорусском языках. Мои изменения в коллекции описаны в докладе на конференции CyrTUG-2000. Текущая версия -- 0.4c, более продвинутая версия 0.4d находится в стадии бета-тестирования. В версии 0.4d наряду с другими добавлениями появилась возможность набора текстов в дореформенной орфографии (с буквами ять, фита, ижица) в TeX'овской кодировке T2D (три семейства шрифтов) и возможность поиска русских слов в файлах pdf с помощью программы Acrobat.
Поиск информации в интернет. На основе упоминавшегося выше полного морфологического словаря русского языка и модифицированной программы HTDig разработана поисковая система для поиска информации в интранет, которая некоторое время использовалась на химическом факультете МГУ. Система обеспечивает релевантный поиск по ключевым словам с учетом морфологии (словообразования) в русском языке, то есть проводит поиск всех возможных словоформ, образующихся при склонении и спряжении заданных слов. Для расчета релевантности в системе реализована векторная tf.idf модель с учетом длины документа и расстояния между словами. При обсуждении полноты поиска поисковыми системами может быть также полезна моя статья шестилетней давности по поиску научной информации в интернет.
База данных публикаций по XAFS-спектроскопии с поисковой системой. Содержит более 9400 ссылок. Копия базы данных стоит на сервере International XAFS Society.
Книга World Wide Web -- всемирная информационная паутина в сети Интернет (второе издание, март 1997 года). Имеется электронная версия книги.

Контакты:

E-mail: