Заседание научно-исследовательского семинара. 25 июня 2008 г.

Документ взят из кэша поисковой машины. Адрес оригинального документа : http://sp.cs.msu.ru/seminar/2008/0618.html
Дата изменения: Wed Feb 11 22:28:56 2015
Дата индексирования: Sat Apr 9 23:58:20 2016
Кодировка: Windows-1251

Главная страница « Научно-исследовательский семинар «

Заседание научно-исследовательского семинара. 25 июня 2008 г.

Заседание пройдет в 10.45 в ауд. 763.

Доклад: «Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов»
Докладчица: Глазкова Валентина Владимировна, аспирантка кафедры АСВК факультета ВМК МГУ.

Предыдущее заседание « | 25.6.2008 | » Следующее заседание

Работа посвящена исследованию и разработке алгоритмов и методов построения программных средств классификации многотемных (multi-label) гипертекстовых документов на основе методов машинного обучения. Задача классификации многотемных документов (multi-label классификации) заключается в определении принадлежности документа к одному или нескольким классам (из предопределенного набора классов) на основании анализа совокупности признаков, характеризующих данный документ. Рассматриваемая задача актуальна и имеет важное значение во многих прикладных проблемах, таких как: анализ и фильтрация Интернет-трафика; информационная безопасность; анализ и рубрикация электронных документов; фильтрация Интернет-спама; тематический поиск и других. На сегодняшний день актуальным является применение методов машинного обучения при решении задачи классификации в перечисленных прикладных проблемах, ввиду способности этих методов адаптироваться к динамике изменения содержимого документов.

Для решения поставленной задачи разработан новый метод многотемной (multi-label) классификации на основе попарных сравнений с отсечением нерелевантных классов при помощи пороговой функции. Разработанный метод имеет возможность дообучения и возможность динамического удаления и добавления классов с новыми обучающими примерами. Разработана модель представления гипертекстовых данных, включающая метод учета гиперссылок на основе анализа самой структуры адресов документов и метод представления на основе выделения частых эпизодов базовых признаков. Экспериментально апробирован метод построения модуля классификации многотемных гипертекстовых документов, основанного на использовании разработанной дообучаемой модели классификации.

Приглашаются аспиранты и стажеры программистских кафедр.

Обновлено: 18.6.2008