Комбинирование признаков для автоматического извлечения терминов
Лукашевич Н.В.
Одним из актуальных направлений в области автоматической обработки текстов и информационного поиска являются исследования, посвященные методам автоматического извлечения терминов из текстов предметной области.
Особую сложность представляет собой автоматическое извлечение многословных терминов - терминологических словосочетаний.
В докладе рассматривается эксперимент по извлечению двухсловных терминологических словосочетаний на основе комбинирования различных признаков этих словосочетаний. Признаки вычисляются на основе трех источников: статистики текстовой коллекции предметной области, выдачи глобальных поисковых машин и тезауруса предметной области.
Для оценки качества извлечения терминов используются терминологические словосочетания из Онтологии по естественным наукам и технологиям ОЕНТ. Показано, что использование совокупности признаков словосочетаний значительно улучшает качество извлечения терминов.
|