|
В связи с ростом Веба и объемов информации, которую приходится воспринимать человеку, особую актуальность приобрели системы автоматической обработки и анализа текстов. При создании такой системы разработчик сталкивается с проблемами из области компьютерной лингвистики. И, хотя, активные разработки в этой области ведутся уже более 50 лет, некоторые задачи все еще остаются нерешенными. Одна из таких задач разрешение лексической многозначности.
Разрешение лексической многозначности (word sense disambiguation) это задача установления значений многозначных слов или фраз. Эта задача возникла в 50-х годах прошлого века в качестве подзадачи машинного перевода. С тех пор исследователи предложили огромное количество методов решения этой задачи, однако она и сейчас остается актуальной.
В докладе рассматривается задача разрешения многозначности именных фраз, на основе сетей документов. Дается обзор существующих методов устранения лексической многозначности и основных проблем, возникающих при их создании. Предлагается три собственных метода, использующих структурную и текстовую информацию Википедии, для создания словаря и определения отношений между значениями:
метод, использующий однозначный контекст,
метод, основанный на скрытой модели Маркова и
метод, основанный на обобщении Марковской модели на случай множества независимых Марковских цепей.
|