|
Веб-страница спецкурса на сайте ИСП РАН.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.
Тематический план курса
Введение
Регулярные выражения и конечные автоматы
N-граммы и определение частей речи слов
Скрытые марковские модели
Контекстно-свободные грамматики и синтаксический анализ
Статистические методы синтаксического анализа
Лексическая семантика
Вопросно-ответные системы и автоматическое реферирование
Машинный перевод
Литература
Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.
Christopher D. Manning and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.
Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python. O'Reilly Media, 2009 (http://www.nltk.org/book)
|