Об авторе, о сайте, о машинном переводе и информатике
Леонтьева Нина Николаевна ? доктор техн. наук (информатика) и канд. филол. наук (прикладная лингвистика), профессор, ведущий научный сотрудник и член Ученого совета НИВЦ МГУ. Сведения об авторе и научная биография с перечнем основных работ имеются на сайте Википедии.
От автора. Сайт начат, вместо бумажной публикации, как своего рода отчет о многолетней работе в новой прикладной науке. Большинство публикаций автора (кроме самых конкретных решений для конкретных систем) можно отнести скорее к жанру предложений модели, ставящей ?общие вопросы?. КАК может выглядеть вся Система автоматического понимания текста (АПТ) только вербального типа, пока без компонента ?Действительность?? Как добавить к содержанию текста хотя бы те профессиональные Знания, которые уже имеются в базах данных? Как ввести естественную, не числовую, оценку того, что уже понято на разных уровнях анализа? И мн.др. Эти вопросы не принято обсуждать в лингвистическом сообществе. Я хочу адресовать их более широкой аудитории.
Состав сайта. Включенные статьи автора могут быть интересны разным специалистам в области процессов понимания естественных текстов (АПТ). Ранние статьи (1960-1990), (см. меню сайта) имеют скорее историческую ценность, а Статьи с 1991 г. ? материалы для обсуждения развиваемого автором подхода к проблеме АПТ, оставляющего много вопросов.
Недавно прошли два важных юбилея: 50-лет известной в свое время первой Лаборатории машинного перевода в МГПИИЯ и 100-летие ее основателя В.Ю. Розенцвейга. В 1958 году в ЛМП началась увлекательная работа в области машинного перевода и прикладной лингвистики (МП и ПЛ). Первые публикации сотрудников ЛМП остались в ветхих изданиях, с трудом поддающихся оцифровке. Но запросы в Интернет свидетельствуют о том, что интерес к этим первым работам остался, а история начала науки всегда заслуживает внимания, даже и в субъективной подаче. Раздел сайта К истории ЛМП содержит краткую аттестацию ЛМП и ссылки на немногие тексты, посвященные названным юбилеям. Этот раздел желательно пополнять статьями и воспоминаниями других авторов.
Многие из поставленных еще в ЛМП проблем послужили основой детальных и глубоких проработок (см. многочисленные публикации по теории и модели ?Смысл-Текст? (МСТ), а также описания систем МП, основанных на этой модели), но часть важных идей осталась вне поля зрения лингвистов. Создавая систему ФРАП, мы начали с серьезного лингвистического анализа в духе МСТ. Оказалось, что создавать общественно полезные системы класса АПТ невозможно, если не предложены: а) способ привлечения ?внешних? знаний к процессу анализа текста и б) способ адаптации лингвистического процессора к разным предметным областям. Добавление их привело к другой, информационно-лингвистической модели (ИЛМ), работающей по необходимости с Целым текстом. ?Текст? намного сложней и богаче, чем структуры, поступающие на вход синтаксического анализатора. А понятие ?Смысл? в рамках ИЛМ интерпретируется НЕ как единственное семантическое представление (СемП), даже если оно и безупречное, а как значение функции, которая строится каждый раз по-разному, в зависимости от знаний и запросов пользователя.
ИЛМ близка к системам ?извлечения знаний?, но отказывается от ?жесткой? настройки на ситуацию. Метод ИЛМ учитывает ?лингвистику текста?, моделируя ?мягкое?, близкое к естественному, понимание, сопровождающееся сжатием содержания текста. Процесс сжатия опирается на структуры, содержащие в явном виде локальную неполноту. Семантический анализ в ИЛМ отходит и от методов, принятых в МСТ как ?столбовой дороге? современной лингвистики: уже первичное ?семантическое пространство? должно адаптироваться к темам, задаваемым пользователями, которые ищут в массивах не слишком точную, но важную для них информацию.
Проверка такого метода АПТ требует экспериментов, для которых еще не готова почва. Информатика и Лингвистика ? самые актуальные сейчас области знаний, именно на их стыке ожидается ?прорыв? в технологическом и идейном плане. Знакомство с исследовательской моделью АПТ (полной вербальной, хоть и наивной подчас) полезно тем молодым ученым, разработчикам МП, ИПС и других систем, кому суждено доводить проекты до реализации. В разделе Комментарии читатели (включая психологов) могут оставлять отклики, замечания и вопросы; там же можно найти авторские разъяснения.
Статьи, постепенно пополняющие сайт, будут выделяться цветом в Библиографии. Небольшая часть статей дана по-английски. Статьи приводятся в полной версии, как они были опубликованы, если не оговорен иной вид (сжатое изложение, только аннотация); постраничные сноски выносятся в конец статей или, редко, втягиваются в текст; допускается исправление опечаток и ошибок, в т.ч. сканирования и форматирования. В конце статьи указан год публикации и, по возможности, библ. описание источника. Там же могут появляться комментарии автора, привязанные именно к данной статье.