EF
|
enthusiast
|
|
|
|
Рег.: 19.06.2004
|
Сообщений: 385
|
|
Рейтинг: 199
|
|
Статистики, помогайте!!!
22.04.2012 20:53
|
|
|
Учавствую в статистическом соревновании по автоматической оценке сочинений (http://www.kaggle.com/c/asap-aes). Efimov-Berengueres - это наша команда, мы сейчас на четвертом месте. Буду очень признателен любому совету, как предсказать оценку сочинения. Нужен свежий взгляд на проблему. Дано: тренировочный набор сочинений на заданную тему с уже известными оценками. Надо: предсказать оценки для тестового набора.
Задача состоит из двух частей: 1) Понять, какие характеристики сочинений использовать для предсказания. 2) Какие статистические методы использовать для классификации и регрессии.
|
|
unkulunkulu
|
unkulunkulunkulu
|
|
|
|
Рег.: 12.11.2006
|
Сообщений: 18453
|
Из: 13000
|
Рейтинг: 11759
|
|
Re: Статистики, помогайте!!!
[re: EF]
22.04.2012 23:36
|
|
|
а тупо там орфографию проверяете? очевидно, конечно, но просто интересно, что вы делаете 
|
|
Fiona2
|
|
|
|
|
Рег.: 22.09.2004
|
Сообщений: 2945
|
|
Рейтинг: 3248
|
|
Re: Статистики, помогайте!!!
[re: EF]
23.04.2012 01:02
|
|
|
Если речь об американских сочинениях, используй средний IDF / средний IDF верхнего процентиля / ... Американцы считают плюсом, когда в сочинении много умных слов. Разумеется, надо выкидывать слишком высокие IDF, т.к. они могут свидетельствовать об ошибках (впрочем, decision trees могут и сами обнаружить такую немонотонность). Можно также посмотреть процент слов с греческими и латинскими корнями, распределение слов по длине.
Если речь о французских сочинениях (твой Берангер это должен знать лучше меня), то они должны быть четко структурированы: введение, тезис, антитезис, синтез. Можно рассмотреть согласованность оборотов: если ученик пишет "во-первых", а затем - "а также", или сначала "с одной стороны", а потом - "с другой точки зрения", ему могут снизить балл.
|
|
EF
|
enthusiast
|
|
|
|
Рег.: 19.06.2004
|
Сообщений: 385
|
|
Рейтинг: 199
|
|
|
да, ищем количество слов из словаря, но корреляция не слишком большая между оценкой и количеством опечаток
|
|
EF
|
enthusiast
|
|
|
|
Рег.: 19.06.2004
|
Сообщений: 385
|
|
Рейтинг: 199
|
|
Re: Статистики, помогайте!!!
[re: Fiona2]
23.04.2012 11:32
|
|
|
сочинения очень низкого уровня, скорее всего, школьные, поэтому корреляция между средним idf или средней длиной слов очень низкая... даже если посчитать просто сумму всех idf для каждого сочинения, то корреляция будет ниже, чем просто между длиной сочинения и оценкой
одна из проблем в том, что есть два проверяльщика, которые ставят оценки независимо, а результат суммируется, при этом, корреляция между оценками проверяльщиков 0.75, т.е. тоже не очень высокая... насколько я понимаю это вносит случайность в оценку.... я сейчас не пойму, можно ли как-то это случайность использовать для предсказания?
|
|
FrauSoboleva
|
Don't Quixote
|
|
|
|
Рег.: 20.11.2004
|
Сообщений: 28501
|
|
Рейтинг: 9798
|
|
Re: Статистики, помогайте!!!
[re: EF]
23.04.2012 11:54
|
|
|
От того, что результат получен двумя проверяльщиками и усреднен меняется только одно, дисперсия оценки уменьшается. В остальном можно смотреть на эти полусуммы как на элементы некой выборки. Вообще не видя данных и специфики их, говорить, что делать - дело дохлое. Наверное, стоит начать с эллипсоида рассеивания и определить, какие из имеющихся параметров значимы.
|
How much wood would woodchuck chuck, if a woodchuck could chuck wood |
|
EF
|
enthusiast
|
|
|
|
Рег.: 19.06.2004
|
Сообщений: 385
|
|
Рейтинг: 199
|
|
|
он не усреднен, а именно суммируется эллипсоид рассеивания может помочь определить особые точки, а каким образом он может помочь определить важность параметров? скорее всего, может помочь метод главных компонент, но он не помогает, потому что в основном все параметры очень сильно корреллируют друг с другом, поэтому метод главных компонент дает первую компоненту с очень высокой корреляцией, а остальные с низкой...
|
|
FrauSoboleva
|
Don't Quixote
|
|
|
|
Рег.: 20.11.2004
|
Сообщений: 28501
|
|
Рейтинг: 9798
|
|
Re: Статистики, помогайте!!!
[re: EF]
23.04.2012 13:31
|
|
|
В ответ на:
эллипсоид рассеивания может помочь определить особые точки, а каким образом он может помочь определить важность параметров? скорее всего, может помочь метод главных компонент
А главные компоненты это, по-вашему, что такое? Может стоит начать с того, что разобраться кто есть кто? В ответ на:
потому что в основном все параметры очень сильно корреллируют друг с другом, поэтому метод главных компонент дает первую компоненту с очень высокой корреляцией, а остальные с низкой...
Есть такое понятие исключенных корреляций.
|
How much wood would woodchuck chuck, if a woodchuck could chuck wood |
|
EF
|
enthusiast
|
|
|
|
Рег.: 19.06.2004
|
Сообщений: 385
|
|
Рейтинг: 199
|
|
|
ну вроде в английской литературе такого термина как эллипсоид рассеивания я не встречал, поэтому для меня это разные вещи 
а что такое исключенные корреляции? где про это можно почитать? я правильно понимаю, что это когда в методе главных компонент выбирается первая компонента, а на основе неиспользованных параметров снова строятся главные компоненты, или это что-то другое?
|
|
FrauSoboleva
|
Don't Quixote
|
|
|
|
Рег.: 20.11.2004
|
Сообщений: 28501
|
|
Рейтинг: 9798
|
|
Re: Статистики, помогайте!!!
[re: EF]
23.04.2012 14:23
|
|
|
То же, что и частные корреляции: Вики Возможно, кстати, стоит пользоваться ранговыми корреляциями, если выборки не очень-то нормальны
|
How much wood would woodchuck chuck, if a woodchuck could chuck wood |
|