Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.fds-net.ru/showflat.php?Number=10880804&src=arc&showlite=
Дата изменения: Unknown
Дата индексирования: Wed Apr 13 12:45:39 2016
Кодировка: Windows-1251
Статистики, помогайте!!! - Public forum of MSU united student networks
Root | Google | Yandex | Mail.ru | Kommersant | Afisha | LAN Support
  
General Discussion >> Study (Archive)

Страницы: 1
EF
enthusiast

Рег.: 19.06.2004
Сообщений: 385
Рейтинг: 199
  Статистики, помогайте!!!
      22.04.2012 20:53
-3

Учавствую в статистическом соревновании по автоматической оценке сочинений (http://www.kaggle.com/c/asap-aes). Efimov-Berengueres - это наша команда, мы сейчас на четвертом месте. Буду очень признателен любому совету, как предсказать оценку сочинения. Нужен свежий взгляд на проблему.
Дано: тренировочный набор сочинений на заданную тему с уже известными оценками.
Надо: предсказать оценки для тестового набора.

Задача состоит из двух частей:
1) Понять, какие характеристики сочинений использовать для предсказания.
2) Какие статистические методы использовать для классификации и регрессии.


unkulunkulu
unkulunkulunkulu

Рег.: 12.11.2006
Сообщений: 18453
Из: 13000
Рейтинг: 11759
  Re: Статистики, помогайте!!! [re: EF]
      22.04.2012 23:36
-3

а тупо там орфографию проверяете? очевидно, конечно, но просто интересно, что вы делаете :)

Fiona2

Рег.: 22.09.2004
Сообщений: 2945
Рейтинг: 3248
  Re: Статистики, помогайте!!! [re: EF]
      23.04.2012 01:02
-3

Если речь об американских сочинениях, используй средний IDF / средний IDF верхнего процентиля / ... Американцы считают плюсом, когда в сочинении много умных слов. Разумеется, надо выкидывать слишком высокие IDF, т.к. они могут свидетельствовать об ошибках (впрочем, decision trees могут и сами обнаружить такую немонотонность). Можно также посмотреть процент слов с греческими и латинскими корнями, распределение слов по длине.

Если речь о французских сочинениях (твой Берангер это должен знать лучше меня), то они должны быть четко структурированы: введение, тезис, антитезис, синтез. Можно рассмотреть согласованность оборотов: если ученик пишет "во-первых", а затем - "а также", или сначала "с одной стороны", а потом - "с другой точки зрения", ему могут снизить балл.

EF
enthusiast

Рег.: 19.06.2004
Сообщений: 385
Рейтинг: 199
  Re: Статистики, помогайте!!! [re: unkulunkulu]
      23.04.2012 11:21
-3

да, ищем количество слов из словаря, но корреляция не слишком большая между оценкой и количеством опечаток

EF
enthusiast

Рег.: 19.06.2004
Сообщений: 385
Рейтинг: 199
  Re: Статистики, помогайте!!! [re: Fiona2]
      23.04.2012 11:32
-3

сочинения очень низкого уровня, скорее всего, школьные, поэтому корреляция между средним idf или средней длиной слов очень низкая... даже если посчитать просто сумму всех idf для каждого сочинения, то корреляция будет ниже, чем просто между длиной сочинения и оценкой

одна из проблем в том, что есть два проверяльщика, которые ставят оценки независимо, а результат суммируется, при этом, корреляция между оценками проверяльщиков 0.75, т.е. тоже не очень высокая... насколько я понимаю это вносит случайность в оценку.... я сейчас не пойму, можно ли как-то это случайность использовать для предсказания?

FrauSoboleva
Don't Quixote

Рег.: 20.11.2004
Сообщений: 28501
Рейтинг: 9798
  Re: Статистики, помогайте!!! [re: EF]
      23.04.2012 11:54
-3

От того, что результат получен двумя проверяльщиками и усреднен меняется только одно, дисперсия оценки уменьшается. В остальном можно смотреть на эти полусуммы как на элементы некой выборки.
Вообще не видя данных и специфики их, говорить, что делать - дело дохлое. Наверное, стоит начать с эллипсоида рассеивания и определить, какие из имеющихся параметров значимы.



How much wood would woodchuck chuck, if a woodchuck could chuck wood
EF
enthusiast

Рег.: 19.06.2004
Сообщений: 385
Рейтинг: 199
  Re: Статистики, помогайте!!! [re: FrauSoboleva]
      23.04.2012 12:06
-3

он не усреднен, а именно суммируется
эллипсоид рассеивания может помочь определить особые точки, а каким образом он может помочь определить важность параметров? скорее всего, может помочь метод главных компонент, но он не помогает, потому что в основном все параметры очень сильно корреллируют друг с другом, поэтому метод главных компонент дает первую компоненту с очень высокой корреляцией, а остальные с низкой...

FrauSoboleva
Don't Quixote

Рег.: 20.11.2004
Сообщений: 28501
Рейтинг: 9798
  Re: Статистики, помогайте!!! [re: EF]
      23.04.2012 13:31
-3


 
В ответ на:

эллипсоид рассеивания может помочь определить особые точки, а каким образом он может помочь определить важность параметров? скорее всего, может помочь метод главных компонент



 :confused:
А главные компоненты это, по-вашему, что такое? Может стоит начать с того, что разобраться кто есть кто?
 
В ответ на:

потому что в основном все параметры очень сильно корреллируют друг с другом, поэтому метод главных компонент дает первую компоненту с очень высокой корреляцией, а остальные с низкой...



Есть такое понятие исключенных корреляций.



How much wood would woodchuck chuck, if a woodchuck could chuck wood
EF
enthusiast

Рег.: 19.06.2004
Сообщений: 385
Рейтинг: 199
  Re: Статистики, помогайте!!! [re: FrauSoboleva]
      23.04.2012 13:54
-3

ну вроде в английской литературе такого термина как эллипсоид рассеивания я не встречал, поэтому для меня это разные вещи :)

а что такое исключенные корреляции? где про это можно почитать? я правильно понимаю, что это когда в методе главных компонент выбирается первая компонента, а на основе неиспользованных параметров снова строятся главные компоненты, или это что-то другое?

FrauSoboleva
Don't Quixote

Рег.: 20.11.2004
Сообщений: 28501
Рейтинг: 9798
  Re: Статистики, помогайте!!! [re: EF]
      23.04.2012 14:23
-3

То же, что и частные корреляции:
 Вики
Возможно, кстати, стоит пользоваться ранговыми корреляциями, если выборки не очень-то нормальны



How much wood would woodchuck chuck, if a woodchuck could chuck wood
Страницы: 1

General Discussion >> Study (Archive)

Дополнительная информация
0 зарегистрированных и 1 анонимных пользователей просматривают этот форум.

Модераторы:  Basilio, The_Nameless_One 

Печать темы

Права
      Вы можете создавать новые темы
      Вы можете отвечать на сообщения
      HTML отключен
      UBBCode включен

Рейтинг:
Просмотров темы:

Переход в