gasanych
|
|
|
|
|
Рег.: 07.12.2006
|
Сообщений: 1244
|
Из: Москва
|
Рейтинг: 225
|
|
вопрос про алгоритм для определения начальной формы слова
05.05.2008 11:11
|
|
|
кто-нибудь про такой слышал? т.е. ему на входе дается существительное (может еще прилагательное) и алгоритм выдает начальную форму слова (т.е. в именительном падеже).
|
|
Bachan
|
god's pee
|
|
|
|
Рег.: 26.10.2002
|
Сообщений: 37551
|
|
Рейтинг: 5335
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: gasanych]
05.05.2008 11:15
|
|
|
|
botWi
|
|
|
|
|
Рег.: 22.11.2003
|
Сообщений: 10160
|
Из: Moscow
|
Рейтинг: 1764
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: gasanych]
05.05.2008 11:15
|
|
|
ну есть же алгоритмы по вычленению корня слова а потом можно будет просто найти в списке всех слов в именит. падеже слово с таким же корнем
по вычленению корня один из самых известных алгоритм Портера тут про это почитай: http://en.wikipedia.org/wiki/Stemming
|
Хватит дрочить на рейтинги |
|
gasanych
|
|
|
|
|
Рег.: 07.12.2006
|
Сообщений: 1244
|
Из: Москва
|
Рейтинг: 225
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: botWi]
05.05.2008 11:16
|
|
|
|
gasanych
|
|
|
|
|
Рег.: 07.12.2006
|
Сообщений: 1244
|
Из: Москва
|
Рейтинг: 225
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: Bachan]
05.05.2008 11:23
|
|
|
это кажется больше подходит, потому что интересен именно русский язык.
|
|
mmCleric
|
|
|
|
|
Рег.: 19.09.2004
|
Сообщений: 459
|
Из: Здесь
|
Рейтинг: 263
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: gasanych]
05.05.2008 12:29
|
|
|
Для некоммерческого использования можно еще попробовать mystem. Он заточен под кириллицу, использует, кажется, те же словари, которые используются яндексом в продакшне, и достаточно неплохо умеет угадывать формы неизвестных ему слов.
|
-Ofun |
|
pianist
|
аццкий
|
|
|
|
Рег.: 25.10.2002
|
Сообщений: 10841
|
Из: ---
|
Рейтинг: 7701
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: mmCleric]
05.05.2008 12:40
|
|
|
Quote:
Для некоммерческого использования можно еще попробовать mystem.
lemmatizer.org быстрее работает, и проще использовать.
К тому же - свободный.
|
Убей в себе государство!!1 |
|
Druxa
|
Дрюха
|
|
|
|
Рег.: 27.06.2003
|
Сообщений: 2722
|
Из: Троицк
|
Рейтинг: 1974
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: pianist]
09.05.2008 13:02
|
|
|
> быстрее работает 2000 символов в минуту набираю, но такая фигня получается (С) да нет, я ничего плохого про этот lemmatizer не хочу сказать, ничего про него не знаю. просто аргумент "быстрее работает" для леммера, это как-то несерьезно. насчет "проще использовать" кстати вполне может быть, mystem это просто консольная программа, бинды в тот же перл почему то в опен сорс зажали
|
нет, я не богат... я сказочно не богат... но я и не умен... |
|
pianist
|
аццкий
|
|
|
|
Рег.: 25.10.2002
|
Сообщений: 10841
|
Из: ---
|
Рейтинг: 7701
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: Druxa]
09.05.2008 14:27
|
|
|
да, для перла надо тоже сделать лемматизатору интерфейс.
для ПХП есть, может выложу...
|
Убей в себе государство!!1 |
|
Midori
|
kaiafa
|
|
|
|
Рег.: 29.05.2007
|
Сообщений: 5181
|
Из: Strasbourg
|
Рейтинг: 3151
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: Druxa]
09.05.2008 17:00
|
|
|
> просто аргумент "быстрее работает" для леммера, это как-то несерьезн
почему? ты имеешь в виду, что его задачи не надо выполнять на скорость? Или что они столь плохие, что лучше уделить внимание качеству, чем скорости? Или еще что-то?
|
Кручусь, как белка в мясорубке |
|
CROTishka
|
Shai-Hulud
|
|
|
|
Рег.: 09.06.2004
|
Сообщений: 31435
|
Из: - под земли
|
Рейтинг: 3653
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: gasanych]
10.05.2008 02:03
|
|
|
Могу пособить с покупкой длл, разбивающую слово на составные части.
|
|
|
Druxa
|
Дрюха
|
|
|
|
Рег.: 27.06.2003
|
Сообщений: 2722
|
Из: Троицк
|
Рейтинг: 1974
|
|
Re: вопрос про алгоритм для определения начальной формы слова
[re: Midori]
10.05.2008 02:30
|
|
|
ну не знаю, мне как то интуитивно кажется, что качество тут важнее скорости. да собственно mystem очень быстро работает, миллионы слов в секунду насколько я помню, куда уж быстрее...
|
нет, я не богат... я сказочно не богат... но я и не умен... |
|