Всем привет!
Пытаюсь перейтина hunspell, но пока результат не очень получается.
Например, слово "быстро" - молуль морфологии возвращает "быстро" и "быстрый".
Делаю анализатор с hunspell и словарями из libreoffice - как есть так и возвращает
"быстро" -> "быстро", "быстрый" -> "быстрый", "быстрая" -> "быстрая".
Пытаюсь проверить так:
Hunspell должен возвращает примерно такие-же результаты, что и russian-morphology для слов в словаре. Проблемы начинаются, только когда слов у него в словаре нет. Например, russian-morphology c Бармаглотом, справляется вполне успешно, а hunspell-у он не по зубам:
POST hunspell_example/_analyze
{
"text": "Хливкие",
"analyzer": "ru"
}
Я уже понял, что результат от словаря сильно зависит. Часть же слов он мне приводит к нужному виду. А какой у вас словарь? Как там эти "быстр*" записаны? Если hunspell совсем не умеет работать со словами когда их нет в словаре это печально.
Разбирает: тру, три, теперь, быстро, быстрый... но всёравно слишком мало фамилий.
По крайней мере ни моей, ни одного из четырёх начальников нет
И есть нюанс - имена, фамилии с большой буквы, т.е. если поставить после "lowercase" не сработает.
В общем за выходные распарсил одну базенку.
Из 2,6млн записей получалось: 168472 фамилии, 16706 мужских имен и 9154 женский имен.
С именами то более-менее понятно. Там за 100 уже идут очень редкие имена.
А с фамилиями придется делать до 76442-ой, я это никогда в жизни не размечу
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.