Shingle_analyzer


(Roman) #1

При использовании Shingle analizer столкнулись с проблемой, что не происходил стемминг слов поэтому порядок выдачи очень зависел от окончаний использующихся слов. Есть ли какая-либо настройка позволяющая учитывать поиск по порядку слов, но с учетом стемминга.
Наши опыты с матч_фрейз тоже оказались не так удачны, аналогичная проблема была.
Сейчас получается, что выдача "доска для маркеров" и "маркер для доски" отдает одно и тоже.


(Igor Motov) #2

Если поставить shingle после стеммера, и настроить стеммер так, чтобы он не выдавал больше чем один токен (зависит от стеммера) на каждый входной токен - то должно работать. Если не будет работать, пришлите полный пример, который воспроизводит проблему для curl или консоли, посмотрим, что можно сделать.


(Roman) #3

Еще вопрос. А будет к одному из слов shingle_analyzera будет применен словарь синонимов.
Отработает ли корректно?
Например: "Батарейки ААА" (затем куча текста), будет синоним ААА - мизинчиковые, то найдет ли данный вид аналайзера "батарейки мизинчиковые" .
П.С. как вам можно лайк поставить, как сотруднику?


(Igor Motov) #4

Зависит от того, как вы используйте синонимы. Если вы заменяете несколько вариантов на один и тот же, то работать будет, если один вариант написания на несколько - то нет. Другими словами aaa, мизинчиковые => aaa - будет работать, а мизинчиковые, aaa не будет


(system) #5

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.