Много вопросов от новичка


(leov) #21

во как!!!

POST _analyze?analyzer=russian
{'жизнь смерть' }
{
  "tokens": [
    {
      "token": "смерт",
      "start_offset": 8,
      "end_offset": 14,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

(Igor Motov) #22

А как у вас этот анализатор настроен? И что в списке синонимов?


(leov) #23

я выше приводил мой мапинг (правда я уже чуть подправил но не существенно)
нет там никаких синонимов (какой-то мусор с буквой ё но он не работает нигде)
к настройке самого эластика у меня доступа нет
я сомневаюсь что там вообще что-то менялось но постараюсь туда добраться


(leov) #24

вот он еще раз чтобы далеко не ходить

  "settings" : {
    "index" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 0,
      "analysis" : {
        "filter" : {
            "ru_stop" : {
                "type" : "stop",
                "stopwords" : "_russian_"
            },
            "ru_stemmer" : {
                "type" : "stemmer",
                "language" : "russian"
            }
        },
        "char_filter" : {
          "my_mapping" : {
            "type" : "mapping",
            "mappings" : [ "ё=>е" ]
          }
        },
        "analyzer" : {
          "custom_with_char_filter" : {
            "char_filter" : [ "my_mapping" ],
            "tokenizer" : "standard"
          },
          "ru_analyzer" : {
            "filter" : [ 
              "lowercase", 
              "ru_stop", 
              "ru_stemmer", 
              "russian_morphology", 
              "english_morphology" 
            ],
            "type" : "custom",
            "tokenizer" : "standard"
          }
        }
      }
    }
  },


(leov) #25

я извиняюсь но наверное я ранее не на ваш вопрос ответил
я не настраивал этот анализатор, это стандартный в системе russian
я не знаю где и как его можно настроить
и как посмотреть его состав и состав его синонимов

я сейчас ваяю большой пост со всеми своими непонятками про анализаторы


(Igor Motov) #26

Да, жизнь почему-то оказалась в списке русских шумовыx слов.


(leov) #28

воткнул собственный список вместо вот этого

но тот странный список точно надо сильно порезать
не имеет он права на существование в стандартной комплектации в таком виде


(Igor Motov) #29

К сожалению, я не смогу продолжить данную дискуссию в этом тоне.


(leov) #30

извините. я затру эти эмоции. погорячился
считаете ли вы состав этого списка неправильным?
и возможно повлиять на его исправление?


(Igor Motov) #31

Спасибо.

Я начал над этим работать. В идеале, хорошо было бы найти более подходящий список из авторитетного источника со совместимой с Apache v2.0 лицензией. В противном случае, процесс будет заключаться в субъективной дискуссии о том, что следует убрать и что следует добавить. Хотелось бы этой субъективности избежать, если это возможно.


(leov) #32

для начала по моему надо потереть оттуда все что-то значащие слова
в стандартном списке по умолчанию должны остаться только базовые бесспорные слова
дополнять список можно руками самодельными фильтрами
а устранять слова из включенного фильтра невозможно, приходится переписывать целиком...

где-же его найдешь то готовый список да для такой странной цели


(Igor Motov) #33

Списков хватает. Проблема в их использовании в проекте с Apache License.


(leov) #34

ну с этим списком стоповых слов я больше не игрок, уж извините
нарвался на проблему, обозначил тут, дальше я ничего не смогу сделать
сам нашел как его обойти, да и многие в примерах именно так делают, свой список вставляют
я бы его просто почистил от того что на мой взгляд неправильно
все лучше было бы чем сейчас есть
однако все равно я этого не увижу потому как у меня вообще древний эластик стоит

другой вопрос хочу спросить
копаюсь с проектом и видимо прошлый ваятель был недостаточно упертым
видно что хотел использовать например этот список стоповых слов
но писал его слегка неправильно

"stopwords" :	["а,без,более,бы,был,.....

а надо было

 "stopwords" : [ "а","без","более","бы".....

дак эластик это все молча читал но совсем не исполнял
и выяснить это удавалось только на тестах и в общем не с первого захода
потому как для меня все тут новое
или другой пример надо так

$searchParams['body']['highlight']= 
array('pre_tags' => array('<span class="bhl">'),'post_tags' => array('</span>'));

а было вот так

$searchParams['body']['highlight']['pre_tags'] = "<span class=bhl>";
$searchParams['body']['highlight']['post_tags'] = "</span>";

т.е претаг и посттаг надо еще в один array завернуть
и опять эластик это молча читает и не исполняет
у меня упертости хватило чтобы пробить эти темы
но обидно что эластик вполне мог бы на это все отругаться


(leov) #35

еще один вопрос
почему кибана плохо реагирует на комментарии
эластик на них не ругается и вроде нормально обрабатывает
а в кибане рисует что вроде ошибку она видит, крестик рисует
возможно стоило бы обрабатывать комментарии


(system) #36

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.