Много вопросов от новичка

во как!!!

POST _analyze?analyzer=russian
{'жизнь смерть' }
{
  "tokens": [
    {
      "token": "смерт",
      "start_offset": 8,
      "end_offset": 14,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

А как у вас этот анализатор настроен? И что в списке синонимов?

я выше приводил мой мапинг (правда я уже чуть подправил но не существенно)
нет там никаких синонимов (какой-то мусор с буквой ё но он не работает нигде)
к настройке самого эластика у меня доступа нет
я сомневаюсь что там вообще что-то менялось но постараюсь туда добраться

вот он еще раз чтобы далеко не ходить

  "settings" : {
    "index" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 0,
      "analysis" : {
        "filter" : {
            "ru_stop" : {
                "type" : "stop",
                "stopwords" : "_russian_"
            },
            "ru_stemmer" : {
                "type" : "stemmer",
                "language" : "russian"
            }
        },
        "char_filter" : {
          "my_mapping" : {
            "type" : "mapping",
            "mappings" : [ "ё=>е" ]
          }
        },
        "analyzer" : {
          "custom_with_char_filter" : {
            "char_filter" : [ "my_mapping" ],
            "tokenizer" : "standard"
          },
          "ru_analyzer" : {
            "filter" : [ 
              "lowercase", 
              "ru_stop", 
              "ru_stemmer", 
              "russian_morphology", 
              "english_morphology" 
            ],
            "type" : "custom",
            "tokenizer" : "standard"
          }
        }
      }
    }
  },

я извиняюсь но наверное я ранее не на ваш вопрос ответил
я не настраивал этот анализатор, это стандартный в системе russian
я не знаю где и как его можно настроить
и как посмотреть его состав и состав его синонимов

я сейчас ваяю большой пост со всеми своими непонятками про анализаторы

Да, жизнь почему-то оказалась в списке русских шумовыx слов.

воткнул собственный список вместо вот этого

но тот странный список точно надо сильно порезать
не имеет он права на существование в стандартной комплектации в таком виде

К сожалению, я не смогу продолжить данную дискуссию в этом тоне.

извините. я затру эти эмоции. погорячился
считаете ли вы состав этого списка неправильным?
и возможно повлиять на его исправление?

Спасибо.

Я начал над этим работать. В идеале, хорошо было бы найти более подходящий список из авторитетного источника со совместимой с Apache v2.0 лицензией. В противном случае, процесс будет заключаться в субъективной дискуссии о том, что следует убрать и что следует добавить. Хотелось бы этой субъективности избежать, если это возможно.

для начала по моему надо потереть оттуда все что-то значащие слова
в стандартном списке по умолчанию должны остаться только базовые бесспорные слова
дополнять список можно руками самодельными фильтрами
а устранять слова из включенного фильтра невозможно, приходится переписывать целиком...

где-же его найдешь то готовый список да для такой странной цели

Списков хватает. Проблема в их использовании в проекте с Apache License.

ну с этим списком стоповых слов я больше не игрок, уж извините
нарвался на проблему, обозначил тут, дальше я ничего не смогу сделать
сам нашел как его обойти, да и многие в примерах именно так делают, свой список вставляют
я бы его просто почистил от того что на мой взгляд неправильно
все лучше было бы чем сейчас есть
однако все равно я этого не увижу потому как у меня вообще древний эластик стоит

другой вопрос хочу спросить
копаюсь с проектом и видимо прошлый ваятель был недостаточно упертым
видно что хотел использовать например этот список стоповых слов
но писал его слегка неправильно

"stopwords" :	["а,без,более,бы,был,.....

а надо было

 "stopwords" : [ "а","без","более","бы".....

дак эластик это все молча читал но совсем не исполнял
и выяснить это удавалось только на тестах и в общем не с первого захода
потому как для меня все тут новое
или другой пример надо так

$searchParams['body']['highlight']= 
array('pre_tags' => array('<span class="bhl">'),'post_tags' => array('</span>'));

а было вот так

$searchParams['body']['highlight']['pre_tags'] = "<span class=bhl>";
$searchParams['body']['highlight']['post_tags'] = "</span>";

т.е претаг и посттаг надо еще в один array завернуть
и опять эластик это молча читает и не исполняет
у меня упертости хватило чтобы пробить эти темы
но обидно что эластик вполне мог бы на это все отругаться

еще один вопрос
почему кибана плохо реагирует на комментарии
эластик на них не ругается и вроде нормально обрабатывает
а в кибане рисует что вроде ошибку она видит, крестик рисует
возможно стоило бы обрабатывать комментарии

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.