Много вопросов от новичка

leov · January 19, 2018, 12:40pm

во как!!!

POST _analyze?analyzer=russian
{'жизнь смерть' }

{
  "tokens": [
    {
      "token": "смерт",
      "start_offset": 8,
      "end_offset": 14,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

Igor_Motov · January 19, 2018, 12:58pm

А как у вас этот анализатор настроен? И что в списке синонимов?

leov · January 19, 2018, 1:02pm

я выше приводил мой мапинг (правда я уже чуть подправил но не существенно)
нет там никаких синонимов (какой-то мусор с буквой ё но он не работает нигде)
к настройке самого эластика у меня доступа нет
я сомневаюсь что там вообще что-то менялось но постараюсь туда добраться

leov · January 19, 2018, 1:04pm

вот он еще раз чтобы далеко не ходить

  "settings" : {
    "index" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 0,
      "analysis" : {
        "filter" : {
            "ru_stop" : {
                "type" : "stop",
                "stopwords" : "_russian_"
            },
            "ru_stemmer" : {
                "type" : "stemmer",
                "language" : "russian"
            }
        },
        "char_filter" : {
          "my_mapping" : {
            "type" : "mapping",
            "mappings" : [ "ё=>е" ]
          }
        },
        "analyzer" : {
          "custom_with_char_filter" : {
            "char_filter" : [ "my_mapping" ],
            "tokenizer" : "standard"
          },
          "ru_analyzer" : {
            "filter" : [ 
              "lowercase", 
              "ru_stop", 
              "ru_stemmer", 
              "russian_morphology", 
              "english_morphology" 
            ],
            "type" : "custom",
            "tokenizer" : "standard"
          }
        }
      }
    }
  },

leov · January 19, 2018, 1:10pm

я извиняюсь но наверное я ранее не на ваш вопрос ответил
я не настраивал этот анализатор, это стандартный в системе russian
я не знаю где и как его можно настроить
и как посмотреть его состав и состав его синонимов

я сейчас ваяю большой пост со всеми своими непонятками про анализаторы

Igor_Motov · January 19, 2018, 1:38pm

Да, жизнь почему-то оказалась в списке русских шумовыx слов.

leov · January 19, 2018, 3:05pm

воткнул собственный список вместо вот этого

но тот странный список точно надо сильно порезать
не имеет он права на существование в стандартной комплектации в таком виде

Igor_Motov · January 19, 2018, 3:22pm

К сожалению, я не смогу продолжить данную дискуссию в этом тоне.

leov · January 19, 2018, 3:24pm

извините. я затру эти эмоции. погорячился
считаете ли вы состав этого списка неправильным?
и возможно повлиять на его исправление?

Igor_Motov · January 22, 2018, 4:01pm

Спасибо.

Я начал над этим работать. В идеале, хорошо было бы найти более подходящий список из авторитетного источника со совместимой с Apache v2.0 лицензией. В противном случае, процесс будет заключаться в субъективной дискуссии о том, что следует убрать и что следует добавить. Хотелось бы этой субъективности избежать, если это возможно.

leov · January 22, 2018, 5:04pm

для начала по моему надо потереть оттуда все что-то значащие слова
в стандартном списке по умолчанию должны остаться только базовые бесспорные слова
дополнять список можно руками самодельными фильтрами
а устранять слова из включенного фильтра невозможно, приходится переписывать целиком...

где-же его найдешь то готовый список да для такой странной цели

Igor_Motov · January 23, 2018, 7:14pm

Списков хватает. Проблема в их использовании в проекте с Apache License.

leov · January 25, 2018, 4:16pm

ну с этим списком стоповых слов я больше не игрок, уж извините
нарвался на проблему, обозначил тут, дальше я ничего не смогу сделать
сам нашел как его обойти, да и многие в примерах именно так делают, свой список вставляют
я бы его просто почистил от того что на мой взгляд неправильно
все лучше было бы чем сейчас есть
однако все равно я этого не увижу потому как у меня вообще древний эластик стоит

другой вопрос хочу спросить
копаюсь с проектом и видимо прошлый ваятель был недостаточно упертым
видно что хотел использовать например этот список стоповых слов
но писал его слегка неправильно

"stopwords" :	["а,без,более,бы,был,.....

а надо было

 "stopwords" : [ "а","без","более","бы".....

дак эластик это все молча читал но совсем не исполнял
и выяснить это удавалось только на тестах и в общем не с первого захода
потому как для меня все тут новое
или другой пример надо так

$searchParams['body']['highlight']= 
array('pre_tags' => array('<span class="bhl">'),'post_tags' => array('</span>'));

а было вот так

$searchParams['body']['highlight']['pre_tags'] = "<span class=bhl>";
$searchParams['body']['highlight']['post_tags'] = "</span>";

т.е претаг и посттаг надо еще в один array завернуть
и опять эластик это молча читает и не исполняет
у меня упертости хватило чтобы пробить эти темы
но обидно что эластик вполне мог бы на это все отругаться

leov · January 25, 2018, 5:19pm

еще один вопрос
почему кибана плохо реагирует на комментарии
эластик на них не ругается и вроде нормально обрабатывает
а в кибане рисует что вроде ошибку она видит, крестик рисует
возможно стоило бы обрабатывать комментарии

Topic		Replies	Views
Вопрос по агрегации и скорости Вопросы на русском языке	31	2830	December 14, 2018
Re: Abridged summary of elasticsearch@googlegroups.com - 90 Messages in 32 Topics Elasticsearch	0	529	February 9, 2013
Базовые настройки индекса для работы с русской морфологией Вопросы на русском языке	13	13935	March 22, 2017
I am tired of continuously trying to override the default analyzer and tokanizer settings Elasticsearch	16	920	August 23, 2012
How start with elasticsearch? Elasticsearch	8	405	November 2, 2012

Много вопросов от новичка

Related topics