Lenteur analysis phonetic


(Blured Derulb) #1

Bonjour,

Avec ce type de mapping j'ai des lenteurs au niveau du serveur qui m'empechent d'insérer des documents (plusieurs CPU sont à 100%) et il devient impossible d'insérer des docs et pas de traces de GC :

FreeBsd avec ELS 1.7 et OpenJDK 1.7

"Fbd5" : {
        "_id" : {
          "path" : "code"
        },
        "properties" : {
          "code" : {
            "type" : "string",
            "index" : "not_analyzed"
          },
          "hash" : {
            "type" : "string",
            "index" : "not_analyzed"
          },
          "key" : {
            "type" : "string",
            "index" : "not_analyzed"
          },
          "rank" : {
            "type" : "long"
          },
          "text" : {
            "type" : "string",
            "analyzer" : "english",
            "fields" : {
              "phonetic" : {
                "type" : "string",
                "analyzer" : "english_phonetic"
              },
              "syn" : {
                "type" : "string",
                "analyzer" : "english_syn"
              }
            }
}

Au niveau settings :

"labels-en" : {
    "settings" : {
      "index" : {
        "creation_date" : "1441643930857",
        "uuid" : "ck-wQCsqT0WvQhsQk4cfPw",
        "analysis" : {
          "analyzer" : {
            "english_phonetic" : {
              "filter" : [ "lowercase", "english_phonetic", "english_possessive_stemmer", "english_stop" ],
              "tokenizer" : "standard"
            },
            "english_syn" : {
              "filter" : [ "lowercase", "english_synonyms", "english_possessive_stemmer", "english_stop" ],
              "tokenizer" : "standard"
            },
            "ngram_analyzer" : {
              "type" : "custom",
              "filter" : [ "lowercase", "ngram_filter" ],
              "tokenizer" : "keyword"
            }
          },
          "filter" : {
            "english_stop" : {
              "type" : "stop",
              "stopwords" : "_english_"
            },
            "english_possessive_stemmer" : {
              "type" : "stemmer",
              "language" : "possessive_english"
            },
            "english_phonetic" : {
              "type" : "phonetic",
              "languageset" : "english",
              "encoder" : "beider_morse"
            },
            "english_synonyms" : {
              "type" : "synonym",
              "synonyms_path" : ""
            },
            "ngram_filter" : {
              "type" : "ngram",
              "min_gram" : "1",
              "max_gram" : "3"
            },
            "english_stemmer" : {
              "type" : "stemmer",
              "language" : "english"
            }
          }
        },
        "number_of_replicas" : "0",
        "number_of_shards" : "1",
        "version" : {
          "created" : "1070099"
        }
      }

Ca se produit au bout de 12000 insertions de documents.
Je passe par des bulk insert de 1000 documents.
Chaque document fait entre 300 octets et 2 Ko.

L'analyseur phonetic est il viable dans mon cas ?

Blured.


(system) #2