Increase 255 character limit in analyzer

ansamHox · June 30, 2022, 8:51am

I want to use a whitespace tokenizer, but I have very long "tokens", and if it is longer than 255 characters, it will split it into 2 or more tokens.

GET _analyze
{
  "tokenizer": "whitespace",
  "filter": [
    {
      "type": "length",
      "min": 0,
      "max": 50
    }
  ],
  "text": "abcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmn123456789abcd"
}

and the result is:

{
  "tokens" : [
    {
      "token" : "abcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmnopqrstuwyzabcdefghijklmn1",
      "start_offset" : 0,
      "end_offset" : 255,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "23456789abcd",
      "start_offset" : 255,
      "end_offset" : 267,
      "type" : "word",
      "position" : 1
    }
  ]
}

How can I increase number of characters to be more than 255, tnx?

system · July 28, 2022, 8:52am

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
WhiteSpaceTokenizer buffer_size Elasticsearch	6	1293	July 5, 2017
How to limit token length? Elasticsearch	5	1882	April 24, 2017
Pattern analyzer does not respect max_token_length Elasticsearch	2	777	July 5, 2017
Custom analyzer with standard tokenizer is splitting long tokens instead of discarding Elasticsearch	4	1221	July 5, 2017
Max length allowed for "max_token_length" and how to set value Elasticsearch	3	1707	July 5, 2017

Increase 255 character limit in analyzer

Related topics