I want to query using analyzed and not_analyzed field "description_IT"
The Query:
GET /mise/wo-patent-document/_search
{
"query": {
"match_phrase": {
"wo-patent-document.description_IT": "che impiegano ceramiche piezoelettriche"
}
},
"highlight" : {
"fields" : {
"wo-patent-document.description_IT" : {}
},
"fragment_size" : "300",
"number_of_fragments" : "1"
}
}
retuns one document but it doesn t highlight the word "che" because stop word. This result is fine
IT seems the raw subfield is not taken into account.
Content snippet of descriptio_IT field:
"Per aumentare la velocità di selezione ed incrementare \n25 \nla produzione si è sostituito l’utilizzo di tradizionali \n2\n \nelettromagneti di azionamento delle punte con soluzioni \nche impiegano ceramiche piezoelettriche, riducendo in \nquesto modo sia il tempo di attuazione che i consumi \nderivanti dalle bobine. \n5 \nQuesti attuatori sono dotati di lamine piezoelettriche \nche, a seconda della polarizzazione elettrica a cui sono \nsottoposte, si muovono in alto od in basso (considerando \nper semplicità espositiva le punte allineate in altezza \ne rivolte orizzontalmente),"
I' ve saved into my field "description" the text content of a pdf file so it is quite big.
I need to make multipe search over this field. One of this search is an "exact match phrase". Initially i thought to use a raw "not_indexed" field for this kind of query (description.raw). For relatively small description field it works fine, but when the content of the description field is big , the content of the description.raw field is big too, and query over the raw field returns 0 document, always!! Or at least this is what i tested (even with "ignore_above": 256 )
I realized that for exact match phrase i could simply use a normal string field with "standard" tokenizer. And i decided to go for it!
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.