Транслит/Фонетика

Ilya_Shipilov · October 6, 2016, 12:12pm

Задача построить такой индекс, который бы успешно находил запись "Johnson's Baby" по запросам "Джонсон с бэби", "Жонсон бэйби".

Мне кажется, что правильно использовать фильтр фонетики, с поддержкой английского и русского языков, чтобы в индексе хранилась некая универсальная транскрипция.

 "filter" : {
            "beider_morse": {
                "type" : "phonetic",
                "encoder" : "beider_morse",
                "languageset" : [ "russian", "cyrillic", "english" ]
            }
         },
   "analyzer" : {
            "phoneticAnalyzer" : {
                "type" : "custom",
                "tokenizer" : "standard",
                "filter" : ["standard", "lowercase", "beider_morse"]
            }
         }

Латиница фильтруется:

GET /my_index/_analyze?analyzer=phoneticAnalyzer
{
    "text": "Johnson"
}

выдает токены: ionzon, zonzon, а для кириллицы результата нет:

GET /my_index/_analyze?analyzer=phoneticAnalyzer
{
    "text": "Джонсон"
}

выдает только "джонсон".

Верно ли я понимаю, что для кириллицы я также должен получить набор токенов - транскрипций в латинице?

Igor_Motov · October 6, 2016, 2:38pm

Это сложная проблема. Единственное хорошее решение, которое я видел базировалось на машинном обучении. Транслитерация сама по себе не сложна - см тут https://www.elastic.co/guide/en/elasticsearch/plugins/2.4/analysis-icu-transform.html Но, когда дело доходит до имен - большое количество исключений и исторически сложившихся написаний все портит.

Ilya_Shipilov · October 6, 2016, 2:55pm

Игорь, на самом деле у меня вопрос наверное даже проще.

Наши документы это наименования товаров, люди вводят вместо "Johnson's baby", "micro sd" "жонсонов с бэби" и прочее.

Думаю, для нашей задачи попробовать phonetic-filter можно, вот результаты вывода
org.apache.commons.codec.language.bm.BeiderMorseEncoder#encode (его использует алгоритм beider_morse) для некоторых вариантов из топа наших запросов:

тачскрин: tatskrn|totskrn
touchscreen: DtskrDn|tDtskrn|tDxskrDn|tDxskrn|tDxstzrn|taxskrn|totskrDn|totskrn|toxskrDn|toxskrn|toxstzrn|tutskrDn|tutskrn|tuxskrDn|tuxskrn|tuxstzrn

Intersection: [totskrn]

johnson: ionzon|ionzun|xonzon|zonzon
джонсон: zinzon|zonzon
жонсон: zinzon|zonzon

Intersection: [zonzon]

Т.е. оно работает, но проблема когда я выполняю индексацию в elastic, русские слова фильтр не обрабатывает (конфиг в предыдущем посте).

Igor_Motov · October 6, 2016, 10:44pm

Я думаю, что это происходит из-за russian в списке языков. Судя по списку правил, russian работает с русскими фамилиями, написанными латиницей.

github.com

apache/commons-codec/blob/trunk/src/main/resources/org/apache/commons/codec/language/bm/ash_rules_russian.txt

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */


// CONVERTING FEMININE TO MASCULINE
"yna" "" "$" "(in|ina)"

This file has been truncated. show original

В то время как, cyrillic содержит правила с транслитерацией

github.com

apache/commons-codec/blob/trunk/src/main/resources/org/apache/commons/codec/language/bm/ash_rules_cyrillic.txt

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

"ця" "" "" "tsa"
"цю" "" "" "tsu" 
"циа" "" "" "tsa"

This file has been truncated. show original

Ilya_Shipilov · October 6, 2016, 11:07pm

Да, верно, тоже подебажил и обнаружил это, с cyrillic заработало.

Плюс, я неправильно использовал параметр languageset - если задать "cyrillic, english" то фильтроваться будут либо только латинские, либо только кириллические токены, весьма неочевидная оказалась для меня настройка.. Решил двумя фильтрами:

"analyzer": {
  "my_analyzer": {
    "tokenizer": "standard",
    "filter": [
      "standard",
      "my_phonetic_english",
      "my_phonetic_cyrillic"
    ]
  }
},
"filter": {
  "my_phonetic_cyrillic": {
    "type": "phonetic",
    "encoder": "beider_morse",
    "rule_type" : "approx",
    "name_type" : "generic",
    "languageset" : ["cyrillic"]
  },
  "my_phonetic_english": {
    "type": "phonetic",
    "encoder": "beider_morse",
    "rule_type" : "approx",
    "name_type" : "generic",
    "languageset" : ["english"]
  }

Ilya_Shipilov · October 25, 2016, 3:21am

Единственное хорошее решение, которое я видел базировалось на машинном обучении

Любопытно. А нет возможности тоже познакомиться с этим решением?

Igor_Motov · October 25, 2016, 4:29pm

http://www.basistech.com/text-analytics/rosette/name-translator/

Topic		Replies	Views
Phonetic search Elasticsearch	4	2004	July 6, 2017
Phonetic search && i18n Elasticsearch	11	1302	July 6, 2017
Multi_match bool_prefix с фонетическим анализатором не работает как ожидается Вопросы на русском языке	5	471	September 10, 2020
Indexing non-English text Elasticsearch	11	2790	July 6, 2017
Search UTF-8 text for both diacritics and non-diacritics variants Elasticsearch	2	623	July 6, 2017

Транслит/Фонетика

Related topics