JDONREFv3ES synonymes : Différence entre versions

De JDONREF Wiki
Ligne 2 : Ligne 2 :
   
 
Il est nécessaire de connaître ces abbréviations durant l'indexation car c'est ainsi que les moteurs de recherche par indexation permettent une recherche efficace. Pour simplifier, toutes les variantes de l'adresse (avec ou sans abbréviations) seront stockées et pourront être recherchées.
 
Il est nécessaire de connaître ces abbréviations durant l'indexation car c'est ainsi que les moteurs de recherche par indexation permettent une recherche efficace. Pour simplifier, toutes les variantes de l'adresse (avec ou sans abbréviations) seront stockées et pourront être recherchées.
  +
  +
===== Utiliser le fichier =====
   
 
Le fichier d'abbréviation peut être utilisé avec le tokenfilter [http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html synonyme].
 
Le fichier d'abbréviation peut être utilisé avec le tokenfilter [http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html synonyme].
Ligne 31 : Ligne 33 :
   
 
Le format du fichier est décrit [http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html#_solr_synonyms ici].
 
Le format du fichier est décrit [http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html#_solr_synonyms ici].
  +
  +
===== Utiliser des abbréviations différentes suivant l'adresse =====
  +
  +
Le [[JDONREFv3ES_filter|filtre]] fourni par JDONREF permet de disposer d'un fichier de synonyme différent en fonction de l'adresse.
  +
  +
Utilisez le lors de la création de l'index, en spécifiant :
  +
* les fichiers de synonymes utilisés
  +
* le champ de l'adresse qui permet de déterminer le fichier à utiliser
  +
  +
curl -XPUT 'http://localhost:9200/jdonref/' -d '{
  +
"analysis" : {
  +
"analyzer" : {
  +
"synonym": {
  +
"tokenizer": "whitespace",
  +
"filter": ["jdonrefv3es"]
  +
}
  +
},
  +
"filter": {
  +
"jdonrefv3es" : {
  +
"type" : "jdonrefv3es",
  +
"attribute" : "pays",
  +
"files" : [ "FRANCE" : "jdonrefv3es_synonym.fr.txt" ]
  +
}
  +
}
  +
}
  +
}'
  +
  +
La valeur de l'attribut utilisé ne nécessite pas de respecter la casse.

Version du 23 mars 2014 à 03:21

Le fichier de synonymes fournis avec le plugin JDONREFv3ES permet d'indexer vos adresses en tenant compte des probables abbréviations qui pourraient être utiles de connaître durant la recherche.

Il est nécessaire de connaître ces abbréviations durant l'indexation car c'est ainsi que les moteurs de recherche par indexation permettent une recherche efficace. Pour simplifier, toutes les variantes de l'adresse (avec ou sans abbréviations) seront stockées et pourront être recherchées.

Utiliser le fichier

Le fichier d'abbréviation peut être utilisé avec le tokenfilter synonyme.

Il suffit de le définir à la création de votre index :

 curl -XPUT 'http://localhost:9200/jdonref/' -d '{
   "analysis" : {
     "analyzer" : {
       "synonym": {
         "tokenizer": "whitespace",
         "filter": ["synonym"]
       }
     },
     "filter": {
       "synonym" : {
         "type" : "synonym",
         "synonyms_path" : "jdonrev3es_synonym.fr.txt"
       }
     }
   }
 }'

La recherche pourra ainsi par exemple être effectuée avec le type de voie "BD" plutôt que "BOULEVARD".

Syntaxe

Vous pouvez bien sûr modifier ce fichier ou en créer de nouveaux (pour d'autres langues ?).

Le format du fichier est décrit ici.

Utiliser des abbréviations différentes suivant l'adresse

Le filtre fourni par JDONREF permet de disposer d'un fichier de synonyme différent en fonction de l'adresse.

Utilisez le lors de la création de l'index, en spécifiant :

  • les fichiers de synonymes utilisés
  • le champ de l'adresse qui permet de déterminer le fichier à utiliser

curl -XPUT 'http://localhost:9200/jdonref/' -d '{

   "analysis" : {
     "analyzer" : {
       "synonym": {
         "tokenizer": "whitespace",
         "filter": ["jdonrefv3es"]
       }
     },
     "filter": {
       "jdonrefv3es" : {
         "type" : "jdonrefv3es",
         "attribute" : "pays",
         "files" : [ "FRANCE" : "jdonrefv3es_synonym.fr.txt" ]
       }
     }
   }
 }'

La valeur de l'attribut utilisé ne nécessite pas de respecter la casse.