Normaliser une adresse avec ElasticSearch et la base adresse nationale

Il y a fort fort longtemps, j’intégrais la base adresse nationale dans elasticsearch via logstash. Je ne suis pas allé plus loin faute de temps et peut-être d’envie.

Que peut-on faire avec ces quelques gigas de données me direz vous?

Faire des recherches pour avoir les coordonnées géographiques d’une adresse donnée
Faire une recherche pour avoir l’adresse normalisée
Faire un rapprochement avec d’autres données (avec Spark par exemple)
Sans doute plein d’autres use cases

Je vais m’attarder sur le deuxième point. A quoi ça sert ? et bien à avoir une adresse « propre » et utilisable par un système d’information (ex. ce que font les impôts, ou amazon). Il existe quelques solutions propriétaires qui réalisent ceci et sont assez chers. Je me suis donc mis dans la tête de le faire via elasticsearch.

Rappels des épisodes précédents

Voici le schéma de l’architecture

Pré-requis

Installer Elasticsearch > 2.3
Installer Logstash
Récupérer l’archive de la base adresse nationale

Configuration Logstash

Voici ma configuration Logstash

input {
  file {
    codec =&gt;plain{
    charset =&gt; "UTF-8"
    }
    path =&gt; ["./data/*.csv"]
    sincedb_path =&gt; "logstash/.sincedb_path"
    start_position =&gt; "beginning"
  }
}

filter {
	if [message] =~ /^"id";"nom_voie"/ {
	drop { }
	}
 	csv {
    columns =&gt; ["id","nom_voie","id_fantoir","numero","rep","code_insee","code_post","alias","nom_ld","nom_afnor","libelle_acheminement","x","y","lon","lat","nom_commune"]
    separator =&gt; ";"
	source =&gt; message
  }

  mutate {
    rename =&gt; [ "lat", "[location][lat]", "lon", "[location][lon]" ]
  }
   mutate {
    convert =&gt; [ "[location][lat]", "float" ]
    convert =&gt; [ "[location][lon]", "float" ]
    convert =&gt; [ "[lon]", "float" ]
    convert =&gt; [ "[lat]", "float" ]
    convert =&gt; ["[location]","float"]
    }
}


output {
        stdout{
        codec =&gt; "json"
        }
    elasticsearch {
    hosts =&gt; ["localhost"]
    index =&gt; "ban"
    document_type =&gt; "address"
    workers =&gt; 8
    document_id =&gt; "%{id}"
  }
}

J’ai configuré LOGSTASH pour réaliser les actions suivantes :

extraction des données d’un fichier
suppression de la ligne d’en-tête
gestion de la localisation avec un champ de type ‘geo_point’.

C’est assez simple (pour l’instant)

Mapping ELASTICSEARCH

Analyzers

J’ai configuré les analyzers de la manière suivante:

"analysis": {
      "analyzer": {
        "ngram_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": [
            "lowercase",
            "asciifolding",
            "ngram_filter"
          ]
        },
        "whitespace_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": [
            "lowercase",
            "asciifolding"
          ]
        }
      },
      "filter": {
        "ngram_filter": {
          "type": "nGram",
          "min_gram": 3,
          "max_gram": 15,
          "token_chars": [
            "letter",
            "digit",
            "punctuation",
            "symbol"
          ]
        }
      }
    }

J’ analyse tous les mots (whitespace tokenizer) en minuscule en appliquant un filtre (ngram) permet de rechercher par caractère (ex. imp au lieu de impasse).

La c’est super couteux en espace disque et impose un plus gros traitement lors de l’insertion mais permet d’ alléger le temps de traitement des requêtes ( le gros du travail est fait lors du chargement).

Mapping

La je n’ai pas fait grand chose de particulier si ce n’est le typage des différents champs (ex. la localisation )

"location": {
               "type": "geo_point"
       
          }

Création de l’index

Dans sense ou via cUrl, lancer la commande suivante :

PUT /ban{...}

Pour le mapping complet, voir sur mon compte github

Chargement

voir mon article précédent

Interrogation

Maintenant je peux interroger mon index

Imaginons que je fasse saisir le code postal, la ville et l’adresse et que j’interroge elasticsearch pour obtenir une adresse normalisée

#/GET /ban/address/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "multi_match": {
            "query": "rue",
            "type": "best_fields",
            "fields": [
              "nom_ld",
              "nom_afnor"
            ]
          }
        },
        {
          "match": {
            "nom_commune": {
              "query": "ville"
            }
          }
        }
      ],
      "filter": [
        {
          "term": {
            "code_post": "00000"
          }
        }
      ]
    }
  }
}

Conclusion

Ce n’est qu’un début. Ce n’est sans doute pas encore très performant, si vous avez des remarques, n’hésitez pas. En tout cas, les briques et outils décrits ci-dessus permettent de normaliser des adresses a minima avec des logiciels libres, ce qui n’est pas rien.

Les sources sont disponibles sur GITHUB. Je ne pense pas que je vais en faire un projet à proprement parler mais plutôt d’une boîte à outils pour manipuler ce genre de données. J’y ajouterai sans doute quelques recherches géospatiales et peut être l’ intégration de graph.

0 vote

31/05/2016 17:46

Ecrit par Littlewing - Afficher l'article originel

Vus : 1102
Publié par Littlewing : 368

Statut de la page