IGN

Géoservices IGN

Indicateur de qualité : oui mais lequel ?

Introduction

Un géocodage retourne pour chaque résultat un coefficient de correspondance, qu’on interprète souvent comme indice de confiance pour son exploitation. Est-ce pour autant une indication sur la précision géographique du point ?

Coefficient de correspondance : “le résultat est-il le bon ?”

Le coefficient de correspondance se situe entre 0 et 100 % : plus il est élevé et plus l’adresse identifiée correspond textuellement à l’adresse recherchée.

En principe, une adresse parfaite (et parfaitement rédigée) aura un score de 100 %, pourvu qu’elle soit connue du géocodeur.

Ce coefficient sert principalement à ordonner les résultats, s’il y en a plusieurs, et pour sélectionner le meilleur dans le cas de géocodage de masse (où seul le meilleur résultat est conservé).

Peut-on parler d’indicateur de qualité ? Oui, s’il s’agit de la qualité du rapprochement et non pas du point géographique.

La question n’est pas ici de savoir si le résultat est fiable, mais si c’est le bon résultat pour l’adresse recherchée, compte-tenu des écarts dans la façon d’écrire l’adresse.

Naturellement, un faible coefficient de correspondance (par exemple, 40 %) indique un doute dans le résultat qui est bien pire qu’une imprécision géographique. L’adresse identifiée par l’algorithme peut être à 500 km de l’adresse supposée, quand une imprécision se limite généralement à des écarts de numérotation et de voies.

Indicateur de précision : “le résultat est-il bon ?”

Contrairement au coefficient de correspondance, qui appartient à l’algorithme de géocodage, l’indicateur de précision provient des données du référentiel : une adresse référencée au mauvais endroit le sera toujours en tant que résultat de géocodage. En ce sens, le géocodeur n’a pas de conscience géographique.

Type de positionnement

Il y a premièrement le type de positionnement. Par exemple, le descriptif de contenu de la BD Adresse de l’IGN indique des adresses :

Il est nécessaire de comprendre ces méthodes de positionnement pour connaître les biais possibles. Par exemple, la largeur des voies est arbitrairement estimée à 9 mètres, introduisant un biais du point adresse entre la propriété et le milieu de la voie.

Précision des géométries sources

Les géométrie sources sont à la base du positionnement des adresses : ce sont les axes de voies, les limites communales, etc. Elles sont acquises par différentes méthodes (photogrammétrie, levé GPS, report de plan…) avec une précision donnée.

Exprimée en mètres, cette précision est documentée pour chaque adresse.

Type de localisant

Il y a enfin le type de localisant du point : boîte aux lettres, porte, bâti, parcelle cadastrale…

Cette information est liée au type de positionnement : si le positionnement est précis, le localisant est en principe inséparable des coordonnées du point, pour l’information adresse. Par exemple, Google Maps localise de nombreuses adresses au toit du bâti.

Signification des indicateurs

La précision : pour quoi faire ?

Le besoin de précision dépend de l’exploitation faite des résultats de géocodage.

Si c’est pour y accéder par le réseau routier, le respect de la voie d’accès sera importante (en cas de double voie bordant une propriété) et notamment le “bon côté de la rue” ; l’interpolation éventuelle et le décalage linéraire ont aussi leur importance.

Pour une étude IRIS ou zonale (par exemple, savoir si une adresse appartient à un quartier prioritaire), le besoin de précision est différent compte-tenu du tronçon qui peut démarquer deux quartiers.

Qu’est-ce qu’un “bon” ou un “mauvais” coefficient de correspondance ?

À partir de quel pourcentage de correspondance un résultat est-il considéré comme fiable ?

Une adresse peut être sans erreur mais orthographiée différemment de la référence (abréviations, etc.). Il est donc normal d’obtenir des coefficients inférieurs à 100 % pour des adresses parfaitement structurées. Mais alors : 90 % est-il fiable ? et 80 % ? 60 % ?

Cela dépend du géocodeur et son mode de calcul de ce coefficient. Celui-ci ne se résume pas à la distance phonétique ou textuelle entre les adresses identifiées et recherchées car il faut tenir compte du poids des éléments : une erreur dans la ville compte davantage qu’une erreur dans la voie.

Un géocodeur bien documenté doit préciser le seuil de confiance, par exemple 70 %, en dessous duquel le résultat doit être interprété comme une proposition de résultat. Pour une meilleure compréhension du taux, il est utile de tester méthodiquement le géocodeur avec différentes adresses de qualités diverses.

Conclusion

Si le coefficient de correspondance est systématiquement retourné par les géocodeurs, sa signification n’est pas toujours documentée, laissant deviner le seuil de confiance nécessaire en fonction de l’application.

Les informations sur la précision du point combinent une donnée qualitative (méthode de positionnement) et quantitative (précision géométrique en mètres), très importantes étant donné l’hétérogénéité de la donnée Adresse en général. Cette information n’est généralement pas retournée dans le résultat des requêtes, ce qui empêche certaines exploitation de géocodage.