< retour à la page précédente

3.OpenData

Exemple d'amélioration des données opendata transport

Lorsqu'on utilise navitia.io pour ajouter des informations de mobilité à ses services, on a besoin d'avoir des données à jour et de qualité.

Pour ce faire, nous intégrons régulièrement les données opendata du monde entier, et réalisons des corrections et enrichissements à chaque mise à jour.  Voici un exemple de mise en qualité de données, effectuée sur le jeu de données de la Région Île-de-France.

Ces données sont fournies par le Île-de-France Mobilités (anciennement le STIF, que nous remercions pour son engagement dans la démarche opendata) au format GTFS. Il s'agit d'un format standard très répandu pour communiquer des informations d'offre de transport, aussi bien pour la partie géographique que pour la partie horaire.

Or, il se trouve que, pour un certain nombre de lignes, l'information de sens des circulations est erronée (le champ "direction_id" du fichier trips.txt dans les données GTFS).
Cette information est utilisée pour fabriquer les parcours de Navitia (route dans l'API), qui servent principalement pour la fabrication des grilles horaires de ligne.
Cela a pour effet de créer une très longue grille horaire, qui prend beaucoup de temps à s'afficher et où les arrêts sont répétés !
Si on reconstruit le thermomètre de la ligne à partir de cette grille horaire, il ressemble à ça :

Thermomètre de ligne sans retraitement

Ça ne ressemble pas à la ligne N telle que les Franciliens la connaissent ! Et je vous laisse imaginer ce que ça donne pour une ligne plus complexe comme le RER C ou le RER D...
Nous avons donc modifié les données pour indiquer des sens de circulation qui correspondent à ce que peut constater un voyageur sur le terrain, sur toutes les lignes qui comportaient cette imprécision.

Et voici le résultat :

Thermomètre de ligne après retraitement

Voyez ci-dessous la différence entre la grille horaire originale, et celle après notre travail de mise en qualité des données "direction_id". Les arrêts ne sont plus dupliqués et l'ordre des arrêts est plus naturel :

Grille horaire sans retraitementGrille horaire après retraitement

À vous de faire vos propres tests en l'utilisant via notre API ou en téléchargeant le jeu de données mis en qualité !

 

Par Noémie Lehuby & Pascal Rhod, le 28 August 2017