Rechercher sur le site

OpenData 

De plus en plus des organisations et des gouvernements mettent à disposition des données dont  l’accès est public et libre de droit. Ces données sont désignées par le terme Open Data (données ouvertes). Elles peuvent être exploitées et redistribuées sans restriction. Elles proviennent de nombreuses sources différentes (gouvernements, organisations à but non lucratif, …) et concernent des domaines très variés : les transports, la météo, les sciences, la finance, l’environnement, la culture, …

L’exploitation des données Open Data permet aux gouvernements d’apporter de la transparence, aux entreprises d’améliorer des services, de trouver de nouveaux produits, aux chercheurs de mener des études, …

Cet article montre un exemple d’exploitation de données immobilières Open Data (estimation d’un prix au m2) à l’aide d’un tableur. 

 

 

1 – Obtenir des jeux de données

De nombreux sites aujourd’hui rassemblent des jeux de données téléchargeables. Le site Stat4decision  en recense plusieurs. Les données existent sous plusieurs types de fichiers qui peuvent être exploitées avec des outils comme des tableurs ou des bases de données.

L’article sur ce site Estimer par comparaison la valeur d’un bien immobilier montre comment évaluer la valeur d’un bien immobilier avec le site internet DVF. Dans cet article, nous allons exploiter ces mêmes données immobilières obtenues sur une plateforme publique à l’aide du tableur Libre Office Calc.

Données OpenData 001 001

  • Cliquer sur la rubrique « Territoire, Transport, Tourisme » sur la barre de gauche puis sur « Foncier ».

 

Données OpenData 001 002

Données OpenData 001 003

  • La nouvelle page qui s’ouvre montre des répertoires dans lesquels les données sont réparties par années.

Données OpenData 001 004

  • On clique sur l’année 2019. La page qui s’ouvre propose des données classées par communes, par départements et un fichier compressé full.csv.gz de 28 Mo qui comprend toutes les transactions immobilières de l’année 2019 de tous les départements et territoires français. Ce dernier fichier est probablement un peu trop volumineux pour être traité avec le tableur, il serait plus judicieux de le traiter avec une base de données comme Access ou Libre Office Base.

Données OpenData 001 005

 

Pour obtenir un fichier moins volumineux nous allons prendre uniquement les données du département des Yvelines.

  • Cliquer sur départements et dans la liste qui s’affiche.
  • Sélectionner 78.csv.gz.
  • Cliquer sur ce nom pour télécharger le fichier.

 

Données OpenData 001 006

 

Le fichier 78.csv.gz est un fichier compressé au format GZ qui est l’abréviation de Gzip. Pour l’exploiter il faut le décompresser à l’aide d’un logiciel comme 7zip (il en existe d’autres). 7zip a l’avantage d’être gratuit et peut être téléchargé sur le site officiel en français de 7-Zip.

  • Installer 7zip, le lancer et aller dans le répertoire ou a été téléchargé le fichier 78.csv.gz.
  • Sélectionner le fichier et cliquer sur le bouton Extraire dans la barre de 7zip.

  • Une autre fenêtre s’ouvre indiquant le répertoire où sera décompressé le fichier.

  • Cliquer sur Ok après avoir éventuellement modifié ce chemin.

Données OpenData 001 007

 Par défaut ici 7zip a décompressé le fichier dans le répertoire D:\Téléchargements\78.csv. Dans ce répertoire ou obtient le fichier nommé 78.csv.

 Si on ouvre ce fichier avec le bloc note de Windows (sélectionner tous les fichiers (*.*) au lieu de Fichiers texte (*.txt) dans la fenêtre de sélection pour pouvoir afficher et sélectionner le fichier), on obtient une liste de données comme ci-dessous.

 Données OpenData 001 008

 

Le fichier obtenu est au format csv qui signifie Comma-Separated Values. Les données sont affichées par lignes et les valeurs  sont séparées par des virgules. La première ligne précise les noms des champs (colonnes). Ici les champs sont séparés par des virgules mais il peut y avoir d’autres séparateurs comme un point-virgule ( ; ), une barre verticale ( | ) ou des tabulations.

 

 

2 - Importer le fichier dans Libre Office Calc

Bien que cet article détaille les opérations à effectuer dans Calc, si vous n’êtes pas familier avec ce tableur vous pouvez avant visionner les vidéos de l’article LibreOffice Calc : prise en main et création d'un livre de compte

Nous allons importer ce fichier dans Libre office Calc.

  • Lancer Libre office Calc.
  • Ouvrir le fichier décompressé 78.csv (menu Fichier -> Ouvrir).

Une fenêtre concernant les paramètres d’import s’ouvre. Voici les champs les plus importants à bien paramétrer :

  •  La rubrique jeux de caractères permet de choisir la page de code de caractères. En regardant l’extrait des données affiché dans la partie inférieure de la fenêtre, on peut vérifier l’affichage des données. Si des données s’affichent avec des caractères bizarres (notamment à la place des caractères accentués) il faut essayer d’autres pages de codes. Unicode (UTF-8) convient en général dans la plupart des cas.

Données OpenData 002 001

  • Les cases Options de séparateur sont à cocher en fonction du séparateur utilisé. Ici on a coché la virgule. Aussitôt l‘affichage des données change et ces dernières semblent être correctement délimitées dans leurs colonnes. Si par exemple le séparateur est une barre verticale comme ( « | »), cocher la case Autre et mettre « | » dans le champ.

 Données OpenData 002 002

  • La rubrique Champs permet de choisir le type de champ importé (format texte, décimal, date, etc. …). Par exemple si on sélectionne le champ « date_mutation »  et que dans le type de colonne on choisit Date, le champ sera importé au format date dans Libre Office Calc.

 Données OpenData 002 003

 

Note : Si on laisse « Standard » le tableur interprètera les données de la colonne comme des nombres ou du texte en fonction de l’environnement. Il peut y avoir des pièges. Par exemple si on importe un fichier recensant les communes avec leur code postal et si pour la colonne code postal on laisse « Standard », le tableur va interpréter les données comme des nombres. Le code postal 40170 sera bien restitué mais le code postal 04150 sera intégré comme 4150, le 0 devant sera enlevé. Dans ce cas il faudra importer la colonne en tant que « texte » ou lieu de « Standard » pour obliger le tableur à intégrer les données de la colonne en tant que texte.    

  • Cliquer sur OK pour importer le fichier.
  • Calc s’ouvre en affichant les données rangées dans les colonnes correspondantes.

Données OpenData 002 004

Le fichier est encore au format CSV.

  • Faire fichier -> Enregistrer.
  • Calc demande de confirmer le format de fichier.
  • Choisir « Utiliser le format ODF » pour enregistrer le fichier au format Classeur de Libre Office Calc et profiter de toutes les fonctionnalités.

Par défaut le fichier va être enregistré sous le nom 78.ods.

Données OpenData 002 005

 

 

3 – Exploiter le fichier de données

 Maintenant que le fichier est correctement chargé dans le classeur, nous allons pouvoir exploiter les données.

Le fichier comprend  25524 transactions, pour traiter et afficher les données qui nous intéressent nous allons appliquer des filtres.

  • Dans la barre de menu aller dans Données et sélectionner Autofiltre.
  • Des petites flèches s’affichent sur la première ligne au niveau de chaque tête de colonne. Si par exemple on clique sur la flèche de la colonne D correspondant au champ  nature_mutation, on affiche la liste des données contenues dans cette colonne. Les valeurs cochées sont affichées, si on décoche des valeurs les données ne sont pas affichées. En jouant sur plusieurs colonnes on peut ainsi filtrer les affichages et ne traiter que les données qui nous intéressent.

Données OpenData 002 006

 

 On peut aussi mettre en place des filtres plus élaborés. Par exemple si on souhaite connaitre le prix de vente des maisons dont la surface au sol est comprise entre 80 et 100 m2 et qui se sont vendues dans les Yvelines en 2019, on doit poser les filtres suivants :

  • Nature_mutation = Vente
  • Type_local = Maison
  • surface_reelle_bati supérieure ou égale à 80 m2 et surface_reelle_bati inférieur ou égale à 100 m2.

Dans le menu de Calc aller dans Données -> Plus de filtres -> filtre standard  

La boite de dialogue ci-après s’ouvre. 

  • Nom de champ liste les noms des champs (tête de colonne).
  • Condition permet de sélectionner le type de condition (supérieur, égal, inférieur ou égal, commence par, …).
  • Valeur permet de sélectionner la valeur de la condition. La liste affiche toutes les valeurs contenues dans la colonne. Si on ne trouve pas la valeur que l’on souhaite on choisit la valeur la plus proche ou on saisit directement dans le champ la valeur souhaitée.

Dans notre exemple voici les paramètres de filtres correspondants aux conditions définies un peu plus haut.

Données OpenData 002 007

On clique sur OK , seuls les enregistrements correspondants à nos critères s’affichent alors.

Pour pouvoir faire des calculs sans modifier les données originales il est utile de copier la sélection dans une autre feuille de calcul.

  • Pour créer une nouvelle feuille de calcul cliquer sur le bouton « + » en bas à gauche de la feuille de calcul en cours qui devrait s’appeler 78 si aucune modification n’a été faite.
  • Après avoir cliqué sur « + » une nouvelle feuille nommée « Feuille2 » devrait être créée.

On revient maintenant à notre sélection de filtres (Données -> Plus de filtres -> Filtre standard).

Si on veut par exemple, avec les mêmes critères, ne sélectionner que les ventes de maison ne concernant que la commune des Clayes-sous-Bois et calculer pour celles-ci le prix de vente au m2, il faut rajouter le critère Nom_commune = Les Clayes-sous-Bois comme ci-dessous (manipuler l’ascenseur de la boite de dialogue pour se déplacer, la boite de dialogue n’affiche que 4 critères à la fois).

  • Cliquer ensuite sur le bouton « + » à gauche de Options pour définir l’endroit où notre sélection va être copiée. Pour cela cocher la case « Copier le résultat vers : «  et cliquer sur le bouton de sélection de l’emplacement.
  • Aller sur la feuille2 et sélectionner une cellule.
  • La boite de dialogue marque automatiquement quelque chose comme $Feuille2.$A$2 si on a cliqué sur la cellule A2 de la feuille2.
  • Appuyer sur la touche entrée pour valider et revenir à la boite de critères comme ci-dessous.

Données OpenData 002 008

  • Cliquer sur OK.
  • La sélection s’affiche dans la feuille2.

On voit qu’il y a 13 enregistrements qui correspondent à nos critères.

Pour calculer le prix au mètre carré :

  • Aller à la colonne AF.
  • Sélectionner la cellule Ligne 15 Colonne AF.
  • Saisir =somme(
  • Avec la souris sélectionner les lignes 2 à 14 de la colonne AF en maintenant le bouton gauche de la souris appuyé.
  • Dans la cellule Ligne15 colonne AF devrait s’afficher =somme(AF2 :AF14
  • Appuyer sur la touche entrée pour valider. 1211 devait s’afficher  comme le total des surfaces.
  • On fait de même pour le total des valeurs foncières Colonne E. Le montant total des ventes s’élève à 4 743 125 €.

Le prix moyen du mètre carré est donc de 4 743 125/1211 soit 3917 €

Données OpenData 002 009

 

Si on charge les fichiers des années précédentes on peut alors par exemple calculer l’évolution du prix au mètre carré en fonction du temps et aussi tenir compte d’autres critères comme la surface du terrain ou le quartier pour améliorer la précision ou la fiabilité.

  

Vous êtes sur liste noire.