Chapitre 2 La modélisation des données spatiales
Dans ce chapitre,nous allons développer une brève introduction à la modélisation des données géographiques.
2.1 Les données vecteur
Les données vecteur sont une modélisation du monde utilisant des points, des lignes et des polygones. Les données “vecteur” sont en général plus utilisées en sciences sociales, les territoires créés par l’homme ayant la plupart du temps des frontières discrètes.
Derrière les données vecteur, se trouvent des points. Les points peuvent représenter des caractéristiques autonomes (comme l’emplacement de l’établissement d’une entreprise), ou peuvent être reliés entre eux pour former des géométries plus complexes telles que des lignes (comme des cours d’eau) et des polygones (les frontières d’un pays).
Ces points sont localisés à travers un système de référence de coordonnées (CRS). La plupart des géométries ponctuelles ne contiennent que deux dimensions (les CRS à trois dimensions contiennent une valeur supplémentaire z pour la hauteur du point en référence au niveau de la mer).
2.2 Les données raster
Les données raster modélisent la surface du globe à l’aide de celulles de taille identique. Les données “raster” sont en générale plus utilisées dans les science environnementales, du fait de la fiabilité des données de télédétections disponibles.
2.3 La structuration des données géographiques avec R
2.3.1 sf pour les données vecteur
Le packages sf
permet de gérer les données vecteur.
Avant sf
existait le package sp
que vous pourrez rencontrer suivant les packages plus spécifiques que vous utiliserez ou en cherchant de l’aide.
Les avantages de sf
sont multiples :
Standardisation : sf utilise le modèle de données simple feature1 qui est un standard largement utilisé dans le domaine de la géomatique.
Simplification du modèle de données. Les données spatiales sont un dataframe avec une variable spécifique renseignant la géométrie en créant un type ad hoc en plus des types standard (numériques, entiers, booléens, caractères, facteur…). Ce dataframe aura une classe spécifique qui lui sera associée (classe
sf
).La syntaxe des fonctions est unifiée et simplifiée selon le manifeste du tidyverse2.
Intégration. Les verbes du tidyverse sont compatibles avec les données spatiales de classe
sf
et vont parfois agir avec des propriétés spécifiques sur les données géométriques. On peut également utiliser le pipe dans le processus de travail.Perfomance : meilleure performance dans la lecture et l’écrite des données. Voir un benchmark sur la page du package sf
2.3.2 raster et stars pour les données raster
Les packages raster
et stars
permettent de gérer les données raster.
raster
est aussi un package historique amené à être supplanté par stars
.
stars
est d’une part plus vaste que raster
, car il vise à gérer les données spatio-temporelle plus largement.
stars
est intégré à sf
et au tidyverse
On se limitera pour la suite du cours aux données vecteur et donc à sf
.