Premières validations de la carte d'occupation du sol OSO

En 2017, le Centre d'Expertise Scientifique OSO (Occupation du SOl) par l'intermédiaire du CESBIO a produit une carte d'occupation du sol de l'année 2016 à l'échelle du territoire métropolitain français et corse. On l'appelle la carte d'occupation du sol OSO ! Cette carte est le résultat de traitements automatiques massifs de séries temporelles d'images satellites optiques Sentinel-2. Comme les images Sentinel-2, cette carte a une résolution spatiale de 10 m correspondant à une unité minimale de collecte (UMC) de 0.01 ha. L'occupation du sol est décrite grâce à 8 classes au premier niveau et 17 classes à second niveau de détail, définies en fonction des potentialités de détection de l'imagerie Sentinel-2 et des besoins exprimés par des utilisateurs finaux. Ces classes couvrent les grands thèmes d'occupation du sol (surfaces artificialisées, agricoles et semi-naturelles).

Son principal avantage en comparaison avec d'autres cartes d'occupation du sol existantes, (loin de nous l'idée de les critiquer) est son exhaustivité territoriale et surtout sa fraîcheur ! Disposer d'une carte d'occupation du sol exhaustive sur l'ensemble du territoire national au premier trimestre de l'année suivante, c'est ce qu'OSO vous propose !

Quelle richesse thématique ?

Les classes détectées par télédétection sont celles du second niveau, celles du premier niveau sont obtenues par agrégation des classes du second niveau :

  • Culture annuelle
    • Culture d'hiver
    • Culture d'été
  • Culture pérenne
    • Prairie
    • Verger
    • Vigne
  • Forêt
    • Forêt de feuillus
    • Forêt de conifères
  • Formation naturelle basse
    • Pelouse
    • Lande ligneuse
  • Urbain
    • Urbain dense
    • Urbain diffus
    • Zone industrielle et commerciale
    • Surface route / asphalte
  • Surface minérale
    • Surfaces minérales
    • Plages et dunes
  • Eau
    • Eau
  • Glaciers et neiges éternelles
    • Glaciers et neiges éternelles

Avec quelle qualité ?

Valider une carte d'occupation n'est pas une procédure simple. Il s'agit de s'interroger sur :

  • la spécification des classes
  • l'échelle de validation
  • le jeu de données de validation

Dans tous les cas, il est rarement possible d'établir une validation exhaustive sur l'ensemble d'un territoire. Classiquement, une validation statistique permet d'appréhender partiellement la précision de la cartographie obtenue, et ne permet pas d'identifier l'ensemble des confusions thématiques et des erreurs géométriques de classification.

La suite de cet article tente de qualifier la précision de la carte d'occupation du sol OSO de 2016 grâce à des jeux de données de partenaires du CES OSO. Une première validation, intrinsèque au processus de classification, a été effectuée. Les résultats statistiques sont visibles ici.

Le jeu de données d'échantillons de la couverture de surface a été produit grâce à des bases de données nationales telles que la BD Topo, le Registre Parcellaire Graphique (RPG) et Corine Land Cover. 70% de ces échantillons ont été utilisés pour l'apprentissage et 30% pour la validation a posteriori visible sur la figure ci-dessous. Cette validation, bien que pertinente, s'appuie sur des échantillons dont la génération suit la même procédure que les échantillons d'apprentissage, biaisant quelque peu l'indépendance de la validation.

Validation de la carte d'occupation du sol OSO avec 30% des échantillons extraits des 3 jeux de données utilisés lors de la classification - BD Topo, Registre Parcellaire Graphique et Corine Land Cover)

De plus, il nous était impossible de valider les deux cultures annuelles de la classification. En effet, l'indisponibilité du RPG pour l'année 2016 et 2015 (toujours indisponible le jour de l'écriture de cet article), nous a amené à développer une méthode d'apprentissage basée sur le principe de l'adaptation de domaine utilisant des échantillons du RPG 2014. Cette méthode est très bien expliquée ici. Quoiqu'il en soit, il nous était impossible de valider la classification des cultures d'été et d'hiver de 2016, seuls des échantillons issus du terrain nous le permettait, en voilà la preuve !

Jeux de données utilisés

Avant de commencer, quelques mots sur la théorie... La validation par classe du résultat d'une classification se fait grâce à trois indicateurs de précision issus de la matrice de confusion, c'est à dire la contingence entre les deux jeux de données : la classification et la référence (vérité terrain) :

  • la Précision qui fait référence aux pixels correctement classés par rapport à la vérité du terrain
  • le Rappel qui fait référence aux pixels d'une classe observée sur le terrain correctement classées dans la classification
  • le F-score ou moyenne harmonique qui synthétise les deux précédents indicateurs

Afin de calculer ces indicateurs de précision, il est donc nécessaire d'établir les correspondances typologiques entre la nomenclature du jeu de données de validation et la nomenclature d'OSO. Pour des raisons de clarté, ces correspondances ne sont pas présentées dans cet article. Dans le cas des deux dernières validations, la validation des deux niveaux de la nomenclature d'OSO sont présentés.

Les jeux de données de validation nous ont été fournis par différents organismes, tant du monde de la recherche que de partenaires opérationnels, donnant à ces résultats une indépendance que forcément nous recherchons !

Résultats des validations

Jeu de données de l'UMR Dynafor (INRA de Toulouse) : Projet MUESLI

L'UMR Dynafor est spécialisée en écologie du paysage. Cette unité modélise les relations entre processus écologiques, techniques et socio-économiques dans la gestion de ressources naturelles renouvelables. Ses travaux s'appuient sur des prospections terrain établies dans les paysages agriforestiers du site LTER (Long-Term Ecological Research) des Vallées et Coteaux de Gascogne. Dans le cadre du projet de recherche MUESLI (MUltiscale mapping of Ecosystem Services by very high spatial resolution hyperspectral and Lidar Images), une campagne de relevés d'occupation du sol a été menée en 2016 sur 30 zones circulaires de 1km².

La nomenclature détaillée de cette cartographie comporte plus de 60 classes :

  • cultures annuelles (env. 15 espèces)
  • prairies
    • permanentes / temporaires
    • mode de gestion
    • variétés
  • friches
  • espèces arborées

Cette première validation nous permet de confirmer la relative efficacité de notre méthode pour identifier les cultures d'été et d'hiver, alors même que nous ne disposons pas d'échantillons de cultures d'été et d'hiver en 2016 (Registre Parcellaire Graphique indisponible en 2015 et 2016).

Indicateurs de qualité (Précision, Rappel et F-score) de la classification OSO avec les échantillons de l'UMR Dynafor

Les performances de classification des forêts de feuillus et des prairies sont équivalentes à celles mesurées avec le jeux de données de référence. A noter que la définition de la classe "Prairie" de la carte OSO fait référence aux prairies permanentes (RPG). Pourtant le processus de classification identifie l'ensemble des surfaces herbacées, à savoir aussi bien les prairies permanentes que les temporaires. Dans les deux cas, la performance de détection (F-Score est supérieur à 80%). La plus mauvaise performance revient à la classe "landes ligneuses". Cette faiblesse s'explique, d'une part, la difficulté de détection de cette classe (physionomie hétérogène), et d'autre part, par la faiblesse du nombre d'échantillons de validation qui représente seulement 1% de l'ensemble des échantillons.

Jeu de données d'Agrosolutions

Agrosolutions "est la filiale expertise-conseil en agroenvironnement du groupe coopératif agricole InVivo" qui regroupe un grand nombre de coopératives agricoles en France (plus de 200). Une convention de données a été établie entre le CESBIO et Agrosolutions pour disposer d'une connaissance détaillée de l'assolement agricole actualisé dans plusieurs régions françaises. Cette connaissance représente une source indispensable à l'amélioration des méthodes de détection de l'assolement agricole. Le jeu de données couvre une grande superficie au centre de la France (Sud de Paris) comme l'illustre la carte ci-contre.
Malgré le grand nombre d'échantillons (plusieurs centaines de milliers d'hectares) fournis par Agrosolutions, la faiblesse sémantique des classes agricoles annuelles d'OSO (culture d'été et d'hiver) ne permet pas d'exploiter celle des données d'Agrosolutions (presque 50 variétés agricoles). Comme le montre l'histogramme ci-contre, la majorité des échantillons de validation concerne la classe "Culture d'hiver".

Il est intéressant de voir que les performances démontrées avec le jeu de données de l'UMR Dynafor sont confirmées avec ce nouveau jeu de données plus conséquent, excepté pour les prairies pour lesquelles la performance de détection (F-Score) est passée de 0.9 à 0.6. Une des raisons possibles est que les échantillons de validation font principalement référence à des prairies temporaires à la différence du jeu de données de Dynafor.

Indicateurs de qualité (Précision, Rappel et F-score) de la classification OSO avec les échantillons d'Agrosolutions

Jeu de données du CESBIO

La campagne de terrain de l'équipe "Occupation du sol" du CESBIO a elle aussi concouru à valider la carte d'occupation du sol OSO au travers de plusieurs campagnes de terrain dans les départements autour de la région toulousaine (Haute-Garonne, Ariège et Tarn), comme le montre la carte ci-contre. Ces campagnes de terrain ont été menées dans le cadre de différents projets de recherche dont les travaux de l'Observatoire Spatial Régional (OSR) et du projet Sensagri.
Comme pour les précédents jeux de données, les classes validées sont les cultures d'été et d'hiver, dont on peut observer une meilleure répartition statistique que pour les jeux de données précédents grâce à la figure ci-contre, et les prairies.

Concernant les performances, visibles ci-dessous, on retrouve les performances mesurées avec le jeu de données de l'UMR Dynafor, avec valeurs de F-score au dessus de 0.9 pour les deux types de cultures annuelles (été et hiver). Les prairies sont quant à elles détectées de manière moins précise, comme cela était déjà observé grâce au jeu de données d'agrosolutions, soit avec une F-score proche de 0.6.

Indicateurs de qualité (Précision, Rappel et F-score) de la classification OSO avec les échantillons du CESBIO

Dans le cas de ce dernier jeu de données, la précision est très élevée, à savoir que les prairies classées correspondent bien à des prairies sur le terrain, à l'inverse les prairies observées sur le terrain correspondent seulement une fois sur deux à des prairies dans la classification. Ce rapport est totalement inversé avec le jeu de données d'Agrosolutions, les prairies présentes sur le terrain sont très bien identifiées (au dessus de 80%), par contre la classification identifie une fois sur deux des éléments non prairiaux.

Jeu de données de l'UMR EMMAH (INRA d'Avignon) : la carte d'occupation du sol de la Réserve Naturelle Coussouls de Crau

Les deux derniers jeux de données de validation ont la particularité d'être des cartes d'occupation du sol qui décrivent de manière exhaustive un territoire d'intérêt à la différence des jeux de données précédents qui correspondent à un échantillonnage d'un territoire

La réserve Naturelle Coussouls de Crau est un paysage de steppe aride situé à quelques kilomètres au Nord de Fos-Sur-Mer et en périphérie orientale du Parc Naturel Régional de Camargue. La carte d'occupation du sol recouvre en partie les communes limitrophes à cette réserve, à savoir Arles, Saint-Martin-de-Crau, Salon-de-Provence, Miramas, Istres et Fos-Sur-Mer.

Carte d'occupation du sol de la Réserve Naturelle Coussouls de Crau (sources : EMMAH - INRA d'Avignon, Microsoft® BingTM Aerial Maps)

Résultats au niveau 1 de la nomenclature

Après analyse de cette carte et mise en correspondance des deux nomenclatures, on obtient la répartition des classes OSO visible sur l'image ci-jointe. Comme attendu, les formations naturelles basses représentées majoritairement par des pelouses naturelles et des prairies naturelles sont dominantes dans ce paysage de steppe. Les cultures pérennes représentées par les oliveraies et les vignes sont aussi un élément structurant de ces paysages.Il faut noter que les vignes et les vergers ne sont pas distinguées dans cette cartographie. Dernière remarque, les forêts présentes dans le premier niveau de la nomenclature, n'ont pas pu être mises en correspondance avec le second niveau OSO. En effet, la carte ne distingue pas les types de forêts, la classe d'origine intitulée "Végétation semi-dense à dense" regroupait les garrigues, forêt et végétation semi-dense à dense.

Les performances d'OSO au niveau 1 de la nomenclature vis-à-vis de la carte d'occupation du sol de la Réserve Naturelle Coussouls de Crau sont assez hétérogènes. Il est intéressant de noter que les valeurs de F-score sont les plus élevées pour les deux classes les plus représentées du paysage d'origine, à savoir les cultures pérennes et les formations naturelles basses avec respectivement 0.85 et 0.76. Pour les 4 autres classes de niveau 1, les F-scores sont plus faibles, en dessous de 0.6, mais avec des indices de Précision systématiquement supérieurs à 0.7. Les pixels de chacune de ces classes correspondent donc réellement à ces classes sur le terrain, mais la cartographie omet des objets de ces types bien présents sur le terrain (valeurs de Rappel faibles).

Indicateurs de qualité (Précision, Rappel et F-score) de la classification OSO extraits de la comparaison d'OSO 2016 avec la carte de la réserve naturelle Coussouls de Crau au niveau 1 de la nomenclature

L'animation ci-dessous permet de compléter l'analyse d'OSO vis-à-vis de la carte de la Crau. Les grandes tendances paysagères de l'occupation du sol de la Crau sont bien respectées, les cultures pérennes, les formations naturelles basses et les surfaces artificialisées bien localisées. On note une sous détection des surfaces en eau comme le montraient les mesures statistiques précédentes. Cette erreur s'explique par le choix de regrouper les surfaces en eau avec les zones humides qui correspondent à des mares temporaires où la végétation est systématiquement présente (immergée, affleurant ou aérienne). De la même façon, on observe la forte sous-détection des cultures annuelles.

Comparaison de la carte de référence avec la classification OSO et une image satellite THRS au niveau 1 (sources : EMMAH - INRA d'Avignon, Microsoft® BingTM Aerial Maps)

Résultats au niveau 2 de la nomenclature

Concernant le niveau 2 de la nomenclature, l'histogramme ci-contre illustre la composition des deux classes dominantes du paysage, à savoir les formations naturelles basses et les cultures annuelles. Les premières sont principalement composées de pelouses alors que les secondes sont composées de prairies et dans une moindre mesure de vergers. On note finalement une composition assez homogène des formes urbaines dense, diffuse et, industrielles et commerciales.

Indicateurs de qualité (Précision, Rappel et F-score) de la classification OSO extraits de la comparaison d'OSO 2016 avec la carte de la réserve naturelle Coussouls de Crau au niveau 2 de la nomenclature

D'après l'histogramme ci-dessus et l'animation ci-dessous, les performances de classification au niveau 2 sont fidèles à celles observées au niveau 1. Les prairies et les vergers (cultures pérennes) ont des taux de précision globalement équivalents au dessus de 0.6. La détection des pelouses est assez performante a contrario de celle des landes ligneuses, cependant faiblement présente sur le territoire. Lors de la mise en correspondance, les landes ligneuses ont été assimilées aux garrigues dégradées et végétation clairsemée et le classifieur a attribué aux pixels de cette zone la classe pelouse. Les cultures d'été et d'hiver ont été mal détectées et souvent classées en prairies ou landes. A noter que la classe "Landes Ligneuses" est en très forte sur-détection, se confondant avec les pelouses principalement mais aussi les vergers et les cultures. De la même façon, le classifieur a détecté des vignes à plusieurs endroits du paysage alors qu'aucune vigne n'est présente dans la carte de référence.

Comparaison de la carte de référence avec la classification OSO et une image satellite THRS au niveau 2 (sources : EMMAH - INRA d'Avignon, Microsoft® BingTM Aerial Maps)

A ce niveau, il est intéressant de noter la bonne capacité d'OSO à illustrer la composition du paysage. Le meilleur exemple est visible dans le grand polygone rose d'urbain au Sud-Est de la zone dans lequel on peut observer la détection de chaque bâtiment individualisé au milieu de surfaces vraisemblablement enherbées.

Jeu de données de la chambre d'agriculture des Pyrénées-Orientales : la carte d'occupation du sol de la région de Villeneuve-de-la-Raho

Les dernière carte de validation est celle qui nous a été fournie par la chambre d'agriculture des Pyrénées-Orientales sur la commune de Villeneuve-de-la-Raho et de ses alentours. Cette carte d'occupation du sol va nous permettre de mesurer les performances de détection de la vigne, des vergers et des friches. Ce paysage agricole bien urbanisé à proximité de la côte méditerranéenne voit s'alterner vignes, vergers, prairies et zones de maraichage.

Carte d'occupation du sol de la région de Villeneuve-de-la-Raho (Pyrénées-orientales) (sources : Chambre d'agriculture des Pyrénées-Orientales, Microsoft® BingTM Aerial Maps)

Résultats au niveau 1 de la nomenclature

La mise en correspondance des nomenclatures permet d'observer, comme précédemment que les cultures pérennes sont les classes dominantes dans ce paysage agricole. En second lieu, les friches et dans une moindre mesure les taillis représentent une part importante de l'occupation du sol. Ces deux types d'origine ont été associés et assimilés à de la forêt. Les cultures annuelles représentent le troisième poste d'occupation du sol avec en suivant les surfaces urbaines.

Indicateurs de qualité (Précision, Rappel et F-score) de la classification OSO extraits de la comparaison d'OSO 2016 avec la carte de la région de Villeneuve-de-la-Raho au niveau 1 de la nomenclature

Au niveau 1, les F-scores des classes "Urbain", "Cultures pérennes" et "Eau" sont supérieurs à 0.7, celui des "Cultures annuelles" au dessus de 0.6. On observe pour ces classes une bonne concordance entre Précision et Rappel. Concernant les cultures annuelles, le déficit de performance peut être dû à la différence de millésime en référence et classification puisque la carte d'occupation du sol de référence a été produite en 2015, alors que la carte OSO reflète une occupation du sol de 2016. Finalement les friches présentes dans la carte de référence on été assimilées au type "Forêt" de la nomenclature OSO. Cette correspondance ne semblait pas adaptée. En effet, la faible de la précision de la classe "Forêt" semble liée à ce sujet. Grâce à l'animation ci-dessous, il est possible de voir que les Forêts de la classe de référence (i.e. les friches), correspondent assez systématiquement aux classes "formations naturelles basses" et "cultures pérennes". Considérer la friche à large échelle est complexe. En effet, pour certains utilisateurs, elle fait référence à des sites industriels désaffectés et envahis par la végétation alors que pour d'autres il s'agit de cultures, souvent pérennes (vignes, vergers, etc.), abandonnées et colonisées. De plus, l'objet "friche" est physionomique complexe et hétérogène, souvent composé des différentes strates de la végétation.

Comparaison de la carte de référence avec la classification OSO et une image satellite THRS au niveau 1 (sources : Chambre d'agriculture des Pyrénées-Orientales, Microsoft® BingTM Aerial Maps)

Résultats au niveau 2 de la nomenclature

Au niveau 2 de la nomenclature pour cette carte de référence, il était impossible de mettre en correspondance les cultures d'été ou d'hiver, puisque seule une classe "céréales" existait. De la même façon, les friches présentes dans la carte de référence n'ont pas été analysées à ce niveau de la nomenclature. Les cultures pérennes à savoir les vignes, vergers et prairies ont des taux de recouvrement assez similaires et, comme cela a déjà été dit dans la partie précédente, l'imperméabilisation des sols assez présente avec presque 20% du territoire occupé par les milieux urbanisés.

Indicateurs de qualité (Précision, Rappel et F-score) de la classification OSO extraits de la comparaison d'OSO 2016 avec la carte de la région de Villeneuve-de-la-Raho au niveau 2 de la nomenclature

Les performances au niveau 2 de la nomenclature OSO sont assez faibles, particulièrement pour les milieux urbains. Cette différence importante entre la carte de référence et la carte OSO provient principalement de la spécification des classes et leur mise en correspondance. Par exemple, la classe "Urbain diffus" a un taux de Précision très faible, la principale explication provient de la différence entre photo-interprétation et détection automatique. Le photo-interpréteur a inclus dans les zones de "Bâti isolé", mis en correspondance avec l'urbain diffus d'OSO, le bâtiment et sa parcelle environnante très souvent en végétation (pelouse, friche, maraîchage, etc.). La très faible valeur de F-score de la classe "Urbain dense", principalement due à une sous-classification de ce thème (rappel très faible), alors même que la classe "Urbain" du niveau 1 a obtenu une bonne performance, illustre très bien la difficulté de mise en correspondance des nomenclatures. Dans ce cas, le bâti aggloméré de la carte de référence a été assimilé à l'urbain dense de la nomenclature OSO. Concernant la classe "Prairie", la majorité des confusions de cette classe sont avec des éléments naturels de type pelouse et lande ligneuse et des cultures annuelles, principalement d'été. Finalement, les scores des classes "Vergers" et surtout "Vignes" sont encourageants et fidèles aux performances mesurées avec les jeux de données utilisées pour la classification.

Comparaison de la carte de référence avec la classification OSO et une image satellite THRS au niveau 2 (sources : Chambre d'agriculture des Pyrénées-Orientales, Microsoft® BingTM Aerial Maps)

Et maintenant ?!

Nous sommes tous d'accord pour dire que l'occupation du sol est une donnée essentielle à de nombreux domaines scientifiques mais aussi opérationnels. Nous sommes aussi d'accord que ce travail de cartographie de l'occupation du sol ne serait pas possible sans l'Agence Spatiale Européenne (ESA) et Copernicus qui nous mettent à disposition des images Sentinel-2, excellemment corrigées des effets de l'atmosphère par Theia et tout ça gratuitement ! Au CES OSO, nous souhaitons garder cette philosophie en mettant à disposition gratuitement cette carte d'occupation du sol afin que vous l'utilisiez pour vos besoins et que vous nous fassiez des retours sur sa qualité, les améliorations que vous souhaiteriez voir et sur vos données terrain que nous pourrions mobiliser pour valider OSO sur de nouveaux territoires ! Alors... à vous de jouer !

Posted under: CESBIO, En Français, Land cover - Occ.des sols, Sentinel-2, THEIA, Uncategorized, Validation

Tagged as: , , , , ,

3 comments

  • courault on 08/12/2017 at 12:52 said:

    Merci Vincent et Jordi pour ce travail et ce premier retour sur la validation sur nos sites.

  • xavier bailleau on 08/12/2017 at 16:19 said:

    Dans la phrase de votre article:
    "Comme le montre l'histogramme ci-contre, la majorité des échantillons de validation concerne la classe "Culture d'été". "
    Vous indiquez cultures d'été alors qu'il fallait sans doute écrire "cultures d'hiver"

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>