Nouvelle version des produits d'occupation des sols OSO sur la France en 2014

=>

Nous avons beaucoup travaillé sur la procédure de génération des cartes d'occupation des sols ces derniers mois. Trois axes principaux1 ont été abordés par Arthur Vincent et David Morin au Cesbio :

  1. Le portage et la validation de la chaîne de traitement iota2 sur l'infrastructure de calcul à haute performance (HPC) du Cnes.
  2. L'amélioration de la procédure de préparation des données de référence utilisées pour l'apprentissage des classifieurs et la validation des cartes produites.
  3. La mise au point de la stratification qui permet de spécialiser les algorithmes de classification par zone éco-climatique, par exemple.

En utilisant toutes ces nouveautés, nous avons produit beaucoup (vraiment beaucoup!) de cartes sur la France métropolitaine. Nous venons de mettre en ligne quelques exemples sur l'année 2014 en utilisant toutes les données Landsat8 disponibles. Nous avons choisi de vous montrer les 4 cas qui correspondent aux combinaisons suivantes :

  • sur la donnée de référence :
    1. utilisation de 4 classes de surfaces artificielles (abusivement appelées "bâti") : urbain continu, urbain discontinu, surfaces "route" et zones industrielles et commerciales (2);
    2. regroupement a posteriori de ces 4 classes (3);
  • sur le mode de stratification :
    1. avec stratification par zone éco-climatique (4);
    2. sans stratification, mais avec une fusion de plusieurs (10) classifieurs appris sur des tuiles images différentes.

Le village en rose, au centre de la zone marron, c'est le village de Chateauneuf du Pape, et la zone marron autour du village, ce sont des vignes ! Pas besoin de vérité terrain pour le vérifier, mais on veut bien aller vérifier quand même.

Arthur nous a concocté une interface assez pratique pour la visualisation et la comparaison des différentes cartes.  Vous pouvez y accéder ici. L'icône en haut à droite vous permet de sélectionner les cartes qui seront affichées. A gauche, sous les boutons qui gèrent le niveau de zoom, vous avez la possibilité de sélectionner 2 des cartes pour lesquelles les statistiques de qualité (FScore par classe5) seront affichées sous la zone de visualisation. Cela vous permet d'apprécier les différences entre les approches.

 

Aux 4 nouvelles cartes, nous avons ajouté la version que nous avions publié en début d'année, dont la qualité est inférieure. Si vous regardez la précision globale de cette carte (Overall Accuracy) vous verrez qu'elle est en fait supérieure à celle des nouvelles cartes. Ceci est dû au fait que dans cette ancienne version, nous utilisions beaucoup de pixels d'eau pour la validation, et l'eau est très facile à classer. Le problème principal de cette ancienne version est le sur-classement des zones urbaines au dépens des surfaces minérales naturelles et des vergers. Ceci a été amélioré grâce au travail sur la préparation de la donnée de référence.

 

Pour comparer des cartes, il est utile de regarder les FScore par classe. Vous verrez ainsi que la stratification éco-climatique apporte des améliorations importantes sur les valeurs moyennes et sur les intervalles de confiance.

 

Si vous voulez récupérer les fichiers GeoTiff complets (attention, c'est volumineux!), vous pouvez utiliser les liens suivants :

N'hésitez pas à nous faire des retours. Nous continuons à travailler sur les améliorations des méthodes.

Notes:

1Beaucoup d'autres tâches ont été réalisées, dont la préparation de l'ingestion des données Sentinel-2, par exemple.

2Ces 4 classes correspondent à la nomenclature de Corine Land Cover, dont les polygones du millésime 2012 ont été affinés en utilisant une procédure développée par David et Marcela et décrite dans cette présentation (à partir de la planche 33).

3L'apprentissage et la classification sont toujours faits avec les 4 classes séparées, mais elles sont regroupées à la fin, ce qui permet d'augmenter la précision de la carte en échange d'une perte de finesse thématique. Mais les pixels de 30 m. de Landsat ne nous permettent d'être très précis pour ces classes.

4Nous avons utilisé la carte publiée par Joly et al.

5Nous utilisons cette métrique, car elle combine les erreurs d'omission et de commission.

 

Posted under: CESBIO, En Français, Landsat, THEIA, Validation

Tagged as:

13 comments

  • FERAUD on 13/07/2016 at 14:06 said:

    Beau boulot, mais quelle est la légende ? est-ce le même code couleur que la carte du début d'année ?

    Si c'est la même, des confusions entre vergers et forêt ont été réparées.

    Encore bravo

    • Jordi Inglada on 13/07/2016 at 15:03 said:

      Bonjour,
      Oui, c'est la même légende. Si vous glissez la souris sur les graphiques avec les statistiques, vous aurez les noms des classes.
      Merci pour vos retours.

  • Alain FELER on 05/10/2016 at 12:14 said:

    C'est vraiment intéressant, j'attends la suite avec impatience et avec Sentinel !
    J'ai superposé ça avec le bâti du cadastre et l'ortho, et je crois observer un décalage en y systématique d'environ 2 pixels : vous êtes un peu plus au nord que la réalité (sur mon département).
    Comme Sentinel semble extrêmement bien calé, je suppose que ça disparaitra dans les "vraies" séries.

    • Jordi Inglada on 05/10/2016 at 13:48 said:

      Merci pour votre retour. En effet, les images Landsat-8 utilisées pour la production de la carte sont légèrement décalées. L'ortho-rectification est déjà faite sur les données que Theia reçoit, nous n'y pouvons pas grand chose. En revanche, pour la carte 2016, nous allons utiliser de façon conjointe Landsat-8 et Sentinel-2 et nous serons obligés de décaler toutes les images Landsat pour qu'elles soient bien superposées à celles de Sentinel-2.

    • Olivier Hagolle on 05/10/2016 at 13:52 said:

      Merci pour ce retour !
      Le décalage observé est tout à fait plausible, nous ne l'avons pas mesuré précisément en Bretagne, mais sur la région Toulousaine, il atteint aussi 1.5 pixels.
      Il est assez variable en fonction des régions et des dates, et il provient de la qualité modérée de la géométrie des données LANDSAT 8 que nous n'affinons pas dans nos traitements.
      Effectivement, Sentinel-2 dont la précision de localisation est d'un pixel (10m) actuellement devrait améliorer les résultats.

      Cordialement,
      Olivier

  • Alain FELER on 12/12/2016 at 09:51 said:

    Bonjour,
    En Bretagne il y a beaucoup de zones rocheuses sur le littoral, qui sont confondues avec du bâti (classe 16) dans la version de démo 2014 No stratification 4 urban classes, K : 0.822 +- 0.0012, OA : 0.845 +- 0.0010. Exemple : sur Penmac'h
    Peut-on espérer une meilleure discrimination avec la version réelle basée sur Sentinel ?
    Merci,
    AF

    • Jordi Inglada on 12/12/2016 at 14:02 said:

      Bonjour,

      Merci pur votre analyse.

      Pour donner une réponse précise, il nous faudrait les coordonnées du lieu. Sur la côte au sud de Penmarc'h, la version avec stratification est, je pense meilleure. En règle générale, la version avec stratification est capable de mieux reconnaître les classes minoritaires comme les rochers ou les plages.

      Les données Sentinel-2 peuvent en effet améliorer la reconnaissance des classes pour 2 raisons : une meilleure résolution spatiale et plus de bandes spectrales. Nous allons aussi les utiliser de façon conjointe avec les données Landsat-8, ce qui nous permettra aussi d'avoir plus de dates d'observation, et donc une meilleure description de l'évolution (ou non évolution) temporelle des surfaces.

      Nous n'avons pas encore des résultats quantitatifs pour valider ces attentes, mais nous y travaillons.

      • Alain FELER on 12/12/2016 at 21:36 said:

        Exemple de lieu : la côte sud de la pointe du Raz
        (disons de 124100,6799280 Lambert 93 vers le sud-est, sur des kilomètres).

        • Jordi Inglada on 13/12/2016 at 08:40 said:

          Bonjour,

          Merci pour les coordonnées. En effet, la confusion avec l'urbain est très présente sur cette zone. J'ai regardé des sorties du système qui ne sont pas disponibles :
          1. La carte de confiance (la probabilité que le classifieur attribue à sa propre décision) est souvent inférieure à 50% sur cette zone. Pour vous donner une idée, la moyenne de la confiance sur toute la France est de 78% avec un écart-type de 22. On est donc dans une zone où le classifieur sait qu'il n'est pas bon. C'est déjà ça ...
          2. Le comptage du nombre de dates non nuageuses sur la zone. Souvent, si la confiance su classifieur est faible, cela est dû à peu d'observations disponibles. Cette fois-ci, on a de la chance et la zone se trouve sous le recouvrement de 2 traces satellite, ce qui permet d'avoir environ 14 observations sur la période. La moyenne sur tout de territoire est de 9, car beaucoup de zones sont en dehors des zones de recouvrement de 2 traces satellite.

          La faible confiance du classifieur est donc due à autre chose, probablement au fait que ces zones de rocher ont un comportement particulier par rapport à la plupart des données d'apprentissage qui sont issues de zones montagneuses.

          J'ai aussi regardé la donnée de référence que nous utilisons pour l'apprentissage (CLC 2012 pour la classe "rochers"). Il est intéressant de constater que sur cette région, une bonne partie de la surface minérale autour de Notre Dames des Naufragés est classée en végétation. Vous pouvez d'ailleurs regarder une comparaison intéressante entre le produit OSO et autres OCS ici : http://amcarto.alwaysdata.net/demo/test/compa_ocs.html.

          J'espère que ces éléments vous permettront de mieux comprendre les défauts du produit. Pour nous, votre retour est très utile, car il va nous permettre d'ajouter des points de contrôle supplémentaires dans notre validation, mais surtout, nous allons pouvoir mettre en place des stratégies de traitement pour améliorer la reconnaissance de cette classe.

          Merci encore pour votre contribution à l'amélioration du produit.

  • Alain FELER on 12/12/2016 at 11:20 said:

    ... je souhaitais signaler aussi qu'il manque la partie ouest de l'ile d'Ouessant, en limite d'image.

    • Jordi Inglada on 12/12/2016 at 14:09 said:

      Bonjour,

      Nous en sommes conscients. Il y a d'autres parties du territoire qui ne sont pas couvertes par les produits prototypes, pour des questions de découpage des données utilisées. Les produits "officiels" Theia d'occupation des sols contiendront en 2017 la France métropolitaine (y compris la Corse, que nous avions écartée aussi pour la phase de prototypage). La France d'outre-mer (couverte par les acquisitions Sentinel-2 et Landsat-8) sera ajoutée par la suite, mais là on fait face à des paysages très différents sur lesquels nos algorithmes n'ont pas encore été validés.

  • Alain FELER on 25/12/2016 at 21:03 said:

    Bonjour,

    Petit à petit je lis les docs...

    En lisant "De la classification à la carte : régularisation et vectorisation de l'OCS" dans les présentations du 24/11/2016, je me suis demandé si une version vectorisée ne pourrait pas s'appuyer sur la trame de l'OCS GE de l'IGN, qui est en gros la trame viaire de la BD TOPO.

    Je n'ai pas vu autre chose qu'une petite image de votre OCS future issue de Sentinel, mais avec un pixel à 10m, vous aurez du mal à 'voir' l'ensemble de la voirie, et votre OCS risque de ce fait de continuer à paraître visuellement inférieure à la partie couverture de l'OCS GE, alors que votre argumentaire général sur la répétitivité, l'automaticité, le faible coût, etc. reste imparable et devrait prévaloir.

    • Jordi Inglada on 02/01/2017 at 09:06 said:

      Ce que vous proposez est intéressant et serait certainement utile pour améliorer le produit OSO. Cependant, la mise en oeuvre d'une telle procédure soulève un certain nombre de questions : que fait-on des tronçons de route qui sont couverts par des arbres, comment assurer la cohérence temporelle entre l'OCS GE et le produit OSO en cas de changements, etc. Le produit OSO et l'OCS GE restent des produits complémentaires et non pas concurrents. En revanche, on peut imaginer qu'il y ait des produits dérivés qui fusionnent les 2 afin d'aller vers des cartes qui auraient la précision géométrique de l'OCS GE et la richesse thématique et la fréquence de mise à jour de la carte OSO.

Leave a Reply to FERAUD Cancel reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>