La première carte d'occupation des sols 2016 de la France avec Sentinel-2

(article copié depuis le blog OSO)

La carte d'occupation des sols 2016 est là

Poster_OSO_V4.png

Une fois n'est pas coutume, nous sommes en avance. Enfin, presque. Nous avions promis une carte d'occupation des sols 2016 de la France métropolitaine avant la fin du premier trimestre 2017. Elle existe et est disponible ici. Il s'agit d'une carte à 10 m de résolution, avec la même nomenclature que celle utilisée pour les derniers produits prototypes Landsat à 17 classes.

La carte est principalement basée sur des données Sentinel-2 allant de fin 2015 à fin 2016, mais nous avons aussi utilisé des données Landsat-8. Nous vous donnons les détails de la procédure de production plus bas.

En termes de qualité, les statistiques indiquent quelque chose d'assez similaire à ce que nous obtenions avec Landsat-8. Les améliorations apportées par Sentinel-2 ne sont pas négligeables (il suffit de regarder la carte), mais elles ne sont pas visibles sur les statistiques globales à tout le territoire.

 

Nous allons bientôt ajouter la Corse. Le produit régularisé à 20 m ainsi que les couches vecteur seront mises à disposition dans les semaines à venir. Pensez d'ailleurs à nous donner votre avis en répondant à l'enquête en ligne disponible ici.

Interface de visualisation

La classification est affichée sur un fond d'imagerie à très haute résolution. On peut jouer sur l'opacité (curseur sous l'image). Si vous cliquez sur un pixel, le nom de la classe s'affiche.

 

En haut à droite de l'interface de visualisation vous trouverez un bouton qui vous permet d'afficher 2 couches supplémentaires :

  • Validité : c'est le nombre de dates valides (pas de nuage, pas d'ombre) utilisées pour reconnaître la classe de chaque pixel. Vous verrez qu'il y a des fortes différences entre les zones à cause du recouvrement des traces au sol du satellite, et bien entendu, à cause de la météo.
  • Confiance : c'est la probabilité de la classe choisie pour chaque pixel. L'algorithme de classification fait un vote majoritaire à partir de 100 classifieurs individuels. La confiance est le pourcentage de classifieurs qui ont voté pour la classe majoritaire. Avec 17 classes, cette probabilité pourrait être inférieure à 6%, mais globalement, elle est bien supérieure à 40%. On remarque que la confiance est plus faible dans l'Ouest, le pourtour méditerranéen et sur les grandes villes. Inversement, elle est élevée sur les grandes cultures du centre et sur les forêts (on reconnaît la forêt des Landes sur la carte de confiance).

 

Sous l'affichage de l'image, on retrouve les statistiques de validation. D'abord,il y a les pourcentages globaux :

  • OA: Overall Accuracy ou précision globale qui donne le pourcentage de pixels bien classés
  • Kappa: indice statistique similaire à l'OA, mais corrigé à la baisse pour prendre en compte qu'une classification aléatoire aurait aussi des pixels bien classés.

 

Pour chaque classe on affiche aussi le FScore, une métrique dont l'optimum est à 1 et qui combine sur-détection et sous-détection.

 

Comme les classes de surfaces artificialisées sont très confondues entre elles, nous avons ajouté le FScore des 4 classes réunies. Pour ce qui concerne les cultures annuelles (été et hiver), la procédure de classification (décrite ci-dessous) ne nous permet pas de valider avec le même jeu de données que pour le reste des classes. Nous fournissons donc le FScore avec les 2 classes réunies, mais aussi mesuré avec les classes séparées en utilisant un jeu de données restreint.

Téléchargement des fichiers

Pour télécharger les fichiers raster au format Geotiff, vous pouvez utiliser les liens suivants :

La procédure de production

Pour cette première production "officielle", nous avons rencontré un certain nombre de difficultés (de disponibilité de données, de ressources informatiques, de comportements algorithmiques inattendus) qui nous ont demandé beaucoup de travail et de recherche de solutions mobilisant des compétences très variées.

L'utilisation de Landsat-8

Nous avions prévu d'utiliser de façon conjointe les séries Landsat-8 et Sentinel-2 pour avoir une caractérisation très fine des évolutions temporelles des surfaces observées. Malheureusement, nous avons été confrontés à des différences de calage géométrique et, surtout, à des problèmes de perte de définition liées à la différence de résolution entre Landsat (30 m) et Sentinel-2 (10 et 20 m en fonction des bandes).

 

Nous avons dû faire un choix entre quantité de données et précision géométrique. Etant donné que les résultats obtenus avec Sentinel-2 seul sont satisfaisants, nous avons décidé de ne pas utiliser les données Landsat-8 comme prévu. Elles ont tout de même été utilisées pour résoudre un autre problème décrit ci-dessous.

CropMix

CropMix est le petit nom donné par Arthur et Vincent à la technique mise en oeuvre dans iota2 pour faire de la classification des cultures annuelles sans donnée de référence pour l'année en cours. L'approche a été d'abord prototypée pendant le stage de fin d'études de Dawa Derksen.

 

Pour les produits prototypes nous utilisions le Registre Parcellaire Graphique (RPG) qui nous fournit un grand nombre d'échantillons d'apprentissage. L'inconvénient du RPG est qu'il est disponible trop tard pour la mise à jour annuelle de la carte d'occupation des sols. A titre d'exemple, nous ne disposons pas à ce jour de la version 2015. Donc pour la carte 2016, nous ne pouvions pas compter sur le RPG et la dernière version disponible est celle de 2014. Mais une donné, même de 2015, n'aurait pas été utile, car une parcelle de culture d'été (tournesol, par exemple) en 2015, pourrait bien être une culture d'hiver (blé, par exemple) en 2016.

 

Nous avons donc été obligés de développer une technique (adaptation de domaine dans le jargon de l'apprentissage automatique) pour utiliser le RPG 2014. Une difficulté supplémentaire s'ajoute au problème, car en 2014 il n'y avait pas d'image Sentinel-2, car le satellite n'était pas encore lancé. Nous avons donc utilisé des images Landsat-8 de 2014 pour transférer l'apprentissage sur des images Landsat-8 de 2016, puis nous avons fait une nouvelle opération de transfert pour pouvoir utiliser cet apprentissage sur des données Sentinel-2 de 2016.

 

Il reste encore le problème de la validation de ce résultat, car le RPG était aussi utilisé pour valider nos classifications. Pour cette tâche, nous avons pu compter sur la présence de données de référence qui, si elles n'étaient pas en quantité suffisante pour l'apprentissage, permettent tout du moins de faire une validation indépendante. Ce sont ces statistiques qui accompagnent la carte publiée. Vous verrez que les résultats sont tout à fait acceptables.

La Corse

Pour des questions purement pratiques (découpage des tuiles et des régions climatiques), nous n'avions pas travaillé sur la Corse lors de la production des cartes prototypes. Nous avons donc traité cette zone pour la première fois très récemment et, comme il fallait s'y attendre, nous avons eu des surprises liées à la faible présence de surfaces bâties et de grandes cultures. Ceci nous a demandé de modifier légèrement la stratégie d'échantillonnage utilisée dans la phase d'apprentissage de la chaîne iota2. Malgré tout, le résultat sur la Corse est tout à fait similaire à celui du reste du territoire cartographié. La carte sera disponible dans quelques jours seulement. Le point positif est que nous avons pu valider encore une fois la facilité d'adaptation de l'approche utilisée lors de l'application à de nouvelles zones.

Remerciements

Même si le travail n'est pas encore fini (on vous doit encore des produits et de toute façon nous allons continuer à améliorer la carte et les algorithmes), il est bon de ne pas oublier que ce GeoTiff que nous avons déposé sur un serveur ne serait pas là sans le travail de beaucoup de personnes.

Il faut évidemment remercier Arthur Vincent, CDD au CESBIO, qui travaille sur iota2 depuis septembre 2015. C'est lui presque tout seul qui a construit la chaîne de traitement qui permet de traiter des dizaines de téra-octets de données avec une seule ligne de commande. Mais Arthur n'est pas non plus parti de rien, puisque avant lui, Benjamin Tardy d'abord et Marcela Arias ensuite, ont mis en place la première chaîne automatique pour faire des cartes d'occupation des sols sur de grandes étendues au CESBIO. Marcela a notamment fait un grand travail de validation et de production des premiers prototypes diffusés. Toujours sur la validation et la production, David Morin nous a bien aidé pendant quelques mois en 2016, et depuis septembre, c'est Vincent Thierion qui entre autres tâches a aussi bien pris en main cette activité, et ce, malgré les accidents au ski …

iota2 est une belle réussite, mais elle n'existe que grâce à des logiciels libres de très bonne qualité qui nous permettent de traiter des images satellites comme si c'était quelque chose de facile. Donc chapeau à l'équipe de développement de l'OTB qui depuis quelques années prend en compte nos demandes de fonctionnalités et qui, avec une réactivité impressionnante, nous fournit des perles logicielles qui nous facilitent la vie. Merci donc à Julien, Guillaume, Manuel, Rashad, et plein d'autres que je n'oublie pas.

iota2 commence à être utilisée en dehors du CESBIO (eh, oui, c'est du logiciel libre). Les retours de ces utilisateurs, mais aussi nos collègues du CESBIO qui s'en servent (Claire Marais-Sicre, Camille Truche) nous aident aussi à améliorer les choses. Et si iota2 marche bien c'est aussi parce que nous utilisons des images en entrée qui sont de très bonne qualité. Cette qualité est atteinte par des traitements développés au CESBIO par Olivier Hagolle et Mireille Huc, industrialisés par le CNES et CS-SI dans la chaîne MACCS et intégrés dans le centre de traitement MUSCATE du CNES qui fait la production opérationnelle pour Theia. Un grand merci aux équipes de développement et d'exploitation du CNES qui ont souffert pour nous offrir ces premières productions.

Et encore au CESBIO, il y a des collègues qui nous ont beaucoup aidé dans la localisation et récupération de bases de données (Jean-François Dejoux principalement), dans la mise en place de l'interface de diffusion des produits (Michel Le Page, Philippe Chibaudel, Laurent Drapeau), dans la fourniture de données terrain pour des validations ponctuelles (Claire Marais-Sicre, Camille Truche).

Les collègues de Dynafor (Donatien Dallery, David Sheeren, Mathieu Fauvel) ont travaillé avec Vincent Thierion sur la partie de post-traitement qui va nous permettre de vous fournir des produits vecteurs de très bonne qualité.

Il faut aussi rendre hommage aux équipes la DSI du CNES qui nous aident depuis plus d'un an à améliorer les performances de iota2 sur le cluster HPC du CNES.

Le travail que nous faisons s'inscrit dans le Centre d'Expertise Scientifique sur l'Occupation des Sols (opérationnelle) du Pôle Theia. Il est clair que notre travail aurait manqué de visibilité et de cadre sans l'existence de Theia et du label associé. Il faut aussi souligner que la plupart des ressources financières, y compris le CDD d'Arthur Vincent, viennent du programme TOSCA du CNES.

Et pour finir, soulignons que ce travail est fait pour produire des cartes qui seront utiles. Nous avons travaillé avec des utilisateurs externes depuis presque le début en recueillant leurs besoins, en leur proposant des produits prototypes et en écoutant leurs critiques toujours constructives. Ces interactions sont précieuses pour nous et nous espérons qu'elles vont se poursuivre pour que les produits continuent à s'améliorer.

 

Posted under: Applications, CESBIO, Land cover - Occ.des sols, Sentinel-2, THEIA

Tagged as:

17 comments

  • Simon on 30/03/2017 at 16:49 said:

    C'est impressionnant ! Je suis allé vérifier la maison de mon grand-père, elle est bien classée en urbain diffus ! La nomenclature risque de lui déplaire par contre.

  • Nafissa Sfaksi on 31/03/2017 at 13:50 said:

    Bonjour,
    Je tiens à saluer le travail de titans que cette couverture de sol a demandé.
    J'ai cependant une question concernant la couche de confiance où vous indiquez que "L'algorithme de classification fait un vote majoritaire à partir de 100 classifieurs individuels." est-ce qu'il s'agit d'un ensemble de classifieurs différents (SVM, RF,NN...) ou toujours le même classifieur avec différents paramétrages?
    cordialement
    Nafissa

    • Arthur VINCENT on 03/04/2017 at 06:57 said:

      Bonjour,
      Il s'agit d'un seul type de classifieur, le Random Forest.
      Ce Random Forest est constitué de 100 arbres, les "100 classificateurs individuels". Le paramétrage (profondeur max, nombre d'échantillons minimal par noeud...) de ces arbres est le même pour chaque arbre.

  • Fateh TESSA on 05/04/2017 at 10:57 said:

    Bonjour ;
    Je salue votre grand travail. J'effectue actuellement un stage sur l'analyse de l'adaptabilité de Iota2 sur le territoire particulier de la Guyane. Ma question est : vous me conseillez d'utiliser les deux types d'images (sentinel 2 et landsat 8) comme image d'entrée, ou je me limite à un seul type (surtout que les images sentinel 2A niveau 2 ne sont pas encore disponibles) ?
    Autre question : ma couche vectorielle de référence et résultante de plusieurs opérations de fusion (grand manque de données sur la Guyane), et c'est une donnée un peu lourde et qui contient certaines erreurs géométriques. Je dois procéder donc à la correction de toutes ces erreurs pour que la chaîne fonctionne ?

  • Jordi Inglada on 10/05/2017 at 16:00 said:

    Bonjour,

    Je vous conseillerais de commencer d'abord par la source de données la plus riche en termes de dates et éventuellement compléter par la suite si nécessaire.

    Pour ce qui concerne les erreurs géométriques, s'il s'agit de décalages légers (moins de 50 m pour des polygones de taille conséquente), le classifieur RF devrait pouvoir s'en sortir. Vous pouvez aussi appliquer un buffer négatif (une érosion) de vos polygones d'apprentissage pour limiter ces erreurs.

  • Quentin C. on 16/05/2017 at 13:41 said:

    Bonjour, merci pour l'ensemble de ces données d'une très bonne finesse. Est-il possible de réactualiser le téléchargement des différents rasters ?

  • Thomas G. on 30/05/2017 at 15:51 said:

    Bonjour,
    Votre travail est d'une précision remarquable, félicitations pour la production de ces données !
    Je souhaiterais savoir s'il est possible de récupérer cette couche d'occupation du sol en format shape ou tab, afin de pouvoir l'exploiter sous SIG (Qgis) et pouvoir y faire nos propres analyses thématiques, comme c'était le cas pour Corine Land Cover par exemple.
    Car en suivant le lien, il nous est possible de télécharger cette couche en format GeoTiff. Je peux simplement visualiser cette couche Raster, mais je ne peux pas l'utiliser (je n'ai pas de table attributaire pour savoir à quoi correspond chaque couleur).
    J'espère avoir expliqué de manière suffisamment claire ma situation, et j'espère que vous pourrez y apporter une réponse.
    Merci d'avance,
    Cordialement,
    Thomas

    • Jordi Inglada on 30/05/2017 at 20:07 said:

      Bonjour,
      Merci pour votre commentaire. Les couches vecteur seront disponibles dans quelques semaines (nous avons beaucoup de retard sur cette production, nous en sommes désolés). En attendant, le raster que vous avez récupéré utilise des couleurs indexées. Dans QGis, en cliquant sur les pixels, vous devriez avoir accès à l'étiquette de la classe. Le lien entre cette étiquette et le nom de la classe est donné dans le fichier de nomenclature disponible ici : http://osr-cesbio.ups-tlse.fr/~oso/nomenclature_ocs_cesbio.txt.
      N'hésitez pas à nous recontacter si besoin.

  • Martin G. on 17/08/2017 at 08:31 said:

    Bonjour,

    Je souhaites attirer votre attention sur une erreur de classification : la quasi-totalité des vignes de Champagne sont classées en culture d'été et non en vigne.

    Il semblerait que ce qui fonctionne dans les vignobles méridionaux ne marche pas aussi bien dans les vignobles septentrionaux.

    Mise à part cela c'est un superbe travail plein d'enseignement !

    Bon courage pour continuer à l'améliorer,
    Cordialement,
    Martin

  • mezrag on 24/08/2017 at 13:47 said:

    bonjour,
    quelles sont les bandes choisies dans landsat 8 pour faire la carte d'occupation du sol de 2016. merci

    • Olivier Hagolle on 25/08/2017 at 08:40 said:

      Bonjour,
      mes collègues utilisent la plupart des bandes (je n'ai pas tous les détails, et toutes les dates disponibles.
      Olivier

    • Jordi Inglada on 05/09/2017 at 07:27 said:

      Bonjour,

      Nous utilisons 6 bandes sur Landsat8 : il s'agit des bandes 2 à 7 (B,G,R,NIR,SWIR1,SWIR2). Nous n'utilisons pas la bande 1, car elle a beaucoup de contenu atmosphérique.

  • Mercedes roman on 10/11/2017 at 17:24 said:

    Hello,

    the product is great. how can I cite it in an article? Thanks.

    • Jordi Inglada on 13/11/2017 at 17:34 said:

      Hi,
      The product itself can be cited as:
      Jordi Inglada, Arthur Vincent, & Vincent Thierion. (2017). Theia OSO Land Cover Map 2106 [Data set]. Zenodo. http://doi.org/10.5281/zenodo.1048161
      The methodology is described in:
      Inglada, J.; Vincent, A.; Arias, M.; Tardy, B.; Morin, D.; Rodes, I. Operational High Resolution Land Cover Map Production at the Country Scale Using Satellite Image Time Series. Remote Sens. 2017, 9, 95. http://doi.org/10.3390/rs9010095

  • Coralie on 21/11/2017 at 10:26 said:

    Bonjour,
    Je recherche les couches vecteurs que vous avez mentionnées dans une de vos réponses comme étant disponibles mais je ne vois pas où les télécharger.
    Merci par avance,
    Bien cordialement,
    Coralie.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>