Land cover maps quickly obtained using SPOT4 (Take5) data for the Sudmipy site

=>

At CESBIO, we are developing land cover map production techniques, for high resolution image time series, similar to those which will soon be provided by Venµs and Sentinel-2. As soon as the SPOT4 (Take5) data were available over our study area (Sudmipy site in South West France), we decided to assess our processing chains on those data sets. The first results were quickly presented during Take5 user's meeting which was held last October.

1. Experiments

In this post we describe the work carried out in order to produce these first land cover classifications with the SPOT4 (Take5) Sudmipy images (East and West areas) and we compare the results obtained over the common region to these two areas.

 

Prior to the work presented here, we organized a field data collection campaign which was synchronous to the satellite acquisitions. These data are needed to train the classifier training and validate the classification. The field work was conducted in 3 study areas (figure 1) which were visited 6 times between February and September 2013, and corresponded to a total of 2000 agricultural plots. This allowed to monitor the cultural cycle of Winter crops, Summer crops and their irrigation attribute, grasslands, forests and bulit-up areas. The final nomenclature consists in 16 land cover classes.

 

The goal was to assess the results of a classification using limited field data in terms of quantity but also in terms of spatial spread. We wanted also to check whether the East and West SPOT4 (Take5) tracks could be merged. To this end, we used the field data collected on the common area of the two tracks (in pink on the figure) and 5 level 2A images for each track acquired with a one day shift.

 

OUEST EST
2013-02-16
2013-02-21
2013-03-03
2013-04-17
2013-06-06
2013-02-17
2013-02-22
2013-03-04
2013-04-13
2013-06-07
2. Results

The first results of supervised SVM classification (using the ORFEO Toolbox) can be considered as very ipromising, since they allow to obtain more than 90% of correctly classified pixels for both the East and the West tracks and since the continuity between the two swaths is excellent. Some confusions can be observed between bare soils or mineral surfaces and Summer crops, but these errors should be reduced by using LANDSAT 8 images acquired during the Summer, when Summer crops will develop.

Merging of the land cover maps obtained on the East and West Sudmipy tracks (the cloudy areas were cropped out). The comparison against the ground truth (the black dots on the map to the South-West of Toulouse) results in a kappa coefficient of 0.89 for the West and 0.92 on the East.

 

West EAST

This zoom compares the results obtained on the common area of the two tracks (West to the left and East to the right). The two classifications were obtained independently, using the same method and the same training data, but with images acquired at different dates and with different viewing angles. The main errors are maize plots labeled as bare soil, which is not surprising, since this crop was just emerging when the last image was acquired. There are also confusions between wheat and barley, but even on the field, one has to be a specialist to tell them apart.


3. Feedback and retrospective

After performing these experiments, we were very satisfied with the operationnality of our tools. Given the data volume to be processed (about 10 GB of images) we could have expected very long computation times or a limitation in terms of memory limits of the software used (after all, we are just scientists in a lab!). You will not be surprised to know that our processing chains are based on Orfeo Toolbox. More precisely, the core of the chain uses the applications provided with OTB for supervised training and image classification. One just have to build a multi-channel image were each channel is a classification feature (reflectances, NDVI, etc.) and provide a vector data (a shapefile, for instance) containing the training (and validation) data. Then, a command line for the training (see the end of this post) and another one for the classification (idem) are enough.

Computation times are very interesting: several minutes for the training and several tens of minutes for the classification. One big advantage of OTB applications is that they automatically use all the available processors automatically (our server has 24 cores, but any off the shelf PC has between 4 and 12 cores nowadays!).

We are going to continue using these data, since we have other field data which are better spread over the area. This should allow us to obtain even better results. We will also use the Summer LANDSAT 8 images in order to avoid the above-mentioned errors on Summer crops.

4. Command line examples

We start by building a multi-channel image with the SPOT4 (Take5) data, not accounting for the cloud masks in this example :

otbcli_ConcatenateImages -il SPOT4_HRVIR_XS_20130217_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130222_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130304_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130413_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130607_N1_TUILE_CSudmipyE.TIF -out
otbConcatImg_Spot4_Take5_5dat2013.tif

We compute the statistics of the images in order to normalize the features :

otbcli_ComputeImagesStatistics -il otbConcatImg_Spot4_Take5_5dat2013.tif -out
EstimateImageStatistics_Take5_5dat2013.xml

We train a SVM with an RBF (Gaussian) kernel :

otbcli_TrainSVMImagesClassifier -io.il otbConcatImg_Spot4_Take5_5dat2013.tif
-io.vd DT2013_Take5_CNES_1002_Erod_Perm_Dissolve16cl.shp -sample.vfn "Class"
-io.imstat EstimateImageStatistics_Take5_5dat2013.xml -svm.opt 1 -svm.k rbf
-io.out svmModel_Take5Est_5dat2013_train6.svm

And Voilà !, we perform the classification:

otbcli_ImageSVMClassifier -in otbConcatImg_Spot4_Take5_5dat2013.tif -mask
EmpriseTake5_CnesAll.tif -imstat EstimateImageStatistics_Take5_5dat2013.xml
-svm svmModel_Take5Est_5dat2013_train_6.svm -out ClasSVMTake5_5dat_16cl_6.tif

Des cartes d'occupation des sols obtenues rapidement avec les données SPOT4 (Take5) sur le site Sudmipy

=>

Au CESBIO, nous développons des techniques de production de cartes d'occupation des sols, adaptées aux séries temporelles d'images à haute résolution, comme celles que fourniront bientôt Venµs et Sentinel-2. Quand les données SPOT4 (Take5) ont été disponibles sur notre zone d'étude dans le Sud-Ouest, nous nous sommes dépêchés de mettre à l'épreuve nos chaînes de traitement sur ce jeu d'images. Les premiers résultats ont été évoqués lors de la journée des utilisateurs Take5 qui a eu lieu début octobre 2013.

1. Expérimentation

Dans ce billet, nous décrivons le travail réalisé pour générer ces premières classifications d'occupation du sol avec les données SPOT4-(Take 5) de la zone Sudmipy Est et Ouest, et nous comparons les résultats obtenus sur la zone commune à ces deux zones.

 

En amont de ce travail, nous avons organisé, de manière synchrone aux acquisitions, la collecte de données terrain pour la réalisation et la validation des classifications envisagées. Ces collectes ont été effectuées sur trois zones d'études (figure 1) qui ont été visitées à 6 reprises entre les mois de février et de septembre 2013, au total 2000 parcelles culturales ont été suivies. Ceci a permis de suivre le cycle cultural des cultures d’hiver, des cultures d’été avec une spécification concernant l’irrigation ; les surfaces en herbe, les surfaces de bois et les zones bâties. In fine, la nomenclature comporte 16 classes d'occupation du sol.

 

L’objectif était de connaître la pertinence d’une classification effectuée en utilisant des données terrain limitées tant en terme de quantité que de répartition spatiale. Nous souhaitions aussi vérifier que nous pouvions fusionner les deux traces Est et Ouest de SPOT4 (Take5). Pour ce faire nous avons utilisé 5 images de niveau 2A acquises à un jour d'écart, pour chaque zone, et les données de terrain émanant de la zone commune aux deux emprises (en rose sur la figure ci-contre).

 

OUEST EST
2013-02-16
2013-02-21
2013-03-03
2013-04-17
2013-06-06
2013-02-17
2013-02-22
2013-03-04
2013-04-13
2013-06-07
2. Résultats

Les premiers résultats des classifications supervisées par la méthode SVM (utilisant l'ORFEO Toolbox) apparaissent d'ores et déjà comme très encourageants : ils permettent d'obtenir + de 90% de pixels bien classés, tant pour la partie Ouest que pour la partie Est, et la continuité entre les deux zones est excellente. Quelques confusions existent entre sols nus/surfaces minérales et cultures d'été, qui devraient être largement réduites par l'utilisation d'images LANDSAT 8 acquises en été, période pendant lesquelles les cultures d'été vont se développer.

Assemblage des cartes d'occupation du sol obtenues sur la partie ouest et est du site Sudmipy (en excluant les zones nuageuses des deux zones sur les 5 dates choisies). La comparaison avec la vérité terrain (les points noirs sur la carte au Sud Ouest de Toulouse) donne un kappa de 0.89 à l'Ouest et de 0.92 à l'Est. Cet excellent résultat est un peu surévalué car favorisé par le fait que toutes les vérités terrain sont dans la même zone

 

OUEST EST

Ce zoom compare les résultats obtenus sur la zone commune, à gauche à l'ouest, à droite à l'Est. les deux classifications ont été obtenues indépendamment, à partir de la même méthode et de la même vérité terrain, mais avec des images acquises à des dates différentes sous des angles de prise de vue différents. Les principales confusions concernent le mais et les sols nus, ce qui n'est pas étonnant, car à la date de la dernière image disponible, le mais venait juste d'émerger. On note aussi les habituelles confusions entre orge et blé (mais même sur le terrain, il faut être un spécialiste pour faire la différence)


3. Retour d'expérience

Nous avons été très satisfaits de constater l'opérationnalité des outils. En effet, étant donné le volume de données à traiter (environ 10 GO d'images) on aurait pu craindre des temps de calcul très longs ou tout simplement des limitations de capacité de mémoire des logiciels utilisés (après tout, nous ne sommes que des scientifiques dans un laboratoire ...). Vous ne serez pas surpris d'apprendre que les chaînes de traitement sont basées sur l'Orfeo Toolbox. Plus précisément, le cœur de la chaîne utilise des applications fournies avec l'OTB pour l'apprentissage et la classification d'images. Il suffit de construire une image multi-canal, où chaque composante est un attribut de classification (réflectances, NDVI, etc.) et de fournir aussi une donnée vecteur (fichier shapefile, par exemple) avec les données d'apprentissage (et/ou validation). Ensuite, il suffit d'une ligne de commande pour l'apprentissage (voir la ligne de commande à la fin de l'article) et d'une autre pour la classification (idem).

Les temps de calcul restent très intéressants : quelques minutes pour l'apprentissage et quelques dizaines de minutes pour la classification. Un des gros avantages de la classification avec les applications OTB est de profiter de façon automatique du calcul parallèle quand on utilise une machine multi-processeurs (notre machine préférée a 24 cœurs, mais n'importe quel PC standard actuel en a entre 4 et 12!).

Nous allons continuer à exploiter ces données, car nous avons d'autres jeux de données de référence issues de campagnes terrain mieux réparties sur la zone qui devraient nous permettre de contraindre la carte d'occupation des sols, et nous ajouterons les données LANDSAT 8 acquises en été pour éviter les confusions sur les cultures d'été.

 

4. Exemples de lignes de commandes

Nous commençons par construire une image multi-canal avec chaque acquisition Take5 (cet exemple ne prend pas en compte les masques de nuages).

otbcli_ConcatenateImages -il SPOT4_HRVIR_XS_20130217_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130222_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130304_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130413_N1_TUILE_CSudmipyE.TIF
SPOT4_HRVIR_XS_20130607_N1_TUILE_CSudmipyE.TIF -out
otbConcatImg_Spot4_Take5_5dat2013.tif

Nous calculons ensuite les statistiques des images afin de normaliser les canaux :

otbcli_ComputeImagesStatistics -il otbConcatImg_Spot4_Take5_5dat2013.tif -out
EstimateImageStatistics_Take5_5dat2013.xml

Nous lançons l'apprentissage d'un SVM avec un noyau RBG (gaussien) :

otbcli_TrainSVMImagesClassifier -io.il otbConcatImg_Spot4_Take5_5dat2013.tif
-io.vd DT2013_Take5_CNES_1002_Erod_Perm_Dissolve16cl.shp -sample.vfn "Class"
-io.imstat EstimateImageStatistics_Take5_5dat2013.xml -svm.opt 1 -svm.k rbf-io.out svmModel_Take5Est_5dat2013_train6.svm

Et hop, nous lançons la classification :

otbcli_ImageSVMClassifier -in otbConcatImg_Spot4_Take5_5dat2013.tif -mask
EmpriseTake5_CnesAll.tif -imstat EstimateImageStatistics_Take5_5dat2013.xml
-svm svmModel_Take5Est_5dat2013_train_6.svm -out ClasSVMTake5_5dat_16cl_6.tif

Le site Take5 de Midi-Pyrénées - Réunion le 6 février 2013

Le CESBIO s'est bien évidemment mobilisé pour proposer plusieurs sites pour l'expérience Take5. Trois sites ont été proposés et finalement retenus : un site au Maroc, un site en Tunisie et un grand site occupant tout le Sud de la région Midi-Pyrénées, de Cahors jusqu'à la frontière Espagnole. Le site SudMiPy couvre 220*160 km², soit l'emprise de 12 images SPOT.

Les 8 images à l'ouest seront acquises simultanément, le jour 2 du cycle de 5 jours, les 4 images à l'ouest seront acquises le jour 3. Il existe une zone d'intersection qui s'étend de Cahors au Val d'Aran en passant par Montauban, Toulouse, Rieumes et Saint Girons, qui sera observée deux fois lors de chaque cycle de 5 jours, à un jour d'intervalle et sous deux angles assez différents.

Une réunion (invitation) présentant l'expérience Take5 et les activités prévues sur le site SudMiPy aura lieu le 6 février après midi au CESBIO (merci à ceux qui comptent venir de prévenir Jean-François Dejoux)

Jean-François Dejoux a réuni pour cette proposition 12 équipes scientifiques basées en Midi-Pyrénées, qui travailleront sur 7 sujets différents :

  1. Détection de nuages, corrections atmosphériques, produits composites mensuels
  2. Détection de la couverture neigeuse, observation et modélisation du dépôt et de la fonte de la neige, et lien avec le bilan hydrologique de bassins versants
  3. Développement de méthodes automatiques et robustes de classification de l'occupation des sols, permettant de traiter de grandes superficies
  4. Production de cartes d'occupation des sols.
  5. Détection et caractérisation des cultures irriguées dès leur émergence
  6. Production de cartes de rendement, biomasse et évapo-transpiration, bilans hydrologiques à l'échelle de bassins versants
  7. Détection des étendues d'eau, modélisation du signal fourni par le futur satellite SWOT, à partir de l'occupation des sols.

Par ailleurs, sur la même zone, l'INRA de Bordeaux a prévu de travailler sur la date de débourrement de différentes espèces d'arbres dans les Pyrénées, en étudiant la variation de cette date avec l'altitude.

Bien entendu, l'utilisation de ces données n'est pas limitée à ces 7 applications, et les personnes intéressées par ces données sont invitées à nous contacter, et à commencer au plus vite leurs relevés de terrain, les 4 mois de l'expérience Take5 seront vite passés.