Vous êtes ici : Accueil > Projet > Principe > Chaîne d'apprentissage

Chaîne d'apprentissage

Publié le 17 juin 2021
Chaîne d'apprentissage 


Figure 1 : chaîne d'apprentissage.
 

Annotation des orthomosaïques

L'annotation consiste à repérer, à délimiter et enfin à classifier les arbres appartenant aux espèces d'intérêt afin de constituer les jeux de données qui permettront d'entraîner et de valider le modèle. Dans iDROP, la classification des arbres nécessite l'intervention d'un botaniste expert de la forêt tropicale seul en capacité d'identifier l'espèce d'un arbre par une approche multifactorielle : taille et forme du houppier, couleur, saisonnalité, voisinage,...

La première étape de l'annotation consiste à définir des fenêtres ou régions d’intérêt (RoI) au sein des orthomosaïques. Ces régions sont séparées en deux groupes : entraînement et validation. Au sein de chaque région, les espèces à détecter sont annotées de manière exhaustive. Le travail d'annotation (Figure 2) est réalisé avec l’outil iDROP labeller (Figure 3) qui propose une interface dédiée et gère les intéractions avec la base de données contenant les différents jeux d'images.

 

Figure 2 : annotation des orthomosaïques.
 

L'outil iDROP Labeller a été développé par le CEA en concertation avec les botanistes du CIRAD afin de faciliter le travail d'annotation des arbres qui peut rapidement devenir fastidieux. 

 

 Figure 3 : interface de l'outil iDROP Labeller.


Constitution des jeux de données

Les images des arbres identifiés durant la phase d'annotation sont extraites des orthomosaïques pour venir constituer les jeux de données. Ces images sont redimensionnées (Figure 4) de manière à ce que chaque jeu soit constitué d'images de taille identique.

Figure 4 : image d'un arbre extraite de l'orthomosaïque.
 

Afin d'augmenter la taille des jeux d'entraînement, des images artificielles sont générées à partir d'une même image réelle en effectuant un certain nombre de transformations : 

• Symétrie verticale aléatoire ;
• Symétrie horizontale aléatoire ;
• Fluctuation luminosité / contraste / teinte / saturation aléatoire ;
• Normalisation des valeurs.

Figure 5 : collection d'images artificielles obtenues par transformation d'une seule image réelle.
 

Entraînement du modèle

L'utilisateur fournit un jeu d'images annotés au modèle qui utilise ces informations de référence pour graduellement ajuster ses paramètres et améliorer sa capacité à reconnaître les objets en question : c'est l'entraînement du modèle.

L'entraînement d'un modèle totalement vierge requière une quantité importante de données. Ainsi, le jeu de données Microsoft Common Objects in Context (COCO), qui fait référence dans le domaine, contient plus de 200 000 images annotées. Il est bien sûr inenvisageable de rassembler une telle quantité de données pour entrainer un nouveau modèle. Pour pallier ce problème, il est possible de spécialiser un modèle pré-entraîné à partir d'un nombre d'échantillons raisonnable des types d'objet à détecter : il s'agit du transfer learning. Concernant notre modèle de détection / classification des espèces d'arbre, des premiers résultats très encourageants ont été obtenus avec des jeux comprenant entre 100 et 300 images pour chaque espèce d'intérêt.

 

Evaluation du modèle

La précision : elle est calculée pour chaque espèce indépendamment et reflète la capacité du modèle à ne détecter que les individus appartenant à l’espèce. Autrement dit, un modèle ayant une forte précision aura une faible erreur de commission ; il est possible cependant qu’il ait une erreur d’omission importante. Avec un jeu de données de référence et les résultats de détection d’un modèle, il est possible de comptabiliser le nombre de vrais positifs (TP - un objet correctement détecté), le nombre de faux positifs (FP - une détection erronée) et le nombre de faux négatifs (FN - un objet non détecté). La précision se calcule alors avec la formule suivante :

 


• Le rappel : il est calculé pour chaque espèce indépendamment et reflète la capacité du modèle à détecter
tous les individus de l’espèce. Un modèle avec un rappel élevé n’omettra que très peu d’objets ; il se peut
qu’il détecte beaucoup plus d’objets qu’il n'en existe réellement (erreur de commission non pénalisée). Le rappel se calcule à partir de la formule suivante :

 


• La précision moyenne (AP) : Les deux mesures ci-dessus ne sont pas nécessairement des valeurs fixes ; elles varient en fonction de la valeur limite de confiance de détection utilisée. Si l’utilisateur sélectionne uniquement les détections ayant une forte confiance (e.g. score > 0.9), le rappel serait probablement faible et la précision haute. Pour chaque valeur limite de confiance il existe un score et une précision associés ; il est donc possible de représenter une courbe de précision / rappel pour chaque classe (voir Figure 6). La précision moyenne est une approximation de l’aire sous la courbe de précision / rappel. Un modèle optimal conserve une précision importante alors que le rappel augmente ainsi que son AP

Figure 6 : courbes de rappel / précision du modèle.