La technologie d’intelligence artificielle (IA) permet de réduire le nombre de tâches manuelles exécutées par les chercheurs qui ont besoin de traiter de gros volumes de données d’imagerie microscopique. Un réseau neuronal d’apprentissage profond TruAI™ entraîné permet une segmentation
automatique des objets des ensembles de données complexes. Mais à quel point est-il adaptable et efficace ? Cette note d’application décrit la validation des performances de la technologie TruAI pour des applications particulièrement difficiles, à savoir le criblage à haut contenu pour la classification de la localisation des protéines dans la levure.
Connaître la localisation subcellulaire des protéines est une condition préalable essentielle à la compréhension de leur fonction biologique. Pour examiner la localisation des protéines dans l’organisme modèle Saccharomyces cerevisiae (la levure), des scientifiques ont développé des collections complètes de mutants couvrant tout le génome. Ces mutants expriment des protéines qui peuvent être étiquetées avec un marqueur fluorescent au niveau de l’extrémité N-terminale [1,2] ou C-terminale [3,4]. Cela permet aux chercheurs de déterminer la localisation d’une protéine mutante en observant au microscope le motif de la distribution de sa fluorescence (voir la figure 1).
Figure 1 – Localisation des compartiments cellulaires des protéines étiquetées par un peptide fluorescent dans la levure. Le compartiment observé (à gauche) et le nom standard de chaque protéine étiquetée (à droite) sont indiqués sur chaque image.
La levure possède près de 6000 gènes au total. Par conséquent, ces collections de mutants couvrant la totalité du génome nécessitent près de 6000 souches mutantes individuelles. Des approches à haut contenu ont été développées pour permettre la manipulation génétique simultanée de plusieurs milliers de souches de levure en vue de générer des collections spécialement conçues pour apporter des réponses à des questions scientifiques spécifiques en, par exemple, introduisant une délétion dans les gènes d’une collection de mutants fluorescents ou en introduisant un second marqueur fluorescent pour évaluer les relations spatiales entre les différentes protéines. Des approches simplifiées sont disponibles pour la manipulation efficace d’une telle collection de mutants et pour l’acquisition de leurs images par microscopie automatisée [5]. Toutefois, l’analyse des grandes quantités de données d’image générées pour déterminer la localisation des protéines d’après le motif de la distribution de leur fluorescence constitue un frein pour ces criblages à haut contenu.
Dans cette note d’application, nous présenterons l’utilisation de la technologie d’apprentissage profond TruAI™ avec la plateforme de criblage à haut contenu scanR pour créer un modèle d’IA basé sur le motif de distribution de la fluorescence dans le but de classer automatiquement la localisation des protéines dans les différents compartiments cellulaires, pour plusieurs souches de levure (figure 1).
Pour le développement de n’importe quel modèle d’IA, la première étape consiste à créer une vérité de terrain en associant un motif déterminé de pixels d’une image à une classe spécifique. Pour des tâches standard de segmentation d’images, cela peut être facilement réalisé en ajoutant manuellement des annotations à l’aide des outils d’étiquetage du logiciel [6]. Cependant, plus le modèle doit identifier de classes, plus il faut faire d’annotations de vérité de terrain, un processus inefficace et fastidieux lorsqu’il est effectué manuellement.
La tâche devient même encore plus ardue lorsque l’objectif est de créer un modèle capable d’être utilisé efficacement avec une grande variété de souches et de s’adapter aux variations des conditions d’imagerie. Ces variations concernent des aspects comme la qualité de la mise au point, le contraste de la fluorescence, le rapport signal/bruit, etc., chacune devant être suffisamment prise en compte dans les annotations.
Pour répondre à ce problème, nous avons utilisé une méthode intelligente de préparation des échantillons conjointement au logiciel de criblage à haut contenu scanR, qui intègre plusieurs outils TruAI. Ce logiciel simplifie l’attribution automatique des annotations de vérité de terrain, ce qui facilite grandement le processus.
Nous avons utilisé une plaque de 384 puits pour préparer différentes souches mutantes exprimant des protéines étiquetées avec un peptide fluorescence dont la localisation était connue et pour en prendre des images. Nous avons choisi plusieurs représentants pour un total de 12 localisations : périphérie cellulaire, périphérie nucléaire, réticulum endoplasmique (RE), eisosomes, mitochondrie, vacuole, membrane vacuolaire, cytosol, noyau, nucléole, col du bourgeon cellulaire et extrémité du bourgeon cellulaire. Pour générer de la diversité phénotypique dans chaque classe de localisation, plusieurs souches indépendantes ont été sélectionnées pour chaque localisation, ce qui a abouti à l’utilisation de 133 souches pour l’entraînement (figure 2).
Figure 2 – Plan de la plaque de 384 puits de préparation des échantillons pour la vérité de terrain. Chaque puits correspond à une souche dans laquelle une protéine spécifique a été étiquetée à son extrémité N-terminale avec la GFP. Toutes les souches de la même rangée présentent la même localisation de la protéine et ont été associées à la vérité de terrain de la même catégorie.
L’imagerie a été réalisée à l’aide d’un microscope à grand champ scanR et d’un objectif à sec de 40x (ON de 0,95). Pour identifier les cellules de levure individuelles, une segmentation a été réalisée dans le canal de la lumière transmise à l’aide d’un modèle d’IA pré-entraîné du logiciel [7] (figure 3). Pour exclure les artefacts et les cellules anormales, les objets issus de la segmentation ont été filtrés par facteur de circularité et surface. Tous les masques de segmentation sont automatiquement enregistrés dans un même fichier qui regroupe toutes les informations sur les paramètres pour chaque levure segmentée, y compris le puits duquel la levure est issue (à savoir la classe et la souche) et si la levure a été identifiée comme étant une cellule normale ou anormale. Ce fichier est utilisé dans l’interface TruAI du logiciel scanR pour créer les annotations de vérité de terrain pour les 12 classes de cellules normales. Tous les pixels identifiés comme étant des cellules anormales sont ignorés pour l’entraînement. De cette manière, 4 000 à 15 000 annotations individuelles ont été obtenues pour chaque classe, couvrant plusieurs souches différentes et une gamme de variations d’image typiques (mise au point, contraste des images, intensité du signal, débris cellulaires, etc.).
Une fois toutes les segmentations réalisées et les annotations de vérité de terrain assignées, l’entraînement de la technologie TruAI a pu être configuré. Nous avons choisi les options « Generalizing Network » (Généralisation du réseau) et « Semantic Segmentation » (Segmentation sémantique), activé « Pixel class overlap » (Chevauchement des classes de pixel) et effectué 350 000 itérations d’entraînement.
Figure 3 – Masques de segmentation (en vert) des cellules individuelles segmentées dans le canal de la lumière transmise (non représenté). Les signaux de fluorescence représentent les protéines localisées au niveau de A) la périphérie cellulaire (puits 60, C12), B) la vacuole (puits 266, L2) et C) la mitochondrie (puits 147, G3). Les annotations de vérité de terrain sont automatiquement attribuées
dans le logiciel scanR en associant le masque de segmentation, le canal de fluorescence et le numéro du puits.
Pour évaluer ses performances réelles, le modèle a été évalué à l’aide d’un ensemble de données indépendant qui n’était pas inclus dans l’entraînement. Nous avons préparé une nouvelle plaque de 384 puits avec des souches exprimant des protéines étiquetées avec un peptide fluorescent et appartenant aux 12 classes de localisation des protéines. Après avoir pris des images en lumière transmises et de fluorescence, nous avons effectué une analyse automatisée dans le logiciel scanR en utilisant deux modèles d’IA : un modèle d’IA pré-entraîné intégré pour la détection des cellules en lumière transmise et notre nouveau modèle pour la classification des localisations des protéines en fonction du motif de la distribution de la fluorescence. Pour visualiser rapidement les résultats de performance, il est possible de créer des cartes de probabilité dans le logiciel afin d’afficher dans chaque puits le pourcentage de cellules présentant une probabilité élevée pour une classe donnée, ainsi que des galeries de ces cellules individuelles, comme illustré pour l’identification des protéines localisées au niveau des nucléoles (figure 4).
Figure 4 – A) Carte de probabilité d’une plaque de 384 puits affichant la probabilité que les cellules présentes dans le puits appartiennent à la classe nucléole. La carte de probabilité indique que, dans la rangée I, les protéines sont uniquement localisées dans le nucléole.
B) Galerie d’objets segmentés avec une haute probabilité de localisation dans le nucléole pour confirmer visuellement un motif de distribution la de fluorescence correspondant à une localisation dans le nucléole (en comparaison à la figure 1).
C) Cellule segmentée du puits I3 avec un ensemble de paramètres extraits du masque de segmentation. Dans cet exemple, le nucléole présente la valeur la plus élevée (55041), à savoir une valeur plus de 100 supérieure à celle de la deuxième classe de notation la plus élevée (noyau, valeur : 425).
Afin d’obtenir une évaluation plus précise des performances du modèle, nous avons comparé les prédictions de classification de l’IA aux annotations de vérité de terrain. Cette comparaison est illustrée dans une matrice de confusion (figure 5).
Figure 5 – Matrice de confusion pour l’évaluation des performances du modèle d’IA entraîné par comparaison des classes prédites avec les classes réelles (1600 à 4000 cellules individuelles par classe).
La matrice révèle une précision générale de 81,5 % et une précision de 92,8 % définie comme suit :
TP : vrais positifs
|
Le modèle a fait preuve de performances robustes pour toutes les localisations des protéines, sauf pour les classes « Col du bourgeon cellulaire » et « Extrémité du bourgeon cellulaire ». Bien que le modèle ait prédit que la localisation était soit au niveau du col du bourgeon cellulaire, soit au niveau de l’extrémité du bourgeon cellulaire, il a eu des difficultés à faire la distinction entre
les deux localisations. Cette limite peut avoir une origine biologique, car les localisations des protéines des deux classes peuvent coïncider en fonction de la phase du cycle cellulaire (voir la figure 1).
Nous avons montré que, grâce à une préparation intelligente des échantillons et à une attribution automatique des annotations de vérité de terrain à des milliers de cellules, il est possible de générer un modèle d’apprentissage profond d’IA capable de prédire exactement 10 classes différentes de localisation des protéines dans les levures. Cette méthodologie peut être appliquée à
d’autres entraînements de classification complexe et offre les avantages suivants : 1) l’utilisateur n’a pas besoin d’avoir de compétences particulières en programmation logicielle, 2) elle permet de gagner du temps en évitant les annotations manuelles fastidieuses, et 3) elle a, du fait de la grande variété des des annotations de vérité de terrain, le potentiel de produire des réseaux de classification par IA
suffisamment robustes pour compenser les variations d’imagerie, ce qui les rend parfaitement adaptés à une application par lot à de nombreux échantillons, y compris dans les applications de criblage à haut contenu.
Auteurs de l’université de Münster :
Julian Schmidt, Sarah Weischer, Mike Wälte, Jens Wendt, Thomas Zobel et Maria Bohnert
Auteur d’Evident :
Manoel Veiga, Spécialiste en applications, Evident Technology Center Europe
Please adjust your selection to be no more than 5 items to compare at once
Not Available in Your Country
Sorry, this page is not
available in your country.
You are being redirected to our local site.