Die Technologie der künstlichen Intelligenz (KI) trägt dazu bei, den Arbeitsaufwand bei der Verarbeitung großer Mengen von Mikroskopie-Bilddaten zu reduzieren. Mithilfe der TruAI Deep Learning-Technologie kann ein trainiertes neuronales Netz komplexe Datensätze automatisch segmentieren. Die Frage ist nur, wie
anpassungsfähig und effizient diese Objektsegmentierung ist. In diesem Anwendungsbeispiel geht es um die Leistungsfähigkeit der TruAI Technologie bei einer besonders anspruchsvollen Anwendung – der High-Content-Assay-Klassifizierung der Lokalisation von Proteinen in Hefen.
Die Kenntnis der subzellulären Lage von Proteinen ist eine wichtige Voraussetzung für das Verständnis ihrer biologischen Funktion. Um zu untersuchen, wo Proteine in dem Modellorganismus Saccharomyces cerevisiae (im Folgenden als „Hefe“ bezeichnet) lokalisiert sind, haben Wissenschaftler umfangreiche Sammlungen von genomweiten Mutanten angelegt. Diese Mutanten haben Proteine, die entweder am N- [1,2] oder am C-Terminus [3,4] mit einem Fluoreszenzmarker markiert werden können. Auf diese Weise lässt sich die Position des mutierten Proteins unter dem Mikroskop anhand der Untersuchung des Fluoreszenzmusters sichtbar machen (Abb. 1).
Abb. 1: Zellkompartiment-Lokalisation fluoreszenzmarkierter Proteine in Hefezellen. In jedem Bild sind das dargestellte Kompartiment (links) und der Standardname jedes markierten Proteins (rechts) angegeben.
Hefen haben insgesamt etwa 6000 Gene. Daher werden für diese genomweiten Mutanten-Sammlungen etwa 6000 einzelne Mutantenstämme benötigt. Es wurden Methoden zur gleichzeitigen genetischen Manipulation von Tausenden von Hefestämmen entwickelt, um Sammlungen zu erstellen, die auf spezifische wissenschaftliche Fragestellungen zugeschnitten sind. Dazu gehört z. B. die Einführung einer Gendeletion in eine Sammlung genomweiter fluoreszenzmarkierter Mutanten oder die Einführung eines zweiten Fluoreszenzmarkers, um räumliche Beziehungen zwischen verschiedenen Proteinen zu untersuchen. Für ein effizientes Arbeiten mit derart umfangreichen Mutantensammlungen und für deren Bildaufnahme durch automatisierte Mikroskopie gibt es optimierte Ansätze [5]. Ein Engpass bei diesen High-Content-Assays ist jedoch die Analyse der großen Mengen an Bilddaten, die erzeugt werden, um die Proteinlokalisierung anhand des Fluoreszenzmusters zu bestimmen.
In diesem Anwendungsbeispiel zeigen wir den Einsatz der TruAI Deep Learning-Technologie in Kombination mit der scanR High-Content-Screening-Plattform zur Erstellung eines KI-Modells auf der Grundlage des Fluoreszenzmusters zur automatischen Klassifizierung der Proteinlokalisierung in verschiedenen zellulären Kompartimenten für verschiedene Hefestämme (Abb. 1).
Der erste Schritt bei der Entwicklung eines KI-Modells besteht in der Erzeugung von zugrundeliegenden Referenzdaten (Ground Truth), um ein bestimmtes Pixelmuster eines Bildes mit einer bestimmten Klasse in Verbindung zu bringen. Bei Standard-Bildsegmentierungsaufgaben kann dies leicht durch manuelle Annotationen mithilfe von Software-Beschriftungswerkzeugen erreicht werden [6]. Je mehr Klassen das Modell unterscheiden muss, desto mehr Ground-Truth-Annotationen sind erforderlich, was zu einem erhöhten Aufwand für die Nutzer führt und manuelle Annotationen ineffizient und mühsam macht.
Noch schwieriger wird es, wenn das Ziel darin besteht, ein Modell zu erstellen, das effektiv über eine Vielzahl von Stämmen hinweg generalisieren und sich an unterschiedliche Bildgebungsbedingungen anpassen kann, beispielsweise an Unterschiede bei der Fokusqualität, dem Fluoreszenzkontrast, dem Signal-Rausch-Verhältnis usw. All dies muss in den Annotationen entsprechend berücksichtigt werden.
Zur Lösung dieses Problems haben wir eine intelligente Probenvorbereitungsmethode in Verbindung mit der scanR High-Content-Screening-Software eingesetzt, die TruAI Tools nahtlos integriert. Diese Software rationalisiert die automatische Zuweisung von Ground-Truth-Annotationen und vereinfacht den Prozess erheblich.
Wir verwendeten eine 384-Well-Platte, um verschiedene Mutantenstämme herzustellen und abzubilden, die fluoreszenzmarkierte Proteine mit bekannter Lokalisation exprimieren. Wir haben mehrere Vertreter für insgesamt 12 Lokalisationen ausgewählt: Zellperipherie, Zellkernperipherie, endoplasmatisches Retikulum (ER), Eisosomen, Mitochondrien, Vakuole, Vakuolenmembran, Zytosol, Zellkern, Nukleolus, Knospenhals und Knospenspitze. Um die phänotypische Variabilität innerhalb jeder Lokalisationsklasse zu erzeugen, wurden für jede Lokalisation mehrere unabhängige Stämme ausgewählt, so dass insgesamt 133 Stämme für das Training verwendet wurden (Abb. 2).
Abb. 2: Layout der 384-Well-Platte für die Probenvorbereitung zur Erstellung der Referenzdaten. Jedes Well entspricht einem Stamm, in dem ein bestimmtes Protein an seinem N-Terminus mit GFP markiert wurde. Alle Stämme der gleichen Reihe haben die gleiche Proteinlokalisation und wurden den Ground-Truth-Daten der gleichen Klasse zugeordnet.
Die Bildgebung erfolgte mit einem scanR Weitwinkelmikroskop und einem 40X Luftobjektiv (NA 0,95). Zur Identifizierung einzelner Hefezellen wurde die Segmentierung im Übertragungskanal mithilfe eines integrierten, vortrainierten KI-Modells der Software durchgeführt [7] (Abb. 3). Zum Ausschluss von Artefakten und abnormalen Zellen wurden die resultierenden Objekte nach Zirkularitätsfaktor und Fläche gefiltert. Alle Segmentierungsmasken werden automatisch in einer einzigen Datei gespeichert, die Parameterinformationen für jede einzelne segmentierte Hefezelle enthält, einschließlich des Wells, zu dem sie gehört (d. h. die Klasse und den Stamm), und ob sie als normale oder abnormale Zellen gefiltert wurde. Diese Datei wird in der TruAI Schnittstelle der scanR Software verwendet, um Ground-Truth-Annotationen für die 12 Klassen normaler Zellen zu erstellen. Alle Pixel, die als abnormale Zellen gefiltert wurden, werden für das Training ignoriert. Auf diese Weise wurden für jede Klasse 4000 bis 15.000 individuelle Annotationen erstellt, die verschiedene Stämme und eine Reihe typischer Bildvariationen (Fokus, Bildkontrast, Signalintensität, Zelltrümmer usw.) abdecken.
Nach Abschluss der Segmentierung und Zuweisung der Ground Truth wurde die TruAI Trainingskonfiguration festgelegt. Wir wählten die Optionen „generalisierendes Netzwerk“ und „semantische Segmentierung“, aktivierten die Überlappung der Pixelklassen und führten 350.000 Trainingsiterationen durch.
Abb. 3: Segmentierungsmasken (grün) von einzelnen Zellen, die im Übertragungskanal segmentiert wurden (nicht gezeigt). Fluoreszenzsignale stellen Proteine dar, die in A) der Zellperipherie (Well 60, C12), B) der Vakuole (Well 266, L2) und C) den Mitochondrien (Well 147, G3) lokalisiert sind. Die Ground-Truth-Annotationen wurden in der scanR Software automatisch zugewiesen, indem die Segmentierungsmaske, der Fluoreszenzkanal und die Well-Nummer miteinander kombiniert
wurden.
Zur Beurteilung der Leistung des Modells unter realen Bedingungen wurde es anhand eines unabhängigen Datensatzes bewertet, der nicht in das Training einbezogen worden war. Dazu haben wir eine neue 384-Well-Platte mit Stämmen bestückt, die fluoreszenzmarkierte Proteine aus den 12 Proteinlokalisierungsklassen exprimieren. Nach der Bildgebung in der Übertragung und Fluoreszenz führten wir unter Anwendung von zwei KI-Modellen eine automatische Analyse in der scanR Software durch: einem eingebauten, vortrainierten KI-Modell zur Erkennung von Zellen in der Übertragung und unserem neuen Modell zur Klassifizierung von Proteinlokalisierungen anhand des Fluoreszenzmusters. Zur schnellen Visualisierung der Leistungsergebnisse können in der Software Heatmaps erstellt werden, die in jedem Well den Prozentsatz der Zellen mit einer hohen Wahrscheinlichkeit für eine bestimmte Klasse anzeigen. Außerdem können Galerien dieser einzelnen Zellen erstellt werden, wie zum Beispiel bei der Identifizierung von Proteinen in Nukleoli (Abb. 4).
Abb. 4: A) Heatmap einer 384-Well-Platte, die die Wahrscheinlichkeit anzeigt, dass die Zellen im Well zur Klasse mit Proteinlokalisation in Nukleoli gehören. Die Heatmap zeigt, dass sich nur in der Reihe I die Proteine im Nukleolus befinden. B) Galerie der segmentierten Objekte mit hoher Nukleoluswahrscheinlichkeit zur visuellen Bestätigung eines Fluoreszenzmusters, das einer Nukleoluslokalisation entspricht (vgl. Abb. 1). C) Segmentierte Zelle in Well I3 mit einer Reihe von Parametern, die aus der Segmentierungsmaske extrahiert wurden. In diesem Beispiel hat der Nukleolus den höchsten Wert (55041), der mehr als 100-mal höher ist als der der zweithöchsten Bewertungsklasse (Nukleus, Wert 425).
Zur genaueren Einschätzung der Modellleistung verglichen wir die KI-Klassifizierungsvorhersage mit den Ground-Truth-Annotationen, dargestellt in einer Konfusionsmatrix (Abb. 5).
Abb. 5: Konfusionsmatrix zur Bewertung der Leistung des entwickelten KI-Modells durch Vergleich der vorhergesagten Klassen mit den wahren Klassen (1600 bis 4000 Einzelzellen pro Klasse).
Die Matrix ergab eine Gesamtgenauigkeit von 81,5 % und eine Präzision von 92,8 %, definiert als:
TP: Echt-positive Ergebnisse
|
Das Modell zeigte eine robuste Leistung für alle Proteinlokalisationen mit Ausnahme der Klassen Knospenhals und Knospenspitze. Das Modell ermöglichte zwar eine Vorhersage darüber, ob sich die Lokalisation entweder am Knospenhals oder an der Knospenspitze befand, hatte aber Schwierigkeiten, zwischen den beiden Lokalisationen zu unterscheiden. Diese Einschränkung könnte eine biologische Grundlage haben, da Proteine der beiden Klassen je nach Zellzyklus-Stadium eine
erhebliche Überschneidung bei der Lokalisation aufweisen (Abb. 1).
Wir haben gezeigt, dass es durch intelligente Probenvorbereitung und automatische Zuweisung der Ground-Truth-Daten zu Tausenden von Zellen möglich war, ein KI-basiertes Deep-Learning-Modell zu entwickeln, das in der Lage ist, 10 verschiedene Klassen von Proteinlokalisationen in Hefezellen genau vorherzusagen. Diese Methodik kann auf andere komplexe Klassifikationstrainings angewendet werden und bietet folgende Vorteile: 1) Sie erfordert keine Anwenderkenntnisse über
Software-Programmierung, 2) sie spart Zeit, da keine aufwändige manuelle Annotation stattfinden muss, und 3) sie eröffnet aufgrund der breiten Ground Truth- Annotationen die Möglichkeit, KI-Klassifizierungsnetzwerke zu erstellen, die gegenüber Bildgebungsvariationen robust sind, wodurch sie sich für die stapelweise Anwendung auf viele Proben eignen, einschließlich High-Content-Screening-Anwendungen.
Universität Münster Autoren:
Julian Schmidt, Sarah Weischer, Mike Wälte, Jens Wendt, Thomas Zobel und Maria Bohnert
Evident Autor:
Manoel Veiga, Application Specialist, Evident Technology Center Europe
Please adjust your selection to be no more than 5 items to compare at once
Not Available in Your Country
Sorry, this page is not
available in your country.
You are being redirected to our local site.