A tecnologia de inteligência artificial (IA) está ajudando a aliviar a carga de trabalho manual dos pesquisadores que precisam processar grandes volumes de dados de imagens de microscopia. Uma rede neural de aprendizado profundo TruAI™ treinada permite segmentar objetos em conjuntos de dados complexos, mas o quanto ela é
adaptável e eficiente? Esta nota de aplicação valida o desempenho da tecnologia TruAI em uma aplicação especificamente complicada: ensaios de alto conteúdo para classificar a localização de proteínas em leveduras.
Saber a localização subcelular de proteínas é uma pré-requisito importante para entender sua função biológica. Para examinar onde as proteínas estão localizadas no organismo modelo Saccharomyces cerevisiae (doravante, levedura), os cientistas desenvolveram coleções abrangentes de mutantes em todo o genoma. Esses mutantes têm proteínas que podem ser identificadas com um marcador fluorescente no N- [1,2] ou C-terminal [3,4]. Isso permite que os pesquisadores observem a localização da proteína mutante em um microscópio estudando seu padrão de fluorescência (veja a Figura 1).
Figura 1: Localização no compartimento celular de proteínas marcadas com fluorescência na levedura. O compartimento visualizado (esquerda) e o nome padrão de cada proteína marcada (direita) são identificados em cada imagem.
As leveduras têm um total de 6.000 genes. Assim, essas coleções de mutantes por todo o genoma exigem cerca de 6.000 cepas mutantes individuais. Abordagens de alto conteúdo foram desenvolvidas para permitir a manipulação genética simultânea de milhares de cepas de levedura para criar coleções ajustadas a questões científicas específicas, por exemplo, introduzindo uma deleção de gene em uma coleção de mutantes fluorescentes em todo o genoma, ou um segundo marcador fluorescente para avaliar as relações especiais entre proteínas diferentes. Abordagens simplificadas estão disponíveis para o tratamento eficiente de coleções de mutantes desse porte e para aquisição de imagens por meio de microscopia automatizada [5]. Mas um dos gargalos nesses ensaios nesses ensaios de alto conteúdo é a análise de uma grande quantidade de dados de imagem gerada para determinar a localização da proteína de acordo com o padrão de fluorescência.
Nesta nota de aplicação, vamos demonstrar o uso da tecnologia de aprendizado profundo TruAI™ em combinação com a plataforma de triagem de alto conteúdo scanR para criar um modelo de IA com base no padrão de fluorescência para classificar automaticamente a localização da proteína em diferentes compartimentos celulares, para várias cepas de levedura (Figura 1).
Para desenvolver qualquer modelo de IA, a primeira etapa é criar uma verdade fundamental relacionada a um padrão de pixels específico de uma imagem para uma categoria específica. Para tarefas padrão de segmentação de imagem, isso pode ser feito facilmente por meio de anotações manuais que usam ferramentas de software de identificação [6]. No entanto, quanto mais categorias o modelo precisar diferenciar, mais anotações de verdade fundamental serão necessárias, o que aumenta o trabalho de anotação e torna esse processo manual ineficiente e entediante.
A tarefa se torna ainda mais complicada quando o objetivo é criar um modelo que possa fazer generalizações com eficácia em uma grande variedade de cepas e se adaptar a variações nas condições de imagem. Essas variações abrangem aspectos como qualidade de foco, contraste de fluorescência, proporção sinal-ruído etc., que precisam ser levados adequadamente em consideração nas anotações.
Para enfrentar esse desafio, empregamos um método de preparação de amostra inteligente em conjunto com o software de triagem de conteúdo scanR, que se integra às ferramentas TruAI. Esse software simplifica a atribuição automatizada de anotações de verdade fundamental, simplificando significativamente o processo.
Usamos uma platina de 384 poços para preparar e criar imagens de diferentes cepas mutantes, que expressam proteínas marcadas com localização conhecida. Escolhemos vários representantes de um total de 12 localizações: periferia celular, periferia nuclear, retículo endoplasmático (ER), eisossomas, mitocôndria, vacúolo, membrana vacuolar, citosol, núcleo, nucléolo, "bud neck" e "bud tip". Para gerar variabilidade fenotípica em cada categoria de localização, várias cepas independentes foram selecionadas para cada localização, o que gerou um total de 133 cepas usadas para o treinamento (Figura 2).
Figura 2: Layout da platina de 384 poços da preparação da amostra de verdade fundamental. Cada poço corresponde a uma cepa em que uma proteína específica foi marcada com GFP no N-terminal. Todas as amostras da mesma linha compartilham a mesma localização de proteína e foram atribuídas à verdade fundamental da mesma categoria.
A formação da imagem foi realizada com um microscópio de campo amplo scanR e uma objetiva seca de 40× (AN 0,95). Para identificar células únicas de levedura, a segmentação foi realizada no canal de transmissão usando um modelo de IA integrado e pré-treinado do software [7] (Figura 3). Para excluir artefatos e células anormais, os objetos resultantes foram filtrados por fator de circularidade e área. Todas as máscaras de segmentação foram armazenadas automaticamente em um único arquivo que contém informações de parâmetro para cada levedura única segmentada, incluindo o poço a que ele pertence (ou seja, a categoria e a cepa) e se ela foi filtrada como célula normal ou anormal. Esse arquivo é usado na interface TruAI do software scanR para criar anotações de verdade fundamental para as 12 categorias de células normais. Todos os pixels filtrados como células anormais são ignorados para o treinamento. Dessa maneira, entre 4.000 e 15.000 anotações individuais foram obtidas de cada categoria, abrangendo cepas diferentes e uma série de variações de imagem comuns (foco, contraste de imagem, intensidade de sinal, resíduos celulares etc.).
Depois que toda a segmentação foi realizada e a verdade fundamental foi atribuída, a configuração de treinamento do TruAI estava pronta. Escolhemos as opções "Rede de generalização" e "Segmentação semântica", ativamos a sobreposição de categorias de pixel e treinamos 350.000 iterações.
Figura 3: Máscaras de segmentação (verde) de células individuais segmentadas no canal de transmissão (não mostrado). Os sinais fluorescentes representam proteínas localizadas A) na periferia celular (poço 60, C12), B) no vacúolo (poço 266, L2) e C) na mitocôndria (poço 147, G3). As anotações de verdade fundamental foram atribuídas automaticamente no software scanR por meio da combinação da máscara
de segmentação, do canal de fluorescência e o número do poço.
Na avaliação do desempenho do modelo em situações reais, foi usado um conjunto de dados independente que não foi incluído no treinamento. Preparamos uma nova platina de 384 poços com cepas que expressam proteínas marcadas com fluorescência pertencentes às 12 categorias de localização de proteína. Depois de fazer a formação de imagem em transmissão e fluorescência, realizamos a análise automatizada no software scanR aplicando dois modelos de IA: um modelo de IA previamente treinado integrado para detecção das células na transmissão e nosso novo modelo de classificação de localização de proteínas de acordo com o padrão de fluorescência. Para visualizar rapidamente os resultados de desempenho, podemos criar mapas de calor no software para mostrar a porcentagem de células em cada poço que têm alta probabilidade de pertencer a uma categoria específica e gerar galerias dessas células únicas, como exemplificado pela identificação de proteínas localizadas nos nucléolos (Figura 4).
Figura 4: A) Mapa de calor da platina de 384 poços que mostra a probabilidade de as células no poço pertencer à categoria de nucléolo. O mapa de calor indica que as proteínas estão localizadas apenas no nucléolo na linha I. B) Galeria de objetos segmentados com alta probabilidade de nucléolo para confirmar visualmente um padrão de fluorescência correspondente à localização no nucléolo (compare com a Figura 1). C) Célula segmentada no poço I3 com um conjunto de parâmetros extraídos da máscara de segmentação. Neste exemplo, o nucléolo tem o maior valor (55041), que é mais de 100 vezes mais alto que a categoria com a segunda pontuação mais alta (núcleo, valor 425).
Para ter uma avaliação mais precisa do desempenho do modelo, comparamos a previsão de classificação da IA com as anotações de verdade fundamental, que representamos em uma matriz de confusão (Figura 5).
Figura 5: Matriz de confusão para avaliar o desempenho do modelo de IA desenvolvido por meio da comparação das categorias previstas com as categorias verdadeiras (1.600–4.000 células individuais por categoria).
A matriz apresentou uma exatidão geral de 81,5% e uma precisão de 92,8% definidas como:
TP: positivos verdadeiros
|
O modelo mostrou um desempenho robusto para todas as localizações de proteína, exceto para as categorias "bud neck" e "bud tip". Embora o modelo previsse que a localização era "bud neck" ou "bud tip", ele tinha dificuldades para distinguir entre elas. Essa limitação pode ter uma base biológica, pois proteínas das duas categorias mostram uma sobreposição considerável dependendo da fase do ciclo
celular (veja a Figura 1).
Mostramos que, com a preparação de amostra inteligente e atribuição automatizada da verdade fundamental a centenas de células, foi possível desenvolver um modelo de aprendizado profundo de IA capaz de prever com precisão 10 categorias diferentes de localizações de proteína na levedura. Essa metodologia pode ser aplicada a outros treinamentos de classificação complexa e oferece as seguintes vantagens: 1) não exige habilidades de
programação de software do usuário, 2) economiza tempo evitando anotações manuais entediantes e 3) tem, devido à anotação ampla de verdade fundamental, o potencial de produzir redes de classificação de IA robustas para variações de imagem, sendo adequada para ser aplicada em lote a muitas amostras, inclusive aplicações de triagem de alto conteúdo.
Autores da Universidade de Münster:
Julian Schmidt, Sarah Weischer, Mike Wälte, Jens Wendt, Thomas Zobel e Maria Bohnert
Autor da Evident:
Manoel Veiga, Especialista em Aplicação, Evident Technology Center Europe
Please adjust your selection to be no more than 5 items to compare at once
Not Available in Your Country
Sorry, this page is not
available in your country.
You are being redirected to our local site.