Evident LogoOlympus Logo
应用资料

使用TruAI深度学习技术进行酵母蛋白质定位分类


人工智能(AI)测试

人工智能(AI)技术正在帮助需要处理大量显微成像数据的研究人员减轻人工负担。训练有素的TruAI深度学习神经网络能够自动对复杂数据集进行对象分割,但它的适应性和效率如何呢?本应用说明验证了TruAI技术在一项特别具有挑战性的应用(对酵母中蛋白质定位进行分类的高通量检测)中的性能。
 

挑战:对酵母进行分类的高通量荧光筛选

了解蛋白质的亚细胞位置是了解其生物功能的关键前提。为了研究蛋白质在模式生物酿酒酵母(Saccharomyces cerevisiae,以下简称酵母)中的位置,科学家们开发了全面的全基因组突变体集合。在这些突变体蛋白质的N-[1,2]或C端[3,4]上,可以用荧光标记物进行标记。这样,研究人员就可以通过研究突变体蛋白质的荧光模式,在显微镜下观察突变体蛋白质的位置(见图1)。

图1:酵母中荧光标记蛋白质的细胞区室定位。每张图片都标注了可视化区室(左)和每个标记蛋白的标准名称(右)。

图1:酵母中荧光标记蛋白质的细胞区室定位。每张图片都标注了可视化区室(左)和每个标记蛋白的标准名称(右)。

酵母共有约6000个基因。因此,这些全基因组突变体集合需要约6000个突变株。目前已开发出的高通量方法,可同时对数千株酵母菌株进行基因操作,以创建针对特定科学问题的集合,例如,在全基因组荧光突变体集合中引入基因缺失,或引入第二个荧光标记以评估不同蛋白质之间的空间关系。目前已有简化的方法可用于高效处理此类大型突变体集合,并通过自动显微镜采集其图像[5]。但这些高通量检测的一个瓶颈是如何分析产生的大量图像数据,以便根据荧光模式确定蛋白质的定位。

在本应用说明中,我们将展示如何将TruAI深度学习技术与scanR高通量筛选平台相结合,创建一个基于荧光模式的AI模型,自动对不同酵母菌株在不同细胞区室中的蛋白质定位进行分类(图1)。
 

基准真实值注释和AI训练

对于任何AI模型的开发,第一步都是创建基准真实值,将图像的特定像素模式与特定类别联系起来。对于标准的图像分割任务,这可以通过使用软件标记工具进行人工标注来轻松实现[6]。然而,模型需要识别的类别越多,需要的基准真实值注释就越多,从而增加了用户注释的工作量,使手动注释变得低效且乏味。

如果我们的目标是创建一个能在大量菌株中有效泛化并能适应成像条件变化的模型,那么这项任务就变得更具挑战性。这些变化包括聚焦质量、荧光对比度、信噪比等方面、所有这些都必须在注释中加以充分考虑。

为了应对这一挑战,我们采用了一种智能样品制备方法,并结合无缝集成了TruAI工具的scanR高通量筛选软件。该软件简化了基准真实值注释的自动分配,使流程简单了许多。

我们使用384孔板来对表达荧光标记蛋白质的不同突变株进行制备和成像,这些蛋白质的定位是已知的。我们为总共12种定位选择了几个代表:细胞外围、核外围、内质网(ER)、外泌体、线粒体、液泡、液泡膜、{胞液、细胞核、核仁、芽颈和芽尖。为了在每个定位类别中产生表型变异,对每个定位选择了多个独立菌株,结果共有133个菌株用于训练(图2)。

图2:基准真实值样品制备的384孔板布局。每孔对应一株在其N端用GFP标记特定蛋白质的菌株。同一行的所有菌株都有相同的蛋白质定位,并被归入同一类别的基准真实值。

图2:基准真实值样品制备的384孔板布局。每孔对应一株在其N端用GFP标记特定蛋白质的菌株。同一行的所有菌株都有相同的蛋白质定位,并被归入同一类别的基准真实值。

使用scanR宽场显微镜和40X空气物镜(NA 0.95)进行成像。为识别单个酵母细胞,在传输通道中使用软件[7]内置的预训练AI模型进行分割(图3)。为排除伪影和异常细胞,根据圆度系数和面积对得到的对象进行筛选。所有分割模罩都会自动存储在一个文件中,该文件包含每个单独分割酵母的参数信息,包括其所属的孔(即分类和菌株),以及它们是被筛选为正常细胞还是异常细胞。该文件会在scanR软件的TruAI界面中使用,以创建12类正常细胞的基准真实值注释。所有被筛选为异常细胞的像素在训练中均会被忽略。通过这种方法,每个类别可获得4000-15000个注释,涵盖不同菌株和一系列典型的图像变化(焦点、图像对比度、信号强度、细胞碎片等)。

在完成所有分割并分配了基准真实值后,我们设置了TruAI训练配置。我们选择了“泛化网络”和“语义分割”选项,启用了像素类别重叠,并进行了35万次迭代训练。

图3:在传输通道中分割的单个细胞的分割模罩(绿色)(未显示)。荧光信号代表定位在A)细胞外围(60号孔,C12)、B)液泡(266号孔,L2)和C)线粒体(147号孔,G3)的蛋白质。基准真实值注释是由scanR软件结合分割模罩、荧光通道和孔编号自动分配的。

图3:在传输通道中分割的单个细胞的分割模罩(绿色)(未显示)。荧光信号代表定位在A)细胞外围(60号孔,C12)、B)液泡(266号孔,L2)和C)线粒体(147号孔,G3)的蛋白质。基准真实值注释是由scanR软件结合分割模罩、荧光通道和孔编号自动分配的。
 

基于AI的分类解决方案的结果和验证

为了评估模型在真实世界中的表现,我们使用了一个独立的数据集对其进行了评估,该数据集并未包含在训练中。我们制备了一个新的384孔板,其中的菌株表达了属于12个蛋白质定位类别的荧光标记蛋白质。在透射和荧光成像之后,我们在scanR软件中应用两种AI模型进行了自动分析:一个是用于检测透射细胞的内置预训练AI模型,另一个是我们根据荧光模式对蛋白质定位进行分类的新模型。为了快速直观地显示性能结果,可以在软件中创建热图,显示每个孔中特定类别高概率细胞的百分比,还可以生成这些单细胞的图库,例如识别定位到核小体的蛋白质(图4)。

图4:A)显示孔内细胞属于核仁类的概率的384孔板热图。热图显示,蛋白质只定位在第I行的核仁上。B)核仁概率高的分割对象图库,可直观地确认与核仁定位相对应的荧光模式(与图1比较)。C)利用从分割模罩中提取的一组参数在孔I3中分割出的细胞。在本例中,核仁的值最高(55041),比得分第二高的类别(细胞核,值425)高出100多倍。

图4:A)显示孔内细胞属于核仁类的概率的384孔板热图。热图显示,蛋白质只定位在第I行的核仁上。B)核仁概率高的分割对象图库,可直观地确认与核仁定位相对应的荧光模式(与图1比较)。C)利用从分割模罩中提取的一组参数在孔I3中分割出的细胞。在本例中,核仁的值最高(55041),比得分第二高的类别(细胞核,值425)高出100多倍。

为了对模型性能进行更精确的评估,我们将AI分类预测与基准真实值注释进行了比较,并在混淆矩阵中进行了描述(图5)。

为了对模型性能进行更精确的评估,我们将AI分类预测与基准真实值注释进行了比较,并在混淆矩阵中进行了描述

图5:混淆矩阵通过比较预测类别与真实类别(每类1600-4000个细胞)来评估所开发AI模型的性能。

矩阵的总体准确率为81.5%,精确率为92.8%,定义如下:

矩阵的总体准确率为81.5%,精确率为92.8%,定义如下:

TP:真阳性
TN:真阴性
FP:假阳性
FN:假阴性

除了芽颈和芽尖这两类蛋白质外,该模型在所有蛋白质定位方面都表现良好。虽然该模型会预测蛋白质的定位在芽颈或芽尖,但很难区分这两种定位。这种限制可能有其生物学基础,因为根据细胞周期阶段的不同,这两类蛋白质的定位有很大的重叠(见图1)。
 

结论:AI高通量筛选酵母蛋白质定位的优势

我们的研究表明,通过智能样品制备和自动为数千个细胞分配基准真实值,可以开发出一种能够准确预测酵母中10种不同类别的蛋白质定位的AI深度学习模型。这种方法可应用于其他复杂的分类训练,并具有以下优势:1)它不需要用户具备任何软件编程技能;2)它避免了繁琐的手动注释,从而节省了时间;3)由于广泛的基准真实值注释,它有可能生成对成像变化具有鲁棒性的AI分类网络,使其适合批量应用于许多样品,包括高通量筛选应用。
 

参考文献

  1. Yofe, I. et al. (2016) One library to make them all: streamlining the creation of yeast libraries via a SWAp-Tag strategy. Nat. Methods 13, 371–378
  2. Weill, U. et al. (2018) Genome-wide SWAp-Tag yeast libraries for proteome exploration. Nat. Methods 15, 617–622
  3. Huh, W.-K. et al. (2003) Global analysis of protein localization in budding yeast. Nature 425, 686–91
  4. Meurer, M. et al. (2018) Genome-wide C-SWAT library for high-throughput yeast genome tagging. Nat. Methods 15, 598–600
  5. Cohen, Y. and Schuldiner, M. (2011) Advanced methods for high-throughput microscopy screening of genetically modified yeast libraries. Methods Mol. Biol. 781, 127–59
  6. https://www.olympus-lifescience.com/en/applications/rapid-automated-detection-and-segmentation-of-glomeruli-using-self-learning-ai-technology/
  7. https://www.olympus-lifescience.com/en/discovery/20-examples-of-effortless-nucleus-and-cell-segmentation-using-pretrained-deep-learning-models/

明斯特大学作者:
Julian Schmidt, Sarah Weischer, Mike Wälte, Jens Wendt, Thomas Zobel, and Maria Bohnert

Evident作者:
Manoel Veiga,Evident欧洲技术中心应用专家
 

适于这类应用的产品

准确高效的图像分析

TruAI深度学习

TruAI技术通过深度学习来简化工作流程,并迅速提供更准确的结果。传统的阈值处理方法往往难以识别样品上的形态特征,还可能漏掉关键目标。例如,当TruAI技术应用于胰腺样品时,受过专门训练的神经网络可以准确分割胰岛,并将其与外观相似的红细胞群簇区分开来,从而自动计数和测量胰岛的数量和大小。

生命科学高内涵筛选工作站

scanR

使用scanR高含量筛查站实现生物样品的全自动图像采集和数据分析。设计专门针对细胞周期、蛋白质定位、细胞内转运等具体需求的个性化检测。模块化硬件与包括转盘共聚焦、机器人装载、培养、全内反射荧光和漂白后的荧光恢复系统在内的一系列附加系统兼容。

  • 快速准确的图像采集与分析
  • 基于细胞图像光度术的方法可实现轻松而又详细的结果显示效果
  • 通过自学AI、动力学参数测量、高速3D反卷积等模块拓展您的能力

已经成功添加到您的书签

查看书签关闭

Maximum Compare Limit of 5 Items

Please adjust your selection to be no more than 5 items to compare at once

对不起,此内容在您的国家不适用。

Sorry, this page is not available in your country