人工智能(AI)技术正在帮助需要处理大量显微成像数据的研究人员减轻人工负担。训练有素的TruAI深度学习神经网络能够自动对复杂数据集进行对象分割,但它的适应性和效率如何呢?本应用说明验证了TruAI技术在一项特别具有挑战性的应用(对酵母中蛋白质定位进行分类的高通量检测)中的性能。
了解蛋白质的亚细胞位置是了解其生物功能的关键前提。为了研究蛋白质在模式生物酿酒酵母(Saccharomyces cerevisiae,以下简称酵母)中的位置,科学家们开发了全面的全基因组突变体集合。在这些突变体蛋白质的N-[1,2]或C端[3,4]上,可以用荧光标记物进行标记。这样,研究人员就可以通过研究突变体蛋白质的荧光模式,在显微镜下观察突变体蛋白质的位置(见图1)。
图1:酵母中荧光标记蛋白质的细胞区室定位。每张图片都标注了可视化区室(左)和每个标记蛋白的标准名称(右)。
酵母共有约6000个基因。因此,这些全基因组突变体集合需要约6000个突变株。目前已开发出的高通量方法,可同时对数千株酵母菌株进行基因操作,以创建针对特定科学问题的集合,例如,在全基因组荧光突变体集合中引入基因缺失,或引入第二个荧光标记以评估不同蛋白质之间的空间关系。目前已有简化的方法可用于高效处理此类大型突变体集合,并通过自动显微镜采集其图像[5]。但这些高通量检测的一个瓶颈是如何分析产生的大量图像数据,以便根据荧光模式确定蛋白质的定位。
在本应用说明中,我们将展示如何将TruAI深度学习技术与scanR高通量筛选平台相结合,创建一个基于荧光模式的AI模型,自动对不同酵母菌株在不同细胞区室中的蛋白质定位进行分类(图1)。
对于任何AI模型的开发,第一步都是创建基准真实值,将图像的特定像素模式与特定类别联系起来。对于标准的图像分割任务,这可以通过使用软件标记工具进行人工标注来轻松实现[6]。然而,模型需要识别的类别越多,需要的基准真实值注释就越多,从而增加了用户注释的工作量,使手动注释变得低效且乏味。
如果我们的目标是创建一个能在大量菌株中有效泛化并能适应成像条件变化的模型,那么这项任务就变得更具挑战性。这些变化包括聚焦质量、荧光对比度、信噪比等方面、所有这些都必须在注释中加以充分考虑。
为了应对这一挑战,我们采用了一种智能样品制备方法,并结合无缝集成了TruAI工具的scanR高通量筛选软件。该软件简化了基准真实值注释的自动分配,使流程简单了许多。
我们使用384孔板来对表达荧光标记蛋白质的不同突变株进行制备和成像,这些蛋白质的定位是已知的。我们为总共12种定位选择了几个代表:细胞外围、核外围、内质网(ER)、外泌体、线粒体、液泡、液泡膜、{胞液、细胞核、核仁、芽颈和芽尖。为了在每个定位类别中产生表型变异,对每个定位选择了多个独立菌株,结果共有133个菌株用于训练(图2)。
图2:基准真实值样品制备的384孔板布局。每孔对应一株在其N端用GFP标记特定蛋白质的菌株。同一行的所有菌株都有相同的蛋白质定位,并被归入同一类别的基准真实值。
使用scanR宽场显微镜和40X空气物镜(NA 0.95)进行成像。为识别单个酵母细胞,在传输通道中使用软件[7]内置的预训练AI模型进行分割(图3)。为排除伪影和异常细胞,根据圆度系数和面积对得到的对象进行筛选。所有分割模罩都会自动存储在一个文件中,该文件包含每个单独分割酵母的参数信息,包括其所属的孔(即分类和菌株),以及它们是被筛选为正常细胞还是异常细胞。该文件会在scanR软件的TruAI界面中使用,以创建12类正常细胞的基准真实值注释。所有被筛选为异常细胞的像素在训练中均会被忽略。通过这种方法,每个类别可获得4000-15000个注释,涵盖不同菌株和一系列典型的图像变化(焦点、图像对比度、信号强度、细胞碎片等)。
在完成所有分割并分配了基准真实值后,我们设置了TruAI训练配置。我们选择了“泛化网络”和“语义分割”选项,启用了像素类别重叠,并进行了35万次迭代训练。
图3:在传输通道中分割的单个细胞的分割模罩(绿色)(未显示)。荧光信号代表定位在A)细胞外围(60号孔,C12)、B)液泡(266号孔,L2)和C)线粒体(147号孔,G3)的蛋白质。基准真实值注释是由scanR软件结合分割模罩、荧光通道和孔编号自动分配的。
为了评估模型在真实世界中的表现,我们使用了一个独立的数据集对其进行了评估,该数据集并未包含在训练中。我们制备了一个新的384孔板,其中的菌株表达了属于12个蛋白质定位类别的荧光标记蛋白质。在透射和荧光成像之后,我们在scanR软件中应用两种AI模型进行了自动分析:一个是用于检测透射细胞的内置预训练AI模型,另一个是我们根据荧光模式对蛋白质定位进行分类的新模型。为了快速直观地显示性能结果,可以在软件中创建热图,显示每个孔中特定类别高概率细胞的百分比,还可以生成这些单细胞的图库,例如识别定位到核小体的蛋白质(图4)。
图4:A)显示孔内细胞属于核仁类的概率的384孔板热图。热图显示,蛋白质只定位在第I行的核仁上。B)核仁概率高的分割对象图库,可直观地确认与核仁定位相对应的荧光模式(与图1比较)。C)利用从分割模罩中提取的一组参数在孔I3中分割出的细胞。在本例中,核仁的值最高(55041),比得分第二高的类别(细胞核,值425)高出100多倍。
为了对模型性能进行更精确的评估,我们将AI分类预测与基准真实值注释进行了比较,并在混淆矩阵中进行了描述(图5)。
图5:混淆矩阵通过比较预测类别与真实类别(每类1600-4000个细胞)来评估所开发AI模型的性能。
矩阵的总体准确率为81.5%,精确率为92.8%,定义如下:
TP:真阳性
|
除了芽颈和芽尖这两类蛋白质外,该模型在所有蛋白质定位方面都表现良好。虽然该模型会预测蛋白质的定位在芽颈或芽尖,但很难区分这两种定位。这种限制可能有其生物学基础,因为根据细胞周期阶段的不同,这两类蛋白质的定位有很大的重叠(见图1)。
我们的研究表明,通过智能样品制备和自动为数千个细胞分配基准真实值,可以开发出一种能够准确预测酵母中10种不同类别的蛋白质定位的AI深度学习模型。这种方法可应用于其他复杂的分类训练,并具有以下优势:1)它不需要用户具备任何软件编程技能;2)它避免了繁琐的手动注释,从而节省了时间;3)由于广泛的基准真实值注释,它有可能生成对成像变化具有鲁棒性的AI分类网络,使其适合批量应用于许多样品,包括高通量筛选应用。
明斯特大学作者:
Julian Schmidt, Sarah Weischer, Mike Wälte, Jens Wendt, Thomas Zobel, and Maria Bohnert
Evident作者:
Manoel Veiga,Evident欧洲技术中心应用专家
Please adjust your selection to be no more than 5 items to compare at once
对不起,此内容在您的国家不适用。
您即将被转换到我们的本地网站。