“虚拟细胞”或将改变一个领域 - 互联网资讯，行业动态 - 科技资讯网|科技新闻网--最新最快科技新闻发布汇集平台。

　　大概所有做过细胞荧光成像的人都不会同意这是个令人愉快的实验。从样品的准备到显微镜的调试，再到拍照区域的选择和成像，每个步骤都复杂繁琐，而且不能出错。

　　不过，这个来自艾伦细胞科学研究所的“虚拟细胞”或许能够解决这些烦恼——计算机视觉研究员格雷格·约翰逊开发了一个深度学习神经网络，能够从未被标记的显微成像中识别出细胞解剖结构，并由此生成复杂的细胞模型。他希望在未来，这项技术能够节约研究人员在荧光蛋白标记实验上耗费的精力，大幅提高细胞生物学的研究效率。

　　高中生物课本上关于细胞的部分是错的。典型的人体细胞，比如某个能够分化成肌肉、神经、皮肤等任何组织的多能干细胞，并不完全是一个半透明球体。它的内部构件也不是静止不动，而是分散分布，就像明胶中的菠萝块一样。实际上，细胞看起来更像是一包半融化的软糖豆，被塞进一个小小的三明治袋里。并且其内部构件都在不断运动，比计算机芯片中的活动还要更精准、复杂。

　　简而言之，了解内部细胞的样子即使在 21 世纪也很困难，更不用说它们各部分之间无数的相互作用了。“把细胞想象成像汽车一样复杂的机器，不过每 24 小时，车道上的一辆车就会变成两辆车，然后是四辆，”格雷格·约翰逊说，他是艾伦细胞科学研究所（Allen Institute for Cell Science）的一名计算机视觉和机器学习研究员，“如果你找到世界上最聪明的工程师，要求‘给我造一台能做到这样的机器’，那么他们一定会被难住。每当我想到人类对细胞运作方式知之甚少时，我就会这样想。”

　　为了观察活细胞的内部运作过程，生物学家目前主要靠基因工程和先进的光学显微成像技术。（电子显微镜可以对细胞内部进行高精度成像，但不适用于活体样本。）通常，细胞被基因改造以产生荧光蛋白，该蛋白附着于特定的亚细胞结构，如线粒体或微管。当细胞被特定波长的光照射时，荧光蛋白会发光，因而为相关结构提供了视觉标记。然而，这种技术昂贵且耗时，并且它一次只能观察到细胞的部分结构特征。

　　约翰逊有着软件工程方面的背景，他开始思考：如果研究人员能够教人工智能识别细胞的内部特征并自动标记会怎样？2018 年，他和艾伦研究所的合作者们实现了这个想法。借助荧光成像样本，他们训练一个深度学习系统识别十几种亚细胞结构，直到它可以在从未见过的细胞中识别出同样的结构。更棒的地方在于，经过训练，约翰逊的系统还可以处理细胞的“明场图像”，即普通光学显微镜获得的图像，就像“用手电筒照射细胞”那样。

　　相比昂贵的荧光成像实验，科学家可以使用这种“无标记测定”（ label-free determination），对活细胞内部生成高保真 3D 影像。

　　这些数据还可用于构建理想化细胞的生物学精确模型——就像高中课本上那些整齐标记的图表，但在科学上更加准确。这是该研究所项目的目标。

　　“我们希望能够说，这里有一个普通的细胞，看看它，解剖它，仔细研究它吧。但是因为它基于数据，所以它还可能涵盖了所有预期中的变异结果。你可以说，‘让我们来看看这个异常的细胞吧’，然后研究它的构造。”

　　约翰逊利用机器学习对细胞内部进行可视化的工作开始于 2010 年，当时他在卡内基梅隆大学。不久后，深度学习技术的一系列突破对人工智能领域带来了改变。近十年后，约翰逊认为他的活细胞 AI 增强成像方法已经能产出足够准确的软件模型，可以减少甚至完全消除对某些实验的需要。他说：“我们希望能用最便宜的方法拍摄（细胞）图像，并尽可能多地预测细胞的情况。它是如何构成的？它的基因表达是什么样的？它周围的细胞在做什么？对我来说，（无标签测定）只是一个原型，未来的技术还将比这复杂得多。”

　　Quanta 就基础细胞生物学的挑战和人工智能在显微成像领域的未来应用采访了约翰逊。为了清楚表述，该采访已经过缩减和编辑。

　　Q：为什么看到活细胞内部如此困难？

　　A：如果你想观察一个活细胞，基本上会面临两个限制。我们可以用激光照射细胞，使这些（荧光蛋白）标签发光。但是激光是有光毒性的——细胞相当于在沙漠中受着太阳的炙烤。

　　另一个限制是这些标签总要附着在细胞自己的蛋白质上，这类蛋白质需要在细胞中移动，需要实现功能。现在，它们上面附着了一个又大又蠢的荧光分子，如果标签太多，这可能会改变细胞自身的工作方式。有时，当你试图引入这些荧光标签时，实验就无法成功。有时这种荧光标记对细胞甚至是致命的。

　　Q：在荧光标记成功的情况下，它的效果还不够好吗？毕竟它已经给我们带来了这么多进展。

　　A：如果我们继续沿用汽车的比喻，那么就像你有一辆完全由玻璃制成的汽车。你可以看到汽车内部的东西，但你无法分辨自己看到了什么，它们彼此之间又有怎样的的关系。所以，你用荧光分子作为标签，来突出汽车中的一两个部分。现在你可以看到门把手，或者可以看到汽车有多少轮胎了。但有时你会发现，你的“汽车”只有两个轮子，并且它没有任何门把手。你会说：“我不知道这是什么东西。”事实上它是一辆摩托车，但我们甚至都不知道摩托车是什么，因为此前我们只看到过有四个轮子和门把手的细胞。

　　如果我们能够进行活细胞成像，可以在同一时间看到所有细节，那么生物学研究将发生翻天覆地的变化。我可以拆开汽车，用 X 射线检查汽车，看车到处行驶。也许我还能自己造一个引擎。至少我们会更好地了解（细胞里）到底发生了什么。

　　Q：什么启发了你用深度学习去标记细胞内部结构？

　　A：当我看到人们使用深度学习来生成真实的面孔时（2014 年首次用生成对抗网络实现），我说，“哦，我们可以用它来生成细胞图像。”这就是我的工作：模拟细胞。我说，“如果我们能够生成来自某个标记实验的细胞图像，并且生物学家也看不出来这些图像是否真实，那会怎么样呢？”如果我们可以做到这一点，从某种意义上说，我们就建立了一个模型，能够完全模拟该实验正在做什么。

　　Q：这样是不是存在着风险，让我们看见实际上并不存在的东西？

　　A：我们在做的其实是预测实验结果，让科学家们可以优先选择他们觉得有趣的实验进行研究。

　　假设我有细胞的照片，软件可以预测出细胞内某个细胞器，比如线粒体的分布规律。那么在机器生成的无标记模型中，我们展示的是线粒体位置的预期结果。相当于我们认为这些线粒体所处的平均位置。

　　理解这个模型的另一种方法是，比如我想要进行一项用荧光蛋白标记细胞的实验，但我没有实际执行那个实验，我手头只有这些非常便宜的明场显微镜图像。所以我要求机器预测这个荧光标记实验的结果。然后，如果我在生成的图像中看到了什么有趣的东西，我就可以去做那个实验，（验证机器的预测结果）。

　　Q：所以你想用 AI 来帮助我们进行目的更明确的实验，还是取代实验？

　　A：我认为两种说法都对。一个科学家说过，“实验的目的就在于证明你的模型是错的。”因为我们的（深度学习）模型完全由荧光成像实验数据训练得来，这意味着每次你做了新的实验，新的数据表明我的模型出现了错误，我都可以把实验数据加入我的模型中，确保下次做得更好。

　　这是一个双赢局面，要么模型正确预测了实验结果，要么模型获得了新数据，以便下次能做出更准确的预测。

　　如果把这个过程推到极端，就会得到一个机器学习模型，你可以输入任何想要模拟的实验的参数，然后它会返回你要测量的东西。如果你实际去做那个实验了，实际结果和模型结果一样的话，那你就获得了一个在某种基本的层面上理解了生物学的模型。

图片来源：Chona Kasinger for Quanta Magazine

　　Q：这种方法有争议吗？

　　A：大约两三年前，人们会说“我不相信你”。我去会议展示我的工作也会听到批评的话，翻译一下就是“带着这坨垃圾滚吧”。现在人们对这一想法的接受程度大大提高了。在整个细胞生物学成像领域，它很快就被接受了。

　　Q：是什么发生了改变？

　　A：我的博士研究主要是围绕使用经典的统计建模来做这种事情。这是非常、非常强大的工具。但是这些统计工具可能没法生成高品质的、看起来足够真实的细胞图像。我可以在细胞内画出一个大概分布，然后说：“更亮的地方就是我期望找到线粒体的地方”，但人们会说，“好吧，这看起来根本就不像一个细胞。”这让我感到非常沮丧，因为数学过程和概率运算都是正确的。

　　但是当我们获得第一张来自无标签测定模型的图片时，它们看起来很真实。我们能够真正看到细胞的各个部分在哪里。人们惊讶得合不拢嘴。然后我们就按这样的想法继续做下去了。

　　Q：眼见为实？

　　A：没错，就是这样。而且我们使用明场图像的操作让所有人都感到震惊，因为在成像领域，明场图像通常是一次性数据。当我们拍摄这些组织的明场图像，即只用普通光源照射样本进行成像，这只是为了弄清楚样品在显微镜上成像是否清晰。然后它就被塞进硬盘上的某个地方，再也没有人看它一眼。使用荧光分子进行标记的实验是昂贵的，但是明场图像相比之下基本等于不花钱。用这些昂贵的数据训练（深度学习）模型，然后使用这些模型来预测拍摄的（明场）图像的细胞内部的构造，这种方式可以节省大量的时间和金钱。

　　Q：你需要单独训练不同的深度学习模型，来识别你研究的细胞中不同的部位。有的部位比其他更容易识别吗？

　　A：被膜结构包裹的细胞器，比如细胞核和线粒体，是很容易预测的。其他没有明显膜结构的细胞器，如微管或高尔基体，就很难预测。这主要是因为这些物体的密度与它周围区域的密度差异不大。

　　Q：您要怎么打破这些限制？

　　A：比如可以使用偏振光源替代普通的透射光源，或使用其他利用光学技巧的成像技术，在成像时获得不同级别的对比度。

　　或者，如果我要做一个实验，并且只能使用三个荧光标签，那么我可以不把它们用在系统已经可以很好地预测的结构上，而是用在难以预测的结构上，比如肌动蛋白和微管——细胞内的骨架结构。

　　Q：您和艾伦研究所的其他科学家可以不断改进这些模型，并基于这些研究开发出“艾伦复合细胞”（integrated cell）。那艾伦研究所之外的科学家们也可以使用这种方法吗？

　　A：这是我们整个任务的重要组成部分。当谷歌建立 AlphaGo，击败世界上最好的围棋玩家时，他们的人工智能学习了 200 多年来出现的所有围棋棋谱。也许除了亚马逊和微软之外，世界上所有其他的机构都无法获得这样的资源。我们希望其他人能够使用我们的细胞模型和技术，在自己的实验室里进行自己的研究项目，不过他们不一定需要具备我们所达到的那种精度。

　　我们努力想要实现的事情之一，就是在普通硬件上构建这些模型——只要一台带显卡的普通计算机，和一些普通研究人员在普通实验室中获取的训练图像。我们所有的模型都在大约 30 张（荧光标记细胞结构）图像上进行了训练。这是一个研究生在实验室不到一个下午就能完成的工作量。而且只要花大约 2000 美元，你就能配置一台能够胜任这项工作的计算机，就实验室设备而言这是相当便宜的。如果你真的需要构建一个有用的模型，这应该不难做到。

图片来源：https：//www.allencell.org/allen-integrated-cell.html

　　Q：您怎么看待这项技术的发展？您希望在未来，细胞生物学家能借助人工智能的帮助完成怎样的工作？

　　A：我们希望可以给细胞拍视频，观察内部结构之间的关系变化，并作出预测。

　　以微管和 DNA 为例。微管通常使细胞保持其形状，当细胞一分为二的时候，微管将 DNA 拉开，从而在细胞两侧形成两个拷贝。这种现象众所周知，它是细胞生物学家最早发现的现象之一。但是这两种结构之间存在很多关系，这些关系非常微妙——可能很难发现，人眼无法看到它们。我们希望能够使用这些前沿的计算机视觉和机器学习方法来自动剖析这些结构之间的关系。

　　Q：这一技术只适用于图像数据吗？

　　A：不，我们无需自我设限。我们可以采集细胞的各种生物信号，进行各种各样的测量，然后模拟它们之间的关系。再次使用玻璃车的比喻，你不仅可以看到所有部件都有清楚的标签，还能看到里程数、装配时间、这些部件的年龄、是否曾经被替换，等等。

　　你可以将这种技术视为数据驱动、功能强大的虚拟现实显微镜。任何我们可以在细胞中观测的，或者成对观测的，我们可以把它们相互关联。每隔五年或十年，科学家就会想出一种新的测量方法。这完全改变了我们看待生物学或一般科学的方式。当科学家们观察他们的组织样本时，我们希望他们能拿出这个模型，让它预测我们可能测量到的细胞的方方面面。