AI for Science商业化何时落地？打通数据壁垒成关键一环

自人工智能第三次浪潮兴起后，人们一直在探索相关应用落地的领域，AI for Science受到了广泛而高度的关注。其中，2023年爆火、以ChatGPT为代表的AI大语言模型，正在给药物筛选带来技术革新。类似文生文、文生图的技术，大模型生成众多潜在药物分子，将之与目标蛋白质进行配对，帮助研究者省却分子结构的密集计算步骤。

6月8日，由麻省理工学院和塔夫茨大学研究团队开发的ConPlex机器学习方法走红，它通过使用预训练的蛋白质语言模型，在短短24小时内就能完成200亿对药物配对，从而实现更准确的药物-目标相互作用高通量计算预测。

(相关资料图)

科研工作者向南方财经全媒体记者介绍，预训练大语言模型因能产生信息量丰富的蛋白表征，在药物研发的前期过程中已经取得行业颠覆的效果。眼下，类似技术也在材料学、气象学等其他领域进行验证，AI正驱动科学产业取得更快发展，但业界也在期盼商业化的尽快实现。

24小时内进行200亿对药物配对

6月8日，《美国国家科学院院刊》（PNAS）发布了一篇题为《蛋白质语言空间中的对比学习预测了药物和蛋白质靶点之间的相互作用》的论文。研究团队称，使用新的预训练大语言模型可以将药物筛选速度大幅提升，将药物研发中一道相当昂贵的步骤进行了缩减。

该文作者是来自麻省理工学院和塔夫茨大学的研究人员。他们指出，在药物研发中，最昂贵的步骤之一是对小分子进行实验筛选，这个步骤是为了确定药物小分子与相关蛋白质靶点的结合。

论文作者指出，此前的计算技术不足以进行基于序列的药物-目标相互作用预测，因此开发出一个深度学习模型ConPLex，利用了预训练的蛋白质语言模型（PLex）的进步，并使用了蛋白质锚定的对比共嵌入（Con）来超越此前最先进的技术。

论文中写道，ConPLex速度极快，作为概念证明，在不到24小时内、使用单张英伟达公司出品的A100型号GPU芯片，研究团队就对大型开源药物发现数据库ChEMBL中的所有药物进行了人类蛋白质组的预测，工作量大约是200亿对。

一名重点实验室研究人员向南方财经全媒体记者介绍，药物研发正亟需降本增效。“26亿美元成本、10年长周期、1/5000次成功率，这就是药物研发中平均的时间和金钱成本。”他称。其中，在药物发现和临床前研究阶段平均要花费8亿美元、3年，从而将可以走向临床试验的化合物数量减少到250个，这部分就是预训练大语言模型正在试图“减负”的部分。

将大语言模型运用到蛋白质结构发现中，其实已早早为不少大型机构所尝试。其中最为人熟知的包括Meta人工智能实验室推出的ESM系列模型、谷歌姐妹公司DeepMind推出的AlphaFold模型。2021年，《科学》杂志评选“年度突破（Breakthrough of the Year）”时，将此殊荣给了AlphaFold，并评价其“解决了50年来的一大难题”。

“这些模型的区别主要在于蛋白和分子表征手段不同。”上述研究人员介绍，“蛋白质语言模型可以提供信息量丰富的蛋白表征，基于序列的DTI预测可以在无法精确获得蛋白结构的情况下提供备选解决方案，助力针对此类靶标的药物研发。”

AI for Science发展迅速

不只蛋白质发现可以使用AI产生“奇效”，AI for Science其实已经成为一种越来越普遍的研究方式。对传统科学，它或可减省研究人员工作负担，或可对一些长期无法突破的问题进行突破。有行业人士和研究人员告诉记者，科学家是巨大的生产力，而AI for Science可以给他们解放生产力提供重要的工具。

上海集成电路材料研究院副总经理冯黎在此前的采访中告诉南方财经全媒体记者，集成电路材料基因组体系（AI for IC Materials）也是对AI模型的一种应用。她介绍，集成电路开发在性能测试、中试、应用测试等步骤中产生丰富数据，可以将材料跨尺度计算加之验证补充，通过汇总储存形成集成电路材料基因库，再利用机器学习的手段进行建模，与材料跨尺度计算相互协同，探索材料构效关系模型，为提高用户产品性能指明方向。

换言之，原本需要多人力安排、多工作时长安排的工作，眼下可以在AI模型的协助下进行某种程度上的“自动化”。这将促进集成电路在电源等材料上的进一步突破。

“就在几年前，AI工具在科学中的应用似乎也仅仅是提出备选方案，但生成式AI、大模型等进展令AI发挥了真正的作用，也打响了AI for Science的名声。”上海某理工科高校教师向南方财经全媒体记者表示。

尽管科学与信息工程原本分属不同领域，但融合显然是未来必然的趋势。不少科研人员都在工作中感到，科学家也需要代码工具缩短研究周期，还需要可视化工具来解释抽象问题，此外，同行评审、期刊发布模式等科学界关心的问题中，也有用AI提升效率的巨大潜力。

AI for Science不仅是学界的呼吁，也得到了政府的关注。

例如在4月，AI for Science科学数据开源开放平台和张江·交大人工智能研究平台在上海同步启动。这两个平台依托上海交通大学、上海白玉兰开源开放研究院、张江集团等布局建设，致力于打通学科壁垒，推动人工智能技术成为解决基础学科重大科学问题的新范式。

中科院院士、自然科学基金委“下一代人工智能”重大研究计划专家组组长鄂维南也指出，科研人员在实际研究中面临四大痛点：其一，辛苦研究出来的基本原理等重要成果，用来解决实际问题时比较困难；其二，目前的实验手段，以及收集、处理、分析数据的效率相对低下；其三，科研团队工作方式多为“作坊模式”，从头到尾都自己干下来，科研效率亟待提高；其四，在解决生物制药、材料等实际问题过程中，仍然依靠经验和试错方式。

商业化推动需加快

眼下，将生成式AI和大模型技术进行应用落地、推动挖掘商业潜力，已经成为市场共识。在AI for Science领域，相关问题依然存在。受访者认为，打通数据壁垒，是推动AI for Science商业化的重要一环。

临港实验室研究员王鼎言此前于临港新片区智算产业交流会上向南方财经全媒体记者介绍，将人工智能手段运用到药物发现上的AIDD(AI-Driven Drug Design)，已经渗透到了药物研发的全链条，不过尽管优势明显，但发展还有局限。

有市场数据显示，截至2022年底，全球41家AI制药公司约有80条管线已经进入临床阶段，但仅有3条实现新靶点开拓，且尚未有AI技术主导开发的药物上市。

“目前药物研发中，问题建模方式、数据质量和数量与模型结构是制约AI模型精度与应用域的主要瓶颈。”王鼎言表示。

在问题建模上，模型搜索空间维度不宜过大，否则会造成不必要的有偏性和低泛化性；在模型结构上，还需要进行多源、多模态信息交互融合，适应药物研发的特殊数据场景需求。

不过，随着算力与算法趋向成熟，数据成为AI药物研发的核心瓶颈之一。王鼎言介绍，药物研发很大程度上还是一个试错的过程，如何提升试错的通量和速度、加快药物研发的效率？关键在于优质数据的提供。

相较于无人驾驶、智能化场景使用等工业领域，AI for Science的数据积累更难。如在生物科技、制药领域，实验室数据、临床数据的高质量数据获得，不仅要经历严谨的试验、漫长的时间，甚或面临审批等外部阻力。

眼下，将AI成果进行落地的药物企业主要有四类，包括全程自研、与研究机构合作、买进临床前管线自主推进以及作为临床资产全部卖出。然而，要推动AI早日产生商业利润，还需要应用落地推广者们提升风险偏好程度，也需要更好的商业模式、现金流情况及管线的收益分配来配合。