南方财经全媒体记者江月 上海报道自从ChatGPT走红以来,不少企业和机构竞相开发大语言模型。然而,这种分散资源、能耗巨大的开发模式正为业内反思,“开源”成为一种替代性出路。
开源大模型正在发展中,它能提供“巨人的肩膀”,也能促进技术破壁和跨界交流。5月末,“猎鹰(falcon)”模型进行开源,迅速在全球开发者中掀起使用旋风。
6月12日,中国国产开源大模型也又添一子。智源研究院发布了“悟道3.0”,进入全面开源新阶段,反映开源形式对大模型的推动力量受到更多重视。
(资料图)
然而,“开源”也有其弊端。南方财经全媒体记者在采访中了解到,“猎鹰”模型的开源带来了商业权益的争议,“开源”是否也可通过许可证方式进行利润分割?此外,“开源”的技术范畴应包括哪些?业内期盼的重点开源资源是什么?受访者表示,“开源”是业内迫切的需求,但发展阶段仍然比较初期。
开源下的商业争议自从5月25日宣布对研究和商用领域进行开源以来,“猎鹰 40B”大语言模型便成为了软件届最热门的大模型之一。不过直到6月上旬,围绕这种创新开源形式的商业化许可证仍正在引发业内激烈的争议。
以往多数已开源的大模型仅对研究目的开源,而猎鹰 40B的商用开源具有“打破壁垒”的意义。此外,通过包含推理、一小组科学问题、常识推理、真实性等在内的系列测试后,猎鹰 40B和DeepMind、Google和Anthropic的最先进大语言模型表现相当。
因此,猎鹰 40B在开源社区Hugging Face的开源模型排行榜上迅速登顶成为人气第一名,直至6月13日,这个排名也不曾动摇。
“猎鹰 40B”开发者是阿联酋阿布扎比技术创新研究所(Technology Innovation Institute,简称TII)。该所介绍,该模型参数(parameter)量为400亿,可见它一反此前大模型追求大参数的趋势,走了一条不寻常的道路。
TII称,“猎鹰 40B”特别关注数据质量,数据管道扩展到数万个CPU内核进行快速处理,通过过滤和重复数据删除,从而提取高质量内容。
这个模型在今年3月首次亮相,但在5月25日进行了开源,这意味着TII提供了对模型权重的访问。“在当前的人工智能生态系统中,开发人员发现提供模型权重访问的LLM更具吸引力,因为与没有模型权重相比,它们提供了增强的微调功能。”TII在官网上写道。
为何采取开源方式?TII称,开源技术允许全球开发人员分享他们的专业知识,从而促进软件增长和增强,促进协作并推动创新;它还促进了透明度,使用户能够检查和验证代码的安全性和可靠性。
不过,在这个开源举动之后,“猎鹰”陷入一场争议。按照最初的商用协议,TII规定对猎鹰 40B“收入超过100万美元的任何商业应用要收取10%的授权费”。
开源软件通常使用的是Apache 2.0软件许可证。AI数据及模型解决方案供应商工程师林涌告诉南方财经全媒体记者:“Apache 2.0是一种广泛使用的开源协议,它允许使用者进行使用、复制、修改、分发甚至商用,唯需要包含原著的license(著作权)信息。”由于这种共享属性,一般来说,业内称原著作者为“贡献者”。
林涌指出,TII当时宣称自己使用Apache 2.0,但又修改了其中关键的部分,令业界哗然。因此,甚至有业内声音认为,修改后的猎鹰 40B不再具有真正的开源性质。
出于对业内反对声音的回应,TII已经在5月31日宣布,“猎鹰 40B”免除所有商业和研究用途的版税(royalty),以应对全球对包容性人工智能的需求。
不过,也有业内评价指出,由知名游戏开发商Epic开发的开源游戏引擎“Unreal Engine(虚幻引擎)”也采取了类似的许可证方法。虚幻引擎的许可证分为标准化和定制化两种,在标准化许可证下,小型项目、业余爱好者、学习者可以访问虚幻引擎的所有特性和材料;在企业项目和定制化项目下,收取每年每席1500美元或者协商后的其他价格。通过这种方法,基于虚幻引擎进行的游戏开发商给Epic缴纳了大量使用费。
虚幻引擎的做法,给基础大模型开发商平衡成本提供了一条思路,但显然在大模型界,这种思路的具体实行还没有达成共识。
“开源”关键点为何?在AIGC的浪潮中,“开源”的使用群体正在变得越来越强大。激发业界使用“开源”,也需要业内共创良好的互助环境,并争取宝贵的开源资源。
“开源需求应该说迫在眉睫。”某通讯公司开源战略总监陈实(化名)告诉南方财经全媒体记者,“面对抢跑的海外巨头,其他人不能只做跟随者,也要团结起来做创新者。”
随着GPT-4未能公布训练集内容,行业龙头OpenAI被冠上一个讽刺的外号“ClosedAI”。而大模型的开源之路,似乎变得有点堵塞。
近期,智源研究院副院长兼总工程师林咏华也指出了开源大模型的必要性。“在基础大模型上重复‘造轮子’,是很昂贵的,不仅是算力和数据本身很昂贵,而且还耗费了大量的电力能源。”她指出。进一步地,每个基础大模型还要不断进行版本迭代,意味着上述成本和投入要持续增加。
不过现实情况是,已开源、能商用的基础大模型通常没有那么好用。对此问题,陈实表示:“可以走两条路,开源的走to B(面向企业),闭源的走to C(面向个体)。”他解释称,to C的意思是“定制化”,根据使用者公司的特定需要、内部数据集进行模型开发训练,从而最终产品能产生“生产力”;to B的意思是“普及化”,给业界用于学习和代码参考,或者用于开发一些简单应用,例如“让每个企业都用上对话机器人”。
为何开源会在质量上产生参差、如何才能提升开源质量呢?目前,业界将问题关键指向了“数据开源”。
算力、算法、数据被称为AI的“三驾马车”,前期生成式AI爆发中,业内对于算力、算法关注度较高,但相对忽视了数据的重要性。“猎鹰”模型此次反而提醒了数据质量在模型质量中的关键作用。
基于一万亿个tokens和400亿个参数训练出来的猎鹰 40B,不仅在性能媲美其他高性能大语言模型,而且使用的训练算力只相当于GPT-3的75%、Chinchilla的40%、谷歌PaLM-62B的80%。
“其实模型只是数据的一个投影,数据质量的高低具有决定性的因素。”陈实指出。
然而,为何高质量数据难以获得?陈实告诉南方财经全媒体记者,这主要因为数据天然的隐私性。
“真正高质量的数据,存在于公司里、在一线机构里,但它们普遍都受到数据墙的保护。”陈实解释。例如,医院数据是生物制药企业最为渴求的一线资源,但这显然牵涉病人隐私,也有后续使用上的不少隐患。
眼下,大模型开源已经在底座、训练方法和工具链上相继实现,未来一大核心将在“数据开源”。
“一大问题是,龙头人工智能开发公司是否愿意参与到数据开源中。”陈实表示怀疑,由于龙头公司往往能占据行业绝大多数的利润,它们通常很难与同行达成合作、分享成果。
建立第三方机构作为数据中介,可能是“数据开源”的一种解决思路。“数据中介可以一定程度消除信任问题,也能增加数据的流通性。”陈实表示。
(应受访者要求,林涌、陈实为化名)