相比于ChatGPT问世时的火爆,大模型"聊天"的魅力似乎正在悄然消退。


(资料图)

在本月最新文章中,网络分析公司Similarweb表示,随着新鲜感的消失,ChatGPT的流量正在下降。据初步估计,今年6月ChatGPT网站的全球访问量下降了9.7%,这是该网站访问量首次录得环比下降。在美国市场上,该网站访问量环比降幅录得10.3%。

很明显,"Chat"并不是大模型的全部,只靠写诗、作画也无法重构人类社会。

Similarweb文章截图

不过,自问世以来,大模型"聊天"一直在向垂直领域下沉,不断重塑着人们的生活。

国际权威期刊《JAMA Internal Medicine》一项研究表明,当需要仔细回答患者提问时,医生平均回复长度是52个单词,聊天机器人是211个单词。它的回复不仅内容更多,而且质量更好,更加富有同理心。在评估中,78.6%的人更喜欢聊天机器人的回答,而不是医生的回答。

将大模型投入产业应用,也正在成为国内外众多企业的选择。不久前在上海闭幕的第六届世界人工智能大会(WAIC)上,京东等不少企业介绍了自己的解决方案和相关思考。围绕"贴合行业场景",有人选择让通用大模型下沉向行业,也有人选择直接打造垂直大模型。

头脑风暴一下:除了更好地理解"场景",人工智能今后还会往哪些方面发展?

京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬表示,通向真正的人工智能,多模态是必经之路。"人始终是一个核心存在,所有技术最后都要服务人。未来的AI需要通过语言、视觉和语音和人类进行交流,所以未来的AI也必须理解语言、语音。做好多模态,才能更好的服务好人类。"

在当下的竞争环境中,"场景落地",才是大模型的终极目标。

大模型应用落地,理解场景是关键?

今年WAIC最热门的话题之一,就是如何让大模型应用落地。

这本身不难理解:国内外大模型不能局限于"聊天"。基于智能交互,它本身就是一种提升生产效率的工具。任何大模型,未来最终都要落地于具体的行业应用,提高生产力;在大模型竞争中,中国和其他国家相比各有千秋,虽然存在差距,但中国行业多、发展成熟,这或许是一个可以"超车"的机会。

从数据来看,在算力等方面,中国未必就处于劣势。

中国工程院院士邬贺铨曾指出,按2022年年底的数据,美国占全球算力36%,中国占31%,单看算力总规模,中国与美国确实有差距,但差距并不大;若以GPU和NPU为主的智能算力规模来看,2021年美国智算规模占全球智算总规模15%,中国占26%。

但差距依然值得重视,例如深度学习框架还需要经受考验、继续打磨;例如生成式AI拓展到产业应用,需要将多个大模型高效融合,由此带来很多问题;例如大模型需要海量数据训练,但目前中文可供训练的语料挖掘还不足;例如大模型训练所依赖的英伟达A100芯片,被限制向中国出口……中国依然面临众多挑战。

图源英伟达网站

在新一轮全球人工智能竞赛中,大模型本身确实是必啃的"硬仗"。但中国其实有一个出"奇兵"的机会。

数据、算力和"钞能力"对大模型而言缺一不可,但大模型的发展同样离不开"场景"。本质上,大模型改变的是人类获取信息和服务的方式。它不仅需要满足信息匹配的需求,更要让AI精准地理解人类的用途,精准地完成人类交付的任务。"精准",就基于对场景的理解。

在WAIC大会上,京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬表示,伴随着大模型的出现,世界未来必然会走向智能交互时代,让机器更好地帮助我们完成专业域、更广泛的任务。何晓冬表示,训练好大模型就需要场景,"场景和数据是这个时代训练大模型的抓手。"

或许这会是中国的机遇所在。

拿工业来说,中国拥有41个工业大类、207个工业中类、666个工业小类,是全世界唯一拥有联合国产业分类中所列全部工业门类的国家;在互联网方面,中国有大量电商、社交、搜索领域的企业,拥有成熟经验和庞大数据,大模型和这些行业、场景的结合,或许会带来大量机遇。

生产车间一景 图源新华社

例如电商。网经社此前发布的《2022年度中国电子商务市场数据报告》显示,2022年国内网络零售市场交易规模达137853亿元;中国网络零售用户规模达8.45亿人,占网民整体的79.2%。这个"大场景"下涌现了直播、社交、美妆、母婴等"子场景",电商、物流、客服……它们都可能成为大模型应用落地的入口。

理解场景之后,AI的下一站是多模态能力?

围绕行业场景,一些"解决方案"已经出炉。

据何晓冬介绍,通过5分钟的形象和数据采集,基于大模型能力,京东可以重构整个数字人形象,并推向应用场景。比如在电商这个场景中。言犀虚拟主播已经在京东上线了4000+品牌直播间,累计带动8亿GMV(商品交易总额)。

不过重视场景应用,或许只是大模型全球竞赛的现在,而非将来。

何晓冬表示,人们不要只关注到ChatGPT带来的语言大模型。实际上,大模型技术在很多其他模态上也在迅速应用起来,比如语音识别和语音合成,比如视觉领域的图像识别和视频合成--当然也包括数字人。"数字人既有形象,又有语音,还有手势,还有语义,还有各种情绪在里面。"

何晓冬表示,多模态是必经之路,无论是发明神经网络或者是注意力机制,其实都是基于对人本身学习机制的理解和灵感的激发,从而去引领我们发明一系列模型。有趣的是,今年不少参会企业,似乎都对"数字人"情有独钟,由此可见各界对多模态能力的重视。

今年WAIC大会上,腾讯云MaaS(Model-as-a-Service)一站式服务迎来升级。腾讯云行业大模型能力将被应用到金融风控、交互翻译、数智人客服等场景中。通过平台提供的AI生成算法、生成式动作驱动,再结合行业大模型能力,企业可以获得个性化、专业、逼真的数字员工。数字人,其实就涉及到多模态能力。

《人机共生--大模型时代的十大AI趋势观察》报告指出,多模态技术的发展正在助力AI解决更为复杂的问题。拥有图像和语音的感知、输入,大模型未来可以基于动作、表情、情感等信息进行分析,提升自己的交互能力和表现能力。目前基于文本的交互,也将走向基于语义的交互,强化对人类情绪的感知和表达。

现场图

需要承认的是,在多模态等通往未来的赛道上,挑战依然存在。

ChatGPT-4早已开始接受图像作为输入介质,它已经能简练地指出图片的违和之处。如下图所示,当用户提问,"这张图片有什么不寻常之处"时,GPT-4简练地回答出"一名男子正在行驶中的出租车车顶上,使用熨衣板熨烫衣服。"

在今年的WAIC大会上,谈及国内外在大模型方面的差距,旷视科技联合创始人、CTO唐文斌对《科创板日报》表示,不管是基础语言模型还是多模态模型,国内外都存在一定的距离。"不过,这是可以迎头赶上的。在应用的探索上,也处于相对初期的状态。但未来会是繁荣的生态。"

方兴未艾,眼下正是国内企业积极作为之时。

在接受观察者网采访时,何晓冬表示,未来通用人工智能有两个方向要走,一个方向是多模态,大模型必须具有视觉能力,未来甚至可以更进一步延伸向嗅觉、触觉;另外一个方向是走向具身智能,包括机器人、机械臂、无人车等,让通用人工智能走向物理世界。

推荐内容