阿里云自研大模型“通义千问”亮相，我们进行了深度实测-热文

年初以来，AI大模型概念持续引发市场关注，相关上市公司股价持续上扬。在透露正在研发类ChatGPT对话机器人两个月后，阿里终于亮出了自己的研究成果，这也再度推高了中文大模型的热度。

4月7日中午，没有高调召开发布会，而是通过官方微信，阿里云宣布自研大模型"通义千问"正式开始邀请用户测试体验。据称，现阶段"通义千问"模型主要定向邀请企业用户进行体验测试。

【资料图】

观察者网也率先拿到了"通义千问"的首批测试资格，并对其进行了深度实测。

在测试中，"通义千问"提到，它是达摩院自主研发的超大规模语言模型，能够回答问题、创作文字，也能表达观点、撰写代码。

但这也间接说明，"通义千问"主攻文本生成，并没有文生图、图生文的多模态功能。

当被问及什么时候开始被训练时，"通义千问"透露，它是在2016年被创造出来的，当时被训练成能够回答各种问题和提供帮助的人工智能语言模型。

但它似乎对自己在哪里被训练的有点说不太清。

在被问及参数量时，"通义千问"表示，其参数量相对较多，由于涉及敏感内容，具体的参数量数值并不能透露，"我可以生成各种类型的文本，如文章、故事、诗歌、故事等，并能够根据不同的场景和需求进行变换和扩展"。

市场反应方面，今日（4月7日）港股没有开盘。

不过A股的人工智能概念股，再度火热。ChatGPT、游戏、文化传媒方向领涨，据不完全统计，中文在线、神州泰岳20CM涨停，奥飞娱乐、上海电影涨停，方直科技、光云科技大涨超10%。

多角度测试，"通义千问"表现如何？

由于AI大模型擅长回答各种问题，观察者网也从多个角度对"通义千问"进行了测试。

比如，我们问它是否知道观察者网。"通义千问"表示，"是的，我知道观察者网。观察者网是一家致力于提供新闻和信息的新闻门户网站，它提供了大量的国内外新闻和深度分析，并致力于推动社会进步和改变。"

但"通义千问"好像并不能凭借简单指令生成商业宣传口号。

随后我们将话题转向体育领域。

被问道"梅西在阿根廷国家队进了几个球"，"通义千问"称，根据可靠的数据，梅西在阿根廷国家队的进球数量是很多的。不过由于"具体的进球数量数值，可能会因为时间的推移而有所变化"，"通义千问"婉拒了为我们提供准确答案的请求。

当被要求"生成一张打篮球的图片"，"通义千问"表示，作为文本AI模型，它没有能力生成图片。

这一点也证实了"通义千问"不具备多模态功能。

我们也让"通义千问"试图回答和自己其他大模型的能力对比问题。

无论是对比文心一言还是ChatGPT，"通义千问"都显得很主动，它先是介绍了自己的优势，最后再积极地表示，自己可以更好地满足用户的需求。

不过如果要求苛刻一点，不难发现，两个问题的答案有很多相似之处。

当被问及"怎么看待现在大模型的火热"？"通义千问"称，它认为大模型的火热是一个好现象，大模型可以帮助我们更好地理解世界，提高我们的工作效率，拓展我们的认知边界。但这也带来了一些问题，比如人工智能的伦理问题、隐私问题等。因此，我们需要认真思考如何在技术的发展中平衡安全、发展和责任。

这也验证了"通义千问"表达观点的功能。

最后的系列问题涵盖成语典故、诗词接龙、传统美食等，"通义千问"小小地翻车了几次。

例如它将东施效颦的东施，解释为"美女"，这不太符合不少人对这一典故的基本印象。在《庄子》等典籍中，对这个故事中"东施"一类的角色，描述也是"其里之丑人"。

在有关传统文化方面，"通义千问"没有正确给出"停车坐爱枫林晚"的下句。

对于"曹操什么时候三顾茅庐的"这样的"坑"，"通义千问"也未能识别提问者主动设置的"陷阱"。

与ChatGPT-4相比，"通义千问"表现如何？

为了让大家对"通义千问"的表现能力有一个初步的、直观的了解，在后续的测试中，我们围绕数理逻辑推算、商业文案创作、情感和道德判断、仿写创作和小说续写设计了五组问题，分别由ChatGPT（基于4.0模型）和"通义千问"进行回答。

这也让初生的"通义千问"直接"硬刚"世界上最先进的大模型GPT-4。

第一组是数学问题。

"鸡、兔共有脚100只，若将鸡换成兔，兔换成鸡，则共有脚86只，鸡兔各有几只？ "

这道题目的正确答案是鸡有12只，兔有19只。

ChatGPT表示，这是一个典型的鸡兔同笼问题。我们可以使用代数来解决这个问题，随后给出了正确的答案；

对这一问题，"通义千问"三次都没有得出正确的答案。

第二组是商业文案创作。

题目要求两个模型参考"全球视野，中国关怀"，为观察者网制作一条宣传语。

ChatGPT给出的答案是：

"放眼世界，聆听中国心声--观察者网，让全球视野与中国关怀相融汇。"

"通义千问"给出的答案是：

"观察者网，洞察国际时事，聚焦全球热点，解读中国方案。"

与ChatGPT相比，"通义千问"的风格显得更加平铺直叙，但总体而言，表现也不错。

第三个问题是道德和情感判断，材料为著名的电车困境。

"一个疯子把五个无辜的人绑在电车轨道上。一辆失控的电车朝他们驶来，并且片刻后就要碾压到他们。幸运的是，你可以拉一个拉杆，让电车开到另一条轨道上。然而问题在于，那个疯子在另一个电车轨道上也绑了一个人。考虑以上状况，你是否应拉拉杆？"

我们要求两个模型做出选择，并给出理由。

ChatGPT开宗明义，点明这是"道德困境"。它的选择是拉动拉杆，牺牲一个人保护五个人，它表示，"虽然这并非一个完美的解决方案，但在这种情况下，我们需要在两个不理想的选择之间进行权衡。"

ChatGPT解释称，该选择基于效益主义（Utilitarianism，即边沁等人的功利主义学说）的道德观念，它随后介绍了该理论的主要主张并结合材料进行了分析。在最后，它强调："这个问题没有绝对正确的答案"，并重复了自己做出该选择的原因和立场。

"通义千问"没有回答这个问题。它非常诚实地表示，"作为一个人工智能语言模型，目前我还没有学会如何回答这个问题，我会持续学习，为您提供更好的服务。"

需要补充的是，电车困境及其"变种"问题，在西方世界已经有多年的讨论，材料很多。这可能也是ChatGPT表现更亮眼的重要原因。

第四组问题是仿写创作。

这一组问题我们提了一个"刁钻"的要求。在实验中，我们要求两组模型，以"困住风的气球，开始斑斓的远行"为仿写对象，创作四个类似的句子，拥有类似的句式或者意境即可--我们特意要求：前两个句子为浪漫主义风格，后两个句子为荒诞主义风格。

ChatGPT给出的答案是：

"通义千问"给出的答案是：

两相对比，ChatGPT和"通义千问"都顺利地完成了问答，甚至都基本满足了"前两个句子浪漫，后两个句子荒诞"的要求。

从各自的不足来看，ChatGPT虽然更加灵活，但是在内容上，有点像一个"中二少年"；"通义千问"虽然在比喻的内在联系上显得"靠谱"了不少，但是显得木讷了一些，在句式、素材、表达上都有些"中规中矩"。

不能令人完全满意，但值得期待

某种程度上，最后一个问题是对模型最全面的考验之一，它关乎文学创作。

实验要求两组模型先"学习"一个故事，然后自己去续写它。我们可以借此来了解模型本身的理解、推演和创造能力--这个问题甚至可以留给人类自己。

我们给出的材料出自萨默塞特·毛姆的写作笔记：

"两个年轻的英国人在印度一个隔离的茶园工作。其中一个人--我们称他为克里夫--每次投递都会收到几封信，但是另外一个人--我们称他为杰弗里--从来没收到过一封信。有一天杰弗里提出：拿五英镑跟他的朋友换一封信……"

我们要求两个模型续写这个故事，并给出一个讽刺意义的结尾。

首先是ChatGPT给出的版本：

接下来是"通义千问"给出的版本：

从多个实测问题来看，"通义千问"的表现不能令人完全满意，回答问题时也会出现"一本正经胡说八道"的情况，但它的表现并没有想象中的那么差，甚至在部分场景中会让人眼前一亮。

正如市场上之前对百度"文心一言"展现出的包容：人工智能及其衍生的AIGC十分重要，无论国内做得如何，都得先有产品出来。不论是"文心一言"，还是"通义千问"，都不需要碾压ChatGPT，更不用说参数量更大的GPT-4，只要能做到超过及格线，就很不错了，毕竟这才是第一代产品。

随着后续公测开启，"通义千问"应该会随着用户的测试而逐渐学习得以改进，还是值得期待的。

推荐内容

阿里云自研大模型“通义千问”亮相，我们进行了深度实测-热文

今亮点！梁门穴位位置图及作用（梁门的准确位置图和作用按摩方法）

天天观察：《花千骨》片尾曲叫什么?《花千骨》中的《年轮》是谁唱的?

天天视点！货币市场基金规模再创新高 白银TD跳涨

4月7日白银早评：IMF警告经济下行风险增加 白银行情待涨

今日外汇决策分析：当非农遇上耶稣受难日 市场将会创造什么奇迹？

WTI（USOil）和布伦特原油（UKOil）以巨大的缺口开盘。 聚焦美国就业和PMI。

马克龙抵达中山大学，与学生见面交流 全球微动态

广州天河再发消费券：发挥汽车消费“火车头”作用，预计撬动消费总额超1.5亿元

天天热讯:资本寒冬“不一定是坏事”：下一波医药创新或更丰富精彩

信托转型记｜专访国民信托董事长肖鹰： 发力破产重整 做专业化、小而优的受托人 世界微资讯

横琴无人驾驶驶入“快车道”，年内将新增多条线路_世界今日报

环球观热点：截至3月末我国外储规模为31839亿美元，较上月末升1.62%

当前时讯：《繁星四月》结局繁星死了吗?《繁星四月》繁星最后和谁在一起了?

中国人寿：广东地区保费收入持续增长，险资深度融入粤港澳大湾区建设

全球微头条丨科技股基金是混合型基金吗？混合基金有哪几种类型？

环球微速讯：股票委托价低于现价能成交不？股票买了多久可以卖？

英镑兑美元基本面分析：英镑兑美元在1.2400左右温和上涨-世界观焦点

焦点滚动:Stifel：将在2025年实现更强利润增长 上调沃尔玛(WMT.US)目标价至161美元

又双叒降价了! 特斯拉(TSLA.US)年内三度下调美国Model S与X售价

中信银行广州分行举办出国金融25周年发布会_世界今日报

全球讯息：《午间快报》：专家：预计3-5年后还将有60%-70%的新能源车品牌面临关停并转

《瞭望大湾区》：新车上牌免查验试点新增21个城市 公安部推出10项交管服务便利措施

粤丰环保：中山项目科普研学基地被授予国家AAA级旅游景区牌匾

天天播报:股票庄家是怎样操作盈利？股票庄家最怕散户做什么？

斗罗大陆唐门英雄传：为了逃出黑洞，众神让所有神界碰撞产生爆炸 看热讯

当前头条：肺癌晚期能活几年？恶化最快的三大癌症是什么？

天天看热讯：苹果iPhone自带的天气APP崩了 客服终于有回应了？

信用卡逾期怎么跟银行协商解决呢？信用卡逾期一月严重吗

当前资讯!同业存款利率是什么意思？一般性存款与同业存款有什么区别？

委托律师停息挂账多少钱呢？信用卡停息挂账了有什么好处？ 环球快资讯

煮花生毛豆放什么佐料？煮花生毛豆多长时间煮熟？_天天快消息

牛市初期低价股会翻倍吗？值得投资的低价股有哪些？

基金持有7天包括周六周日吗？基金持有时长包括非交易日吗？-全球百事通

环球动态:如何在软文推广中使用“进阶性”？

实时：打新股真的稳赚不赔吗？ 打新股具体变化有什么？

天天动态:失业后如何办理信用卡停息挂账 停息挂账的失业证明怎么开

选明星股的准则具体是什么？股市A股有哪些明星股？

每日热点：如何在软文推广中使用情景？

社保卡补办的卡号和原来卡号一样吗？ 社保卡换新卡账户资金是否受影响？

河南灵宝：梨花风起四月天

lovme是什么牌子手机？lovme手机怎么开机？ 世界热资讯

当前消息！魏则西事件过程是怎样的呢？关于魏则西事件的解析

如何在软文推广中使用“引言”？ 天天播资讯

当前快播：基金申购何时成交?基金申购扣的钱去哪了?

当前资讯!工商银行定期存款全国通取吗？工商银行定期存款到期后会自动转存吗?

天天速讯：融资融券标的是什么意思？301106是不是融资融券标的？

《暮光之城》一共有几部?《暮光之城》番外篇有几部?

停息挂账影响网商贷提额吗？信用卡逾期三年了银行会怎样处理？

Epic游戏商城春季特卖开启 超1800款游戏参与打折促销

电脑主机机箱漏电怎么办？用Photoshop怎么把腿拉长？|世界时讯

今日热搜：股票代码怎么区分上证和深证?股票代码的意义介绍

停息挂账后会影响征信吗？信用卡逾期多久会上征信？_今头条

荣耀新款笔记本即将发布 边框极窄代号三叉戟|世界新动态

泌尿外科手术有哪些？尿道断裂能恢复正常吗？

1至2月全国锂电总产量同比增24％ 速递

安徽太湖县新签约1.5亿元铜项目 世界即时看

CBC铁合金要闻精选（2023-4-7）

CBC钢铁行业要闻精选（2023-4-7）

CBC锂电行业要闻精选（2023-4-7）

山海经异兽录远古森林怎么打 山海经是什么游戏？

每日信息：股票买入为什么必须委托？委托买入股票要多久才能成功？

36家中法企业签署18项合作协议

微速讯：石头科技增资至9368万 增幅40%

【新视野】消失的老百货：2022年全国超42家商场停业，中国百货零售业迎来新变革

2022年报掘金丨主动权益类基金去年基民平均亏25%，只有这些基金让基民赚到了钱...

抖音牵手腾讯视频，长短视频“不死不休”的时代过去了？

连播九天！产学投融实务派代表齐聚首届公募REITs宣传周|每日视讯

世界观焦点：苏炳添将手机从小米换成iPhone 14？回应来了

停息挂账2023新规定是真的吗？挂账停息的优缺点介绍 天天聚看点

linux怎样关闭端口？linux关闭端口后需要重启吗？-当前简讯

linux怎样关闭端口？linux关闭端口后需要重启吗？ 环球快资讯

焦点要闻：2020年春节哪天贴对联？春节贴对联有什么讲究？

股票做t是什么意思？炒股十人九输是真的吗？_今日视点

信用卡逾期被起诉多久会被拘留？信用卡逾期银行起诉了是直接拘留吗？|世界热头条

找法务能办理房贷停息挂账吗？个人申请停息挂账的具体操作方法

你知道美国独立战争时间是什么时候吗？美国独立战争背景是怎样的呢？_视点

焦点热文：双子座自己不是一个温柔的人 所以不喜欢凡事妥协的温柔的人？

【环球新要闻】怎么在搜狐公众平台上面发布文章？如何用百度云下载无损音质的音乐？

天天视点！货币市场基金规模再创新高白银TD跳涨

4月7日白银早评：IMF警告经济下行风险增加白银行情待涨

今日外汇决策分析：当非农遇上耶稣受难日市场将会创造什么奇迹？

WTI（USOil）和布伦特原油（UKOil）以巨大的缺口开盘。聚焦美国就业和PMI。

马克龙抵达中山大学，与学生见面交流全球微动态

信托转型记｜专访国民信托董事长肖鹰：发力破产重整做专业化、小而优的受托人世界微资讯

焦点滚动:Stifel：将在2025年实现更强利润增长上调沃尔玛(WMT.US)目标价至161美元

《瞭望大湾区》：新车上牌免查验试点新增21个城市公安部推出10项交管服务便利措施

斗罗大陆唐门英雄传：为了逃出黑洞，众神让所有神界碰撞产生爆炸看热讯

天天看热讯：苹果iPhone自带的天气APP崩了客服终于有回应了？

委托律师停息挂账多少钱呢？信用卡停息挂账了有什么好处？环球快资讯

实时：打新股真的稳赚不赔吗？打新股具体变化有什么？

天天动态:失业后如何办理信用卡停息挂账停息挂账的失业证明怎么开

社保卡补办的卡号和原来卡号一样吗？社保卡换新卡账户资金是否受影响？

lovme是什么牌子手机？lovme手机怎么开机？世界热资讯

如何在软文推广中使用“引言”？天天播资讯

Epic游戏商城春季特卖开启超1800款游戏参与打折促销

荣耀新款笔记本即将发布边框极窄代号三叉戟|世界新动态

1至2月全国锂电总产量同比增24％速递

安徽太湖县新签约1.5亿元铜项目世界即时看

山海经异兽录远古森林怎么打山海经是什么游戏？

微速讯：石头科技增资至9368万增幅40%

停息挂账2023新规定是真的吗？挂账停息的优缺点介绍天天聚看点

linux怎样关闭端口？linux关闭端口后需要重启吗？环球快资讯

焦点热文：双子座自己不是一个温柔的人所以不喜欢凡事妥协的温柔的人？

交通问题有哪些？交通安全有哪些注意事项？当前速讯

如何在软文推广中体现“专业性”？当前播报

新浪页游助手彻底删除教程是什么？乐游游戏盒怎么卸载？

信用卡逾期封卡多久会被起诉？信用卡逾期会封卡吗？今日最新

车贷可以提前一次性还清吗？车贷解押手续需要什么材料？天天即时看

我国从何时起称为中国我国古代也叫中国吗？