搜索: 标题

背景:
阅读详情

阿里、Kimi推理大模型集中发布 实际效果却不尽人意

日期:2024年11月29日 11:08 来源:观察者网 作者:佚名

28日,阿里通义千问推出了自己的数学推理大模型——QwQ-32B-Preview。这是继Kimi之后,近期第二款对标OpenAI o1系列的推理大模型。

据介绍,QwQ-32B-Preview包含325亿个参数,能够处理最长32000个tokens的提示词,在GPQA测试中的评分为 65.2%,展示了研究生水平的科学推理能力。在AIME和MATH基准测试中,它的表现优于OpenAI的两个推理模型o1-preview和o1-mini。

并且,QwQ-32B-Preview在更加宽松的Apache 2.0许可证下“公开”可用,这意味着它可以用于商业用途。

此前的11月16日,在Kimi正式上线一周年之际,月之暗面发布了最新数学模型k0-math。宣称在中考、高考、考研以及入门竞赛题MATH等4个数学基准测试中,可以超越OpenAI o1-mini和o1-preview。

那么这两个国产推理大模型的实际能力究竟如何?

值得一提的是,通义官方在QwQ的介绍文章中,首先提到的并不是其性能,而是自己的局限性。文章指出,作为预览版本,QwQ-32B-Preview 展现了令人期待的分析能力,同时也存在以下局限:

1.语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。

2.推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。

3.安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。我们强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。

4.能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。我们正通过持续优化,努力提升模型的综合能力。

上述文章指出,“QwQ 既展现出能力,又保持着谦逊;既积累知识,又永远对未知充满好奇。”在看惯了自吹自擂的商业通稿之后,通义的这种谦逊态度已经足以眼前一亮。

于是我们拿几个问题实际测试了上述两个模型的能力。

首先是出自今年高考全国卷的一个数学题:当x∈[0,2π]时,曲线y=sinx与y=2sin(3x-π/(6))的交点个数有几个?

面对这种非常标准化的问题,QwQ和k0-math都表现不错,给出了正确的答案:6个。

而且,两者都体现出了推理大模型的一个重要能力——自我反思。

在解题过程中,它们首先尝试了代数方法,把问题转化为求解方程sinx=2sin(3x-π/(6))。但发现这个方程非常难解之后,又推翻了最初的方法,转而寻求几何方法来解题。

在用几何方法走通之后,两个大模型也都绞尽脑汁,用代数方法重新求解,并得到了正确答案。k0-math甚至在解题之后还检查了一遍。

可以看到,在纯粹的数学能力上,两个模型至少都达到了普通人的水平。

不过正如通义文章中所说,随着问题的复杂度和专业性提高,它们的表现还不尽如人意。

不久之前,我们曾经拿一个用车成本的问题测试过几个大模型的逻辑能力,这次我们不妨再试一次。问题如下:分析乐道L60车辆采用BaaS方案下的每年用车成本,BaaS方案和电池买断方案哪个更划算。

这个问题既涉及到BaaS方案本身的复杂性,而且由于问题表述相对模糊,更考验大模型像人一样理解问题的能力。

这次,两个模型也都不同程度上翻车了。

首先,k0-math基本正确给出了计算方式,但是在具体每项成本的计算上使用了英里和美元作为单位,具体价格也仅为假设,而不是像Kimi探索版那样通过搜索获得准确价格。

点击查看大图

这体现出k0-math和Kimi探索版的鲜明区别——虽然强化逻辑,但或许是出于降低成本而弱化了搜索能力。

QwQ却在逻辑上也存在瑕疵。

从上图可以看到,QwQ很“贴心”地考虑了贷款购车的情况,给出了5年分期方案。不过这个简单的单利贷款的月供问题,QwQ却算错了。

而在最后的汇总环节,QwQ又把全款购车费用和贷款月供进行了重复计算,极大高估了总体用车成本。

目前看来,所谓推理大模型,主要还是依赖于两种算法的加强——对复杂问题的拆分,以及通过反思来检查。但想要真正具有人类一样的推理能力,仅有这两个原则性方法还是远远不够的,仍然需要产品层面的进一步完善。

原标题:阿里、Kimi推理大模型集中发布 实际效果却……


本文地址:https://www.24qq.cc/n114140c26.aspx,转载请注明24FA出处。
| lantu |
标签:
评论: 阿里、Kimi推理大模型集中发布 实际效果却不尽人意 - 网民评论 全部评论 0
姓名: 字数
点评:
评论声明:
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规。
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。

    • 本周热门
    • 今日热门

    首页 焦点(3579) 热点(2616) 新闻(13092) 国际(5166) 娱乐(4440) 视频(131) 综艺(1809) 影视(3399) 音乐(2082) 民生(3665) 行业(275) 财经(1618) 股票(363) 时装(9) 商机(19) 女性(416) 男士(75) 美容(44) 时尚(29) 珠宝(40) 饰品(28) 品牌(12) 保健(59) 健康(270) 养生(104) 医学(355) 母婴(113) 亲子(56) 旅游(398) 购物(11) 美食(59) 创业(89) 社会(9796) 观点(1016) 房产(1098) 汽车(282) 家居(21) 安防(40) 环保(57) 科技(622) 展会(4) 数码(208) 足球(222) 体育(1067) 教育(1367) 高校(1637) 法制(2181) 军事(550) 游戏(257) 小说(524) 美女(18975) 欧美(32) 运营(18) 网络(404) 读书(294) 励志(178) 灵异(52) 奇闻(159) 趣闻(179) 历史(364) 人物(92) 星相(383) 艺术(46) 两性(320) 情感(152) 文学(300) 武林(261) 道教(62) 佛教(147) 广州(134) 地区(13)