简介:旗舰车型Qwen3进入全球第一阶段,国内进入前二、三名。其整体功能略逊于 Gemini3、GPT-5.1 和 Kim K2 Thinking,但与 Grok 4.1 和 Claude Opus 4.1 属于同一类别。阿里巴巴新推出的“问文App”引起了外界的关注。 Qwen3车型的性能与国内外一些主流车型相比如何?用户应该如何根据不同的任务选择不同的大型模型?今天我们就来进行对比和总结。 01 Qwen3基础 Qwen3是阿里巴巴今年推出的第三代大型机型,是钱文应用的核心基础。这有几个重要的特征。 1.高体积和架构密度型号:0.6B至32B。 MoE 徽章:Qwen3-235B-A22B(总参数 235B,有效参数 22B)。这对应的是“巨舰参数+算力节能”。 2. 学习cale 的训练数据约为 360 亿个 token,涵盖 119 种语言和方言。本书可帮助您实现数学、编纂和 STEM 方面的辅助。它提供了类似于GPT-o1/DeepSeek-R1的显式推理版本的“思维模式”。 3.申请形式包括文本、书写、代码和多模态(图像/文档/表格)对话。长上下文版本可以支持数百万个token,非常适合长文档场景。 Qwen3-Max/Qwen3-235B 的应用程序位于极端 C 方向,可以正常使用“Qwen3-Max/Qwen3-235B 不同徽章 + Thinking 版本”组合。 02 Qwen3用什么“测量”来测量?利用 Qwen3 的评估指标:人工智能分析 (Índice AA) El índice AA 包括 MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等,最终为每个模型提供从 0 到 100 的综合“智能分数”。该分数是目前的最佳分数之一。他最常引用国际大型模型的“总分”。在LMArena/Text Arena(人类盲评Elo排名)中,大量真实用户投票哪个更好,不看型号名称,只看答案。 Elo 分数用于排名并关注“实际用户体验”方面。此外,还使用几个单独的基准进行评估。 AIME2025:竞争水平的数学。 HLE(人类最后的考试)——一项极其困难的综合考试。 LiveCodeBench/SciCode:实用软件工程和科学代码。本次评测主要以AA榜单+人类盲评榜单为主,辅以一些特殊的基准,力求做到最好。客观公正。虽然进入了“上层区域”,但屋顶却没有变化。 AA指数:根据目前公开的信息,主要主流机型的AA指数得分如下表。注:被 AA 的“Stat”列为“最佳非推理法学硕士”之一e of AI: China Q2 2025”。带星号的分数表示根据厂商数据估算。从以上分数来看,Qwen3旗舰版已经与Grok 4.1和Claude 4.1持平,但不如Gemini3 Pro、GPT-5.1和K2那么高。与Thought还有大约7到10分的差距。这与最好的型号之间仍然有明显的差距。人类盲评Elo榜单:Gemini3 Pro和Grok4.1(Thought)交替占据评测结果榜首,Cima旗舰Qwen3的得分也比这些“老大哥”高,但肯定处于第一波的前列,与他们争夺同一榜单的选票,更直观地说,一旦国外的开发者和研究人员能够投票,用户就已经能感受到Qwen3的强大了。与GPT-5/Gemini3相比体验上不会有太大差异,我们来看看一些个人评测:AIME 202。5:竞技数学测试成绩大致排名如下: GPT-5 Codex(高) ≈ GPT-5.1 Kimi K2 Thinking Grok 4 Qwen3 235B Gemini 2.5 / Claude 4 系列 Qwen3 是数学第一层难点可以理解,但在“竞技数学+演绎专精”场景下,“数学怪物”GPT-5.1/K2/Grok 4在这个测试中更强。 Kimi K2 Thinking 和 GPT-5 系列在 HLE 中表现最令人印象深刻。 Qwen3 与 GPT-4.1/Grok-3/Gemini-2.5 Pro 一代类似,但有一些改进。测试结果意味着Qwen3在整体推理上并不逊色,但也不是第一。 LiveCodeBench/SciCode:工程代码科学代码工程代码为GPT-5.1≳K2 Thinking≳。 Grok4≈Gemini2.5Pro Qwen3≈DeepSeek-V3.2 在SciCode测试中,差距更小,将大家推入40%+的范围。也就是说,使用前文写代码时,大致处于“稍弱”的水平r比GPT-5.1/K2/Grok4”,但绝不明显落后于上一代。对比:Kimi、Kwen 3、DeepSeek、豆宝 Kim K2 Thinking的整体智能得分约为67分,在AA排行榜上直接进入全球前5。该模型对于导航和调用工具特别有用。由于其在代理任务中的enfoque,对于面向“代理”的基准测试尤其强大,例如HLE和BrowseComp的整体智能得分在60分左右,使得DeepSeek-V3.2-Exp的总智能在57分左右,具有国产芯片适配、长上下文性能和推理能效优化等特点,针对中国计算环境定制,AA中国Q2报告中显示的IQ在48*左右,是最好的。在非推理模型中名列前茅,并被列为“最佳大型非推理模型”之一,但综合评分满分 AA。由于该推理(思考)版本尚未出版。总分:K2 Thinking Qwen3 DeepSeek-V3.2 豆袋1.5Pro。不过,从PE“算力成本+国产芯片环境”的角度来看,DeepSeek占据着独特的地位,但在“生态+强大的通用功能”方面,Qwen3则更为均衡。 04 用户视角 日常问答、写作、求知 在中文/中英文结合的日常使用中,Qwen3+Qwen3+Qwen3+Qianwen APP 基本上是世界级的体验之一。反应速度、知识广度、上下文记忆、写作风格都非常成熟。与GPT-5.1/Gemini 3 Pro相比,差异主要在于极长的推理链和一些专业英语的特定领域。豆宝具有自然的中文表达、口语对话,以及社交媒体语境下更自然的风格,适合聊天、轻松问答、内容创作。竞争水平问题数学如果你的使用场景是竞技数学、高级逻辑问题、高度复杂的链式推理等,GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking 和 Grok 4.1 就更强大了。 LiveCodeBench/SciCode代码开发等。Qwen3在基准测试中的表现已经达到了“工程易用性”的第一级。在大规模代码重组和复杂调试方面,部分数据让 GPT-5.1、K2 Thinking 和 Grok4 稍占优势,但 Qwen3+ 令人印象深刻的工具链(IDE 插件、CI 集成)足以支持大多数团队的日常开发工作。多模态、文档和表格是 Qwen 系列的强项。 Qwen2.5-VL 和 Qwen3-Omni 在图像理解、文档分析/PDF 和表格/图形任务的文章和评论中经常获得高分。对于用户来说,这意味着将PPT、PDF、扫描文档和复杂的报告发送给钱文通常可以让他们更清楚地理解。
斯普特别说明:以上内容(包括图片和视频,如有)是我自己的用户上传发布的媒体平台“网易”,但该平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。