为阿里巴巴钱文提供“客观评估”：QWen3中的全面模型审查

简介：旗舰车型Qwen3进入全球第一阶段，国内进入前二、三名。其整体功能略逊于 Gemini3、GPT-5.1 和 Kim K2 Thinking，但与 Grok 4.1 和 Claude Opus 4.1 属于同一类别。阿里巴巴新推出的“问文App”引起了外界的关注。 Qwen3车型的性能与国内外一些主流车型相比如何？用户应该如何根据不同的任务选择不同的大型模型？今天我们就来进行对比和总结。 01 Qwen3基础 Qwen3是阿里巴巴今年推出的第三代大型机型，是钱文应用的核心基础。这有几个重要的特征。 1.高体积和架构密度型号：0.6B至32B。 MoE 徽章：Qwen3-235B-A22B（总参数 235B，有效参数 22B）。这对应的是“巨舰参数+算力节能”。 2. 学习cale 的训练数据约为 360 亿个 token，涵盖 119 种语言和方言。本书可帮助您实现数学、编纂和 STEM 方面的辅助。它提供了类似于GPT-o1/DeepSeek-R1的显式推理版本的“思维模式”。 3.申请形式包括文本、书写、代码和多模态（图像/文档/表格）对话。长上下文版本可以支持数百万个token，非常适合长文档场景。 Qwen3-Max/Qwen3-235B 的应用程序位于极端 C 方向，可以正常使用“Qwen3-Max/Qwen3-235B 不同徽章 + Thinking 版本”组合。 02 Qwen3用什么“测量”来测量？利用 Qwen3 的评估指标：人工智能分析 (Índice AA) El índice AA 包括 MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等，最终为每个模型提供从 0 到 100 的综合“智能分数”。该分数是目前的最佳分数之一。他最常引用国际大型模型的“总分”。在LMArena/Text Arena（人类盲评Elo排名）中，大量真实用户投票哪个更好，不看型号名称，只看答案。 Elo 分数用于排名并关注“实际用户体验”方面。此外，还使用几个单独的基准进行评估。 AIME2025：竞争水平的数学。 HLE（人类最后的考试）——一项极其困难的综合考试。 LiveCodeBench/SciCode：实用软件工程和科学代码。本次评测主要以AA榜单+人类盲评榜单为主，辅以一些特殊的基准，力求做到最好。客观公正。虽然进入了“上层区域”，但屋顶却没有变化。 AA指数：根据目前公开的信息，主要主流机型的AA指数得分如下表。注：被 AA 的“Stat”列为“最佳非推理法学硕士”之一e of AI: China Q2 2025”。带星号的分数表示根据厂商数据估算。从以上分数来看，Qwen3旗舰版已经与Grok 4.1和Claude 4.1持平，但不如Gemini3 Pro、GPT-5.1和K2那么高。与Thought还有大约7到10分的差距。这与最好的型号之间仍然有明显的差距。人类盲评Elo榜单：Gemini3 Pro和Grok4.1（Thought）交替占据评测结果榜首，Cima旗舰Qwen3的得分也比这些“老大哥”高，但肯定处于第一波的前列，与他们争夺同一榜单的选票，更直观地说，一旦国外的开发者和研究人员能够投票，用户就已经能感受到Qwen3的强大了。与GPT-5/Gemini3相比体验上不会有太大差异，我们来看看一些个人评测：AIME 202。5：竞技数学测试成绩大致排名如下： GPT-5 Codex（高） ≈ GPT-5.1 Kimi K2 Thinking Grok 4 Qwen3 235B Gemini 2.5 / Claude 4 系列 Qwen3 是数学第一层难点可以理解，但在“竞技数学+演绎专精”场景下，“数学怪物”GPT-5.1/K2/Grok 4在这个测试中更强。 Kimi K2 Thinking 和 GPT-5 系列在 HLE 中表现最令人印象深刻。 Qwen3 与 GPT-4.1/Grok-3/Gemini-2.5 Pro 一代类似，但有一些改进。测试结果意味着Qwen3在整体推理上并不逊色，但也不是第一。 LiveCodeBench/SciCode：工程代码科学代码工程代码为GPT-5.1≳K2 Thinking≳。 Grok4≈Gemini2.5Pro Qwen3≈DeepSeek-V3.2 在SciCode测试中，差距更小，将大家推入40%+的范围。也就是说，使用前文写代码时，大致处于“稍弱”的水平r比GPT-5.1/K2/Grok4”，但绝不明显落后于上一代。对比：Kimi、Kwen 3、DeepSeek、豆宝 Kim K2 Thinking的整体智能得分约为67分，在AA排行榜上直接进入全球前5。该模型对于导航和调用工具特别有用。由于其在代理任务中的enfoque，对于面向“代理”的基准测试尤其强大，例如HLE和BrowseComp的整体智能得分在60分左右，使得DeepSeek-V3.2-Exp的总智能在57分左右，具有国产芯片适配、长上下文性能和推理能效优化等特点，针对中国计算环境定制，AA中国Q2报告中显示的IQ在48*左右，是最好的。在非推理模型中名列前茅，并被列为“最佳大型非推理模型”之一，但综合评分满分 AA。由于该推理（思考）版本尚未出版。总分：K2 Thinking Qwen3 DeepSeek-V3.2 豆袋1.5Pro。不过，从PE“算力成本+国产芯片环境”的角度来看，DeepSeek占据着独特的地位，但在“生态+强大的通用功能”方面，Qwen3则更为均衡。 04 用户视角日常问答、写作、求知在中文/中英文结合的日常使用中，Qwen3+Qwen3+Qwen3+Qianwen APP 基本上是世界级的体验之一。反应速度、知识广度、上下文记忆、写作风格都非常成熟。与GPT-5.1/Gemini 3 Pro相比，差异主要在于极长的推理链和一些专业英语的特定领域。豆宝具有自然的中文表达、口语对话，以及社交媒体语境下更自然的风格，适合聊天、轻松问答、内容创作。竞争水平问题数学如果你的使用场景是竞技数学、高级逻辑问题、高度复杂的链式推理等，GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking 和 Grok 4.1 就更强大了。 LiveCodeBench/SciCode代码开发等。Qwen3在基准测试中的表现已经达到了“工程易用性”的第一级。在大规模代码重组和复杂调试方面，部分数据让 GPT-5.1、K2 Thinking 和 Grok4 稍占优势，但 Qwen3+ 令人印象深刻的工具链（IDE 插件、CI 集成）足以支持大多数团队的日常开发工作。多模态、文档和表格是 Qwen 系列的强项。 Qwen2.5-VL 和 Qwen3-Omni 在图像理解、文档分析/PDF 和表格/图形任务的文章和评论中经常获得高分。对于用户来说，这意味着将PPT、PDF、扫描文档和复杂的报告发送给钱文通常可以让他们更清楚地理解。
斯普特别说明：以上内容（包括图片和视频，如有）是我自己的用户上传发布的媒体平台“网易”，但该平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

为阿里巴巴钱文提供“客观评估”：QWen3中的全面模型审查

发表回复取消回复

归档

功能

为阿里巴巴钱文提供“客观评估”：QWen3中的全面模型审查

发表回复 取消回复

归档

功能

发表回复取消回复