← 返回列表

DeepSeek金融场景深度测评报告以及FundaAI本周15篇报告

微信公众号 · FundaAI 3 信息等级 3 1 噪音/剔除;2 较弱;3 普通事实;4 重要行业动态;5 极重大事件。该分数是信息显著性,不是投资建议。 发布:2026-04-25T03:24 抓取:2026-05-05 08:23
🔗 原文链接
摘要

FundaAI发布DeepSeek V4深度测评报告,在38项任务上对比Claude、GPT-5.4等模型。Claude Opus 4.6/4.7并列综合第一,DeepSeek V4 Pro在已完成的多步任务上得分最高但存在超时问题。同时FundaAI本周推出15篇研究报告,涵盖多个科技公司财报及行业深度分析。

客观事实
  • DeepSeek V4 Pro在已完成的多步任务上平均分8.90,高于Claude Opus 4.7的8.87
  • Claude Opus 4.6与4.7并列综合第一,加权平均分均为8.72
  • DeepSeek V4 Pro在金融研究任务上拿到唯一一个10/10满分
DeepSeek Claude OpenAI FundaAI NVDA

原文

DeepSeek金融场景深度测评报告以及FundaAI本周15篇报告

  • Deep|AGI可能在2-3年内到来,需要有AGI First的Mindset,以及什么是Agentic Scaling Law
  • Collyer Bridge:Forgent Power Solutions (Premium Research)
  • Preview|NOW 1Q26:渠道调研符合预期但宏观仍然不稳定
  • Collyer Bridge:APAC Wrap 21 APRL(Premium Research)
  • Preview|META 1Q26:Influencer、Overlays与LLATTE成为新增长点;Location Fees与Stripe合作是增量(Premium Research)
  • SpaceX Deep Dive:Part3——当发射成本趋近于零,太空的想象空间在哪里
  • Research|TPU 8t/8i and Virgo Network
  • Review|NOW 1Q26:正变成下一个CRM?
  • Deep|美国太空核竞赛:NSTM-3产业链瓶颈与投资机会(Premium Research)
  • Review|NOK 1Q26:新兴AI基础设施受益者(Premium Research)
  • Preview|AWS 1Q26:Claude API驱动增长加速(Premium Research)
  • Review|INTC 1Q26:LBT领军完美执行,服务器需求强劲增长(Premium Research)

DeepSeek V4 深度评测:38项任务横评 Claude、GPT-5.4

重要说明:本报告不是研究报告,而是由 FundaAI 工程团队完成的模型评估报告,并非由 FundaAI 分析师团队撰写,也不代表 FundaAI 分析师团队观点。

所有测试用例均基于 FundaAI Platform 的真实工作环境。

截稿时,GPT-5.5 尚未正式开放 API。仅通过 Codex 5.5 进行测试,可能无法完整反映其 API 版本的真实表现。我们目前只对 DeepSeek V4 进行了紧急测试;GPT-5.5 的 API 正式开放后,我们会尽快补充其测试结果。

核心结论

  • Claude Opus 4.6 (Thinking) 与 Claude Opus 4.7 并列综合第一:二者加权平均分均为 8.72。Opus 4.6 Thinking 更强在编程和 hard reasoning,Opus 4.7 更强在写作和完整覆盖的多步任务。
  • DeepSeek V4 Pro (Thinking) 在已完成的多步任务上分数最高:平均 8.90,高于 Opus 4.7 的 8.87;但它只完成了 29/38 个任务,几个 hard coding/reasoning 任务发生 timeout,因此不能简单当作 full-suite 第一。
  • 标准版 DeepSeek V4 Pro 综合排名第三:加权平均 8.27,并且在 16 个金融研究任务上与 Claude Opus 4.7 打成 7-7。
  • DeepSeek V4 Pro 拿到唯一一个金融研究 10/10,因为它给出了对 NVDA game theory 任务的最好答案。它不是因为篇幅长而得高分,而是完整展开了 11 个参与方、18 个引用和 forced-move economics。
  • Thinking mode 是明显的质量杠杆,但不是免费升级。 它把 DeepSeek Pro 的多步任务分数从 8.29 拉到 8.90,把 Flash 从 8.06 拉到 8.55;代价是更高延迟和更高 timeout 风险。
  • GPT-5.4 仍是最快的 full-suite 模型:平均 105s,最新综合分为 7.88,与 Claude Opus 4.5 并列;它仍强在 production incident debugging 和 system design,但不再是编程表第一。
  • GPT-5.5/Codex 5.5 已经展现出很强的编程能力,但我们会等官方 API 可用后,再用同一套 runner 做正式基准测试。
  • Flash 比 Pro 快 36%,平均耗时 165 秒 vs 256 秒,同时整体质量接近,更适合对延迟敏感的生产环境。
  • DeepSeek V4 的成本优势很明显。Flash 约 $0.007/task,Flash Thinking 约 $0.008/task,Pro 约 $0.10/task,Pro Thinking 约 $0.15/task,均低于 Claude Opus 的单任务成本估算。
  • DeepSeek V4 的相对短板主要在呈现方式,而不是分析能力。 它通常给出高密度的 markdown 分析;Claude Opus 4.5 则更容易生成可直接用于 dashboard 的 OpenUI charts、metric cards 和 data tables。
  • 前沿模型正在形成三方竞争:Anthropic 强在写作、财报电话会细节和引用严谨度;DeepSeek 强在分析深度、数据综合和成本;OpenAI 在工程任务、故障复盘和速度上表现突出。GPT-5.5 的 API 结果需要等正式开放后再补测。

1. 摘要

DeepSeek V4 是 DeepSeek 的下一代基础模型。本次我们通过 Pandora API 测试了两个版本:Pro(更深入、更慢,偏重完整性)和 Flash(更快、更简洁,偏重生产吞吐)。两者都支持多轮对话和完整工具调用。我们将它们与其他前沿模型配置横向比较,任务覆盖编程、推理、写作,以及需要实时数据和工具调用的复杂多步分析。

在分析型任务上,DeepSeek V4 Pro 仍然进入与 Claude Opus 4.7 同一梯队;但最新 full-suite 综合分数表中,Claude Opus 4.6 (Thinking) 与 Claude Opus 4.7 并列第一。 38 个任务综合看,Opus 4.6 (Thinking) 和 Opus 4.7 的加权平均均为 8.72,DeepSeek V4 Pro 为 8.27。DeepSeek V4 Pro (Thinking) 在已完成多步任务上达到 8.90,但因为覆盖不完整,更适合被理解为高质量 thinking-mode 结果,而不是完整榜单第一。

与标准 Claude Opus 4.6 相比,DeepSeek V4 Pro 仍在同一梯队(8.27 vs 8.17),但 Pro 在若干金融研究任务中更有分析深度。与 Claude Opus 4.5 和 GPT-5.4 相比,DeepSeek V4 Pro 领先约 0.4 分(8.27 vs 7.88);Opus 4.5 的优势仍然主要在 OpenUI 视觉呈现。Flash Thinking 在已完成多步任务上达到 8.55,成本约 $0.008/task,是很值得关注的质量/成本组合,但完成率为 33/38。

成本是 DeepSeek V4 最值得关注的变量之一。 Flash 约 $0.007/task,Flash Thinking 约 $0.008/task,Pro 约 $0.10/task,Pro Thinking 约 $0.15/task;相比 Claude Opus 的 $0.70-$1.10/task,DeepSeek 在复杂研究任务上的边际成本明显更低。两者还支持 1M context、384K max output,以及 cache-hit 折扣。

测试范围

Rate limiter、async debugging、system design、SQL optimization、interpreter、distributed KV、Raft consensus、web crawler
Bayesian probability、constraint satisfaction、Fermi estimation、causal inference、game theory auction、mathematical proofs
Technical blog post、investment memo、LLM explainer
16 个金融研究任务,以及 research synthesis、contrarian analysis、SaaS IPO、production incident debugging、ML pipeline design

Source: Funda AI

DeepSeek V4 Pro DeepSeek Pandora Yes
DeepSeek V4 Pro (Thinking) Yes Yes 29 部分覆盖;public API 默认启用 thinking
DeepSeek V4 Flash DeepSeek Pandora Yes Yes 38 完整覆盖
DeepSeek V4 Flash (Thinking) DeepSeek Yes Yes 33 部分覆盖;public API 默认启用 thinking
Claude Opus 4.7 Anthropic Yes Yes 38 完整覆盖
Claude Opus 4.6 Anthropic Yes Yes 38 完整覆盖
Claude Opus 4.6 (Thinking) Anthropic Yes Yes 39 完整覆盖;启用 extended thinking,budget=10K
Claude Opus 4.5 Anthropic Yes Yes 38 完整覆盖
GPT-5.4 OpenAI Yes Yes 37 接近完整
Kimi K2.6 Moonshot Yes Yes 16 仅金融研究

Source: Funda AI

说明:Claude Opus 4.6 (Thinking) 是同一个 Opus 4.6 模型,但显式启用了 extended thinking(budget_tokens=10,000)。DeepSeek 的 Thinking 行来自 public API thinking mode;由于若干 hard coding/reasoning 任务 timeout,覆盖不完整。SSL、API bug、proxy timeout 等基础设施问题不计入模型能力失败。

2. DeepSeek V4 详细表现

2.1 速度与延迟

指标 Pro Flash 对比
平均耗时(金融研究,16 任务) 256.3s 164.7s Flash 快 36%
中位数耗时(金融研究) 226.7s 169.8s
P95 耗时(金融研究) 467.6s 304.9s
平均耗时(基准测试,22 任务) 215-532s 116-371s Flash 在所有类别中更快
最快任务 Financial Data: 24.6s Financial Data: 17.5s
最慢任务 Comps: 576.7s Game Theory: 310.2s

Source: Funda AI

Pro 慢在哪里:主要慢在复杂多轮、重工具调用任务上,例如 comps(577s)、financial policy(468s)、game theory(450s)、DCF(439s)。Pro 通常会调用更多工具,也会生成更长的中间分析。

Flash 快在哪里:主要快在财报相关和简单检索任务上,例如 semi-sentiment(49s)、financial data(18s)、multi-company(73s)。Flash 收敛更快,工具循环也更少。

2.2 输出效率

指标 Pro Flash
平均输出 tokens(金融研究) ~4,200 ~3,800
平均正文词数(金融研究) ~1,555 ~1,199
总输出 tokens(基准测试) ~58,800 ~53,200

Source: Funda AI

Pro 在每个金融研究任务中平均多生成约 30% 的分析内容。这不是简单凑字数,而是体现在更多表格、更深的竞争拆解、更多引用和更完整的情景分析上。最典型的是 game theory:Pro 输出约 4,260 words,覆盖 11 个参与方和 18 个引用;Flash 约 2,800 words,框架相同但深度略低。

2.3 成功率与稳定性

范围 Pro Flash
Coding(8 任务) 8/8 (100%) 8/8 (100%)
Reasoning(6 任务) 6/6 (100%) 6/6 (100%)
Writing(3 任务) 3/3 (100%) 3/3 (100%)
Multi-step(21 任务) 21/21 (100%) 21/21 (100%)
Overall 38/38 (100%) 38/38 (100%)

Source: Funda AI

2.4 分类表现

  • 多步任务:这是 DeepSeek V4 最强的类别。标准 Pro 在 16 个金融研究任务上与 Opus 4.7 打成 7-7;开启 thinking 后,Pro 在已完成多步任务上达到 8.90,Flash 达到 8.55,但覆盖不完整。
  • 编程:标准 Pro/Flash 平均分约为 8.1,表现稳健;Pro Thinking 在已完成 4 个编程任务上为 8.48,Flash Thinking 在已完成 6 个编程任务上为 8.44,但 hard coding timeout 是主要限制。
  • 推理:标准 Pro 为 8.17,Flash 为 8.12;开启 thinking 后,Flash 在已完成推理任务上为 8.63,Pro 为 8.53。Claude Opus 4.6 (Thinking) 仍以 8.82 领先。
  • 写作:Opus 4.7 平均 9.17,并拿到唯一写作 10/10。DeepSeek Pro Thinking 为 8.80,标准 Pro 为 8.33,Flash Thinking 在完成的写作任务上为 8.20,标准 Flash 为 7.87。

2.5 Thinking mode:质量提升与代价

指标 Pro 标准版 Pro Thinking Flash 标准版 Flash Thinking
金融研究平均分 8.29 8.90 (+0.61) 8.06 8.40 (+0.34)
DCF (AAPL) 8.5 9.1 8.3 8.6
Earnings Recap 7.5 8.8 (+1.3) 7.5 8.5 (+1.0)
Blog Post 8.8 9.3 8.0
覆盖范围 38/38 29/38 38/38 33/38
平均耗时 256s ~350s 165s ~180s

Source: Funda AI

Thinking mode 的提升很明显,尤其体现在 earnings recap、DCF 和复杂多步任务上。但它也带来更高延迟、更长输出和更高 timeout 风险。因此本文把 DeepSeek thinking 结果作为“已完成任务质量”来解读,而不是直接替代完整覆盖模型的综合排名。


3. 横向比较:所有模型

3.1 速度

模型 平均耗时/任务 统计任务数 速度档位
GPT-5.4 105s 37
Claude Opus 4.5 138s 38 中等
DeepSeek V4 Flash 165s 38 中等
DeepSeek V4 Flash (Thinking) ~180s 33 中等
Claude Opus 4.7 227s 38
DeepSeek V4 Pro 256s 38
Claude Opus 4.6 267s 38
Claude Opus 4.6 (Thinking) 283s 39
Kimi K2.6 346s 16 最慢档
DeepSeek V4 Pro (Thinking) ~350s 29 最慢档

Source: Funda AI

3.2 成功率

模型 尝试任务数 完成任务数 成功率 备注
Claude Opus 4.7 38 38 100% 完整覆盖
DeepSeek V4 Pro 38 38 100% 完整覆盖
DeepSeek V4 Flash 38 38 100% 完整覆盖
Kimi K2.6 16 16 100% 仅测试金融研究
Claude Opus 4.5 38 37 97% 完整覆盖
Claude Opus 4.6 38 37 97% 完整覆盖
Claude Opus 4.6 (Thinking) 40 39 98% 启用 extended thinking;ML pipeline 触发 token limit
GPT-5.4 38 37 97% 1 个失败:financial-policy 触发最大工具轮数限制
DeepSeek V4 Flash (Thinking) 38 33 87% 启用 thinking;5 个 timeout
DeepSeek V4 Pro (Thinking) 38 29 76% 启用 thinking;9 个 hard coding/reasoning timeout

Source: Funda AI

3.3 多步任务质量(0-10,21 个任务)

模型 平均分 评分任务数 最佳任务 最弱任务
DeepSeek V4 Pro (Thinking) 8.90 20 Game Theory (9.4) / Company Primer (9.2) / Research (9.2) Financial Data (7.0)
Claude Opus 4.7 8.87 21 Comps / Earnings Recap / Financial Policy (10.0) Financial Data (7.0)
Claude Opus 4.6 (Thinking) 8.68 20 Industry Primer (9.2) / DCF (9.0) / Multi-Company (9.0) Narrative Analysis (8.0)
DeepSeek V4 Flash (Thinking) 8.55 20 Incident Debug (9.1) / Research (8.8) Estimate Analysis (7.5)
DeepSeek V4 Pro 8.29 21 Game Theory (10.0) Financial Data (7.0)
DeepSeek V4 Flash 8.06 21 Game Theory (9.5) Financial Data (7.0)
Claude Opus 4.6 8.05 21 Industry Primer (9.0) Financial Data (6.0)
GPT-5.4 7.65 20 Incident Debug (10.0) / Game Theory (9.0) Estimate Analysis (5.0), Earnings Recap (5.0)
Claude Opus 4.5 7.60 21 DCF (8.5) / Game Theory (8.0) Financial Data (6.5)
Kimi K2.6 6.91 16 Game Theory (9.0) Earnings Recap (4.0)

Source: Funda AI

3.4 编程、推理、写作与成本

维度 领先模型 DeepSeek V4 表现 备注
编程 Claude Opus 4.6 (Thinking) (8.88) Pro Thinking 8.48* / Flash Thinking 8.44* / Pro 8.13 / Flash 8.06 DeepSeek thinking 编程分数只基于已完成任务;hard coding timeout 是主要限制
推理 Claude Opus 4.6 (Thinking) (8.82) Flash Thinking 8.63* / Pro Thinking 8.53* / Pro 8.17 / Flash 8.12 GPT-5.4 的 causal inference 不再按 10/10 计,重新校准后推理明细为 8.15
写作 Claude Opus 4.7 (9.17) Pro Thinking 8.80 / Pro 8.33 / Flash Thinking 8.20* / Flash 7.87 Opus 4.7 的技术博客是全测试唯一写作 10/10
单任务成本 DeepSeek Flash (~$0.007) / Flash Thinking (~$0.008) Pro ~$0.10 / Pro Thinking ~$0.15 / Flash ~$0.007 / Flash Thinking ~$0.008 Thinking 增加输出 token:Flash +18%,Pro +62%

* Thinking mode 分数只基于已完成任务。

Source: Funda AI

3.5 综合排名(0-10)

排名 模型 编程 推理 写作 多步任务 加权平均 覆盖范围
1 Claude Opus 4.6 (Thinking) 8.93 8.72 8.37 8.68 8.72 39/40
1 Claude Opus 4.7 8.55 8.50 9.07 8.87 8.72 38/38
3 DeepSeek V4 Pro 8.18 8.18 8.40 8.29 8.27 38/38
部分* DeepSeek V4 Pro (Thinking) 8.48 8.53 8.80 8.90 8.80* 29/38
4 Claude Opus 4.6 8.44 8.18 8.07 8.05 8.17 38/38
5 DeepSeek V4 Flash 7.89 8.07 7.93 8.06 8.01 38/38
部分* DeepSeek V4 Flash (Thinking) 8.44 8.63 8.20 8.55 8.52* 33/38
6 Claude Opus 4.5 8.25 8.17 8.00 7.60 7.88 38/38
6 GPT-5.4 8.04 8.23 8.33 7.65 7.88 37/38
8 Kimi K2.6 6.91 6.91* 16/38

Source: Funda AI

* DeepSeek thinking 行覆盖不完整;加权平均仅基于已完成/已评分任务,不应直接视为 full-suite 排名。Kimi K2.6 仅测试金融研究任务。


4. 详细分析:DeepSeek V4 与所有模型的分类对比

4.1 多步任务:详细比较

多步任务共 21 个,包括 16 个需要实时数据检索、多轮工具调用和分析综合的金融研究任务,以及 5 个分析/工程类任务:research synthesis、contrarian analysis、SaaS IPO、production incident debugging、ML pipeline design。

DeepSeek V4 vs Claude Opus 4.7:金融研究任务 7-7 打平

Opus 4.7 的优势:财报电话会整合、管理层原话、Q&A 主题、市场反应分析、引用严谨度、数据校验,以及更保守的估值方法,例如把 SBC 当作真实成本处理。

DeepSeek V4 的相对优势:在 game theory、multi-company comparison、sentiment analysis 等复杂框架中更愿意展开长链条分析,也更善于综合 insider transactions、options Greeks、供应链细节等多类数据源。它的输出通常更长,但有效信息密度也较高。

任务亮点:

  • Earnings Recap:Opus 4.7 明显领先,包含 5+ 条管理层原话、Q&A 主题分析和股价反应跟踪。DeepSeek 的 recap 合格,但少了专业 equity research 所需要的财报电话会细节。
  • Game Theory:DeepSeek 10 vs Opus 9。DeepSeek 对 NVDA game theory 任务给出了全场最佳答案,覆盖 11 个参与方、18 个引用和 forced-move economics,是本次测试唯一的金融研究满分。
  • Sentiment Analysis:Opus 4.7 略胜;DeepSeek Pro 仍然给出了很强的归因分析,并捕捉到 Opus 漏掉的 CEO interview data。

DeepSeek V4 vs Claude Opus 4.6:7-7-1 打平

Claude Opus 4.6 更擅长搭建结构化分析框架,例如 comps、industry primers、recruitment intelligence。DeepSeek 则更擅长给出单点深度洞察,例如 Singapore reclassification、forced-move economics、EV/EBITDA + P/FCF + capex divergence。

两者文字量没有明显差距:Claude Opus 4.6 平均约 1,531 words/task,DeepSeek 约 1,559 words/task。真正的差异在组织方式:Claude 更常搭建多表格框架,DeepSeek 更常写高密度分析段落。

DeepSeek V4 vs Claude Opus 4.5

DeepSeek 在此前直接比较中 11-5 领先 Opus 4.5,主要来自更深的多步分析和更复杂的工具调用链。但 Opus 4.5 有一个真实优势:视觉呈现。它输出的 OpenUI components(MetricCards、BarCharts、LineCharts、DataTables)在 dashboard-style briefing 中更好用。后来 Opus 4.7 已经基本补上了 Opus 4.5 与 DeepSeek 的分析质量差距,在金融研究任务上与 DeepSeek 打成 7-7。

视觉呈现与结构化输出

DeepSeek V4 的相对短板不是分析能力本身,而是视觉化、UI 化、可直接做成 dashboard 的呈现方式。本次基准测试并没有直接测试多模态图片生成,因此不应把结论写成 “DeepSeek 不擅长多模态”。更准确的说法是:DeepSeek 通常给出高质量的 markdown 分析;相比之下,Claude Opus 4.5 更容易生成 OpenUI 风格的 metric cards、bar charts、line charts 和 data tables,更适合直接用于 dashboard 或可视化报告。

这对用户体验有实际影响:如果目标是给研究员阅读、做模型推理和数据综合,DeepSeek 的输出非常有竞争力;如果目标是直接复制到 dashboard、newsletter 或投研系统中,作为可视化组件使用,Claude Opus 4.5 的呈现方式更接近成品。

图 1:同类招聘情报任务的呈现方式对比

Claude Opus 4.5 输出 OpenUI DataTable/BarChart;DeepSeek V4 输出 markdown 表格与段落。

Source: Funda AI
DeepSeek V4 vs Kimi K2.6

Kimi K2.6 完成了全部 16 个金融研究任务,game theory 表现强(9/10),并且在部分复杂金融分析任务上有不错深度。但它的整体一致性和覆盖范围低于 DeepSeek。最新综合分只基于金融研究任务计算,因此直接比较时应注意它并没有覆盖编程、推理和写作任务。

DeepSeek V4 vs GPT-5.4

GPT-5.4 在完整多轮工具调用设置下,production incident debugging 拿到 10/10,并且仍然是最快的 full-suite 模型,平均耗时 105s。它的 rate limiter 输出相对浅(summary-only,约 1,111 chars),和 Opus 4.7 的 production-grade implementation 有明显差距;此前 causal inference 的 10/10 也被重新校准。金融研究方面,GPT-5.4 在最新 multi-step 表中平均 7.65,低于 DeepSeek Pro 的 8.29 和 Opus 4.7 的 8.87。GPT-5.4 最新综合分为 7.88,与 Claude Opus 4.5 并列,低于 DeepSeek Pro(8.27)和标准 Opus 4.6(8.17)。GPT-5.5/Codex 5.5 已经显示出很强的编程能力,但正式结论需要等 API 开放后用同一套基准补测。

4.2 编程:详细分析

表格缩写:DS-Pro = DeepSeek V4 Pro,DS-Pro(T) = DeepSeek V4 Pro (Thinking),DS-Flash = DeepSeek V4 Flash,DS-Flash(T) = DeepSeek V4 Flash (Thinking),Opus 4.6T = Claude Opus 4.6 (Thinking)。

标准编程任务(4 个)

任务 DS-Pro DS-Pro(T) DS-Flash DS-Flash(T) Opus 4.5 Opus 4.6 Opus 4.6T Opus 4.7 GPT-5.4
Rate Limiter 8.0 8.0 8.9 8.8 8.8 9.2 9.2 6.8
Async Deadlock 8.8 8.7 8.7 8.8 8 8.5 8.8 9.0 8.2
URL Shortener 8.0 8.5 8.0 8 8 8.5 8 9
SQL Optimization 8.0 8.2 8.0 8.0 8 8 8.0 8 8.0

Source: Funda AI

Hard Coding 任务(4 个)

任务 DS-Pro DS-Pro(T) DS-Flash DS-Flash(T) Opus 4.5 Opus 4.6 Opus 4.6T Opus 4.7 GPT-5.4
Build Interpreter 8.0 8.0 2.0 8.7 9.0 9.3 9.1 8.0
Distributed KV Store 8.0 8.0 8.0 8.2 9.4 8.3 8.2
Web Crawler 8.0 8.0 8.0 8.0 8.0 8.8 8.0
Raft Consensus 8.0 8.5 8.0 8.5 8.0 8.2 9.2 8.0 8.0

Source: Funda AI

“—” 表示该任务未完成,原因可能是基础设施失败或 thinking-mode timeout。

DeepSeek V4 在编程任务上的亮点:

  • Deadlock debugging:标准 Pro 和 Flash 都给出了 textbook-level 的 lock-ordering 分析。它们能准确定位 root cause,给出正确且最小化的修复方案,并指出 “holding locks across await points” 这样的生产级风险。
  • Flash 速度:Flash 编程任务平均耗时约 116s,是编程类多轮模型里最快的配置之一。
  • 代码质量:标准 DeepSeek 输出通常结构清楚,包含 error handling、thread safety、edge cases 等关键要素。

DeepSeek V4 的编程短板:

  • Interpreter 任务:DeepSeek 标准 Pro/Flash 得分均为 8,而 Claude 在同类任务上接近 9。主要差距在测试覆盖和错误处理细节。
  • 标准任务 ceiling:DeepSeek 在多数标准编程任务上稳定拿到 8 左右,但 Claude 和 GPT-5.4 更容易在个别任务上冲到 9。
  • Thinking timeout:DeepSeek thinking mode 在 hard coding 上分数不差,但 timeout 风险明显,需要在生产环境中单独评估。

Claude vs DeepSeek 编程对比:Opus 4.7 给出了最强的 rate limiter:48 个测试在 0.20s 内通过,覆盖 clock drift、burst overflow、fractional tokens、concurrency、memory 等边界情况。DeepSeek Flash 在标准编程任务上很有竞争力,但 Claude 在复杂实现类任务上的稳定性更高。

4.3 推理:详细分析

任务 DS-Pro DS-Pro(T) DS-Flash DS-Flash(T) Opus 4.5 Opus 4.6 Opus 4.6T Opus 4.7 GPT-5.4
Bayesian Probability 9.0 9.1 8.8 9.0 8.7 8.8 9.0 9.0 8.2
Logic Puzzle 7.8 8.2 7.8 8.0 8.0 8.0 8.5 8.2 7.2
Fermi Estimation 8.0 8.3 8.0 8.2 8.0 8.0 8.2 8.3 8.0
Causal Inference 8.0 8.5 8.0 8.3 8.0 8.0 8.8 8.2 8.8
Game Theory Auction 8.2 8.0 8.0 8.2 9.4 9.2 8.7
Mathematical Proofs 8.0 8.0 8.0 8.0 9.3 8.0 8.0

Source: Funda AI

Bayesian probability 是所有模型表现最稳的任务,基本都能给出正确计算和逐步推导。Opus 4.7 和 DeepSeek Pro 的答案都比较优雅:Opus 4.7 在部分推导中使用 odds-form,更简洁;DeepSeek Pro 同样正确,但解释略长。GPT-5.4 正确,但解释层面的 insight 少一些。

Logic 与 constraint satisfaction 有一定区分度。GPT-5.4 更简洁,但偶尔会遗漏边界情况。

Hard reasoning(game theory auction、mathematical proofs):完成任务的模型整体表现都不错。Claude Opus 4.6 (Thinking) 在推理明细表中最强,game theory auction 得到 9.4,mathematical proofs 得到 9.3。Opus 4.7 的 game theory auction 也很强,包含严谨的 Nash equilibrium 分析、VCG payment 计算和 synergy-aware auction design。

总体判断:推理是差距最小的类别。前沿模型都能处理标准推理题,真正的差异更多来自解释清晰度、呈现效率和 hard reasoning 的稳定性,而不是简单正确/错误。

4.4 写作:详细分析

任务 DS-Pro DS-Pro(T) DS-Flash DS-Flash(T) Opus 4.5 Opus 4.6 Opus 4.6T Opus 4.7 GPT-5.4
Technical Blog Post 8.8 9.3 8.0 8.0 8.2 8.3 10.0 8.5
Investment Memo 8.2 8.8 7.8 8.2 8.0 8.0 8.8 9.2 8.8
LLM Explainer 8.0 8.3 7.8 7.8 7.8 8.0 8.3 8.0

Source: Funda AI

Technical Blog Post(Microservices to Monolith):这是写作类别里质量差距最大的任务。Claude Opus 4.7 拿到 10/10,也是整套测试里唯一一个写作满分。它的文章已经接近可发布稿件,有真实感很强的 VP Engineering 口吻、具体公司细节(47 services、$340K/month Datadog bill、5-trading-day onboarding metrics)、自然的人物和场景细节、量化结果表,以及对 “什么时候 microservices 是对的” 的细致讨论。

DeepSeek Pro 的技术博客也很强(8.8/10):叙事弧线完整,虚构公司 Meridian 足够真实,围绕 payment reconciliations SaaS 展开,包含三个结构清楚的问题、root cause analysis、strangler fig migration strategy 和量化结果。与 Opus 4.7 的差距主要在声音真实感略弱,个别场景(例如 Kafka crash-loop)稍显设计感。

GPT-5.4 的博客也合格(8.5/10),核心 thesis 是 “architecture should reflect coupling, not aspiration”,结构清楚,但缺少 Opus 4.7 那种更自然的情绪纹理和具体细节。

Investment Memo:各模型差距较小,都能写出 thesis、financials、risks、recommendation 等标准结构。Opus 4.7 在估值框架上更锐利;GPT-5.4 的 memo 干净,但 recommendation 更偏谨慎。

4.5 非金融多步任务:详细分析

任务 DS-Pro DS-Pro(T) DS-Flash DS-Flash(T) Opus 4.5 Opus 4.6 Opus 4.6T Opus 4.7 GPT-5.4
NVDA vs AVGO Research 8.3 9.2 8.0 8.8 7.8 8.2 9.0 9.2 8.0
Contrarian Bear Case 8.2 8.8 8.0 8.5 7.8 8.0 8.5 8.5 8.0
SaaS IPO Strategy 8.0 8.8 8.0 8.5 7.8 8.0 8.8 8.3 8.0
Production Incident Debug 8.3 8.5 8.2 9.1 8.0 8.2 9.2 9.0 9.5
ML Fraud Pipeline Design 8.0 8.0 8.3 7.5 8.0 8.5 8.2

Source: Funda AI

NVDA vs AVGO Research Synthesis:这个任务很清楚地体现了多轮工具调用的优势。Opus 4.7 产出了一份包含实时金融数据的研究笔记,例如 $199.79 的 NVDA 股价、$4.86T 市值、71.1% gross margin、$96.7B FCF,并给出了财务 scoreboard、竞争定位、AI capex 下降 50% 情景分析和带 trigger 的具体建议。GPT-5.4 的多轮工具版本也不错,但金融数据整合深度略低。没有工具访问的单轮模型通常只能承认无法获取实时数据,然后提供框架性分析。

Production Incident Debugging:GPT-5.4 在这个任务上拿到 10/10,是全场最强。它的调试流程非常系统:triage、correlate、narrow、hypothesize,并给出 production-ready diagnostic commands,包括 pg_stat_activity、Redis info、kubectl logs filters、Prometheus queries。PIR 也完整覆盖 timeline、分层 action