FundaAI发布DeepSeek V4深度测评报告,在38项任务上对比Claude、GPT-5.4等模型。Claude Opus 4.6/4.7并列综合第一,DeepSeek V4 Pro在已完成的多步任务上得分最高但存在超时问题。同时FundaAI本周推出15篇研究报告,涵盖多个科技公司财报及行业深度分析。
重要说明:本报告不是研究报告,而是由 FundaAI 工程团队完成的模型评估报告,并非由 FundaAI 分析师团队撰写,也不代表 FundaAI 分析师团队观点。
所有测试用例均基于 FundaAI Platform 的真实工作环境。
截稿时,GPT-5.5 尚未正式开放 API。仅通过 Codex 5.5 进行测试,可能无法完整反映其 API 版本的真实表现。我们目前只对 DeepSeek V4 进行了紧急测试;GPT-5.5 的 API 正式开放后,我们会尽快补充其测试结果。
DeepSeek V4 是 DeepSeek 的下一代基础模型。本次我们通过 Pandora API 测试了两个版本:Pro(更深入、更慢,偏重完整性)和 Flash(更快、更简洁,偏重生产吞吐)。两者都支持多轮对话和完整工具调用。我们将它们与其他前沿模型配置横向比较,任务覆盖编程、推理、写作,以及需要实时数据和工具调用的复杂多步分析。
在分析型任务上,DeepSeek V4 Pro 仍然进入与 Claude Opus 4.7 同一梯队;但最新 full-suite 综合分数表中,Claude Opus 4.6 (Thinking) 与 Claude Opus 4.7 并列第一。 38 个任务综合看,Opus 4.6 (Thinking) 和 Opus 4.7 的加权平均均为 8.72,DeepSeek V4 Pro 为 8.27。DeepSeek V4 Pro (Thinking) 在已完成多步任务上达到 8.90,但因为覆盖不完整,更适合被理解为高质量 thinking-mode 结果,而不是完整榜单第一。
与标准 Claude Opus 4.6 相比,DeepSeek V4 Pro 仍在同一梯队(8.27 vs 8.17),但 Pro 在若干金融研究任务中更有分析深度。与 Claude Opus 4.5 和 GPT-5.4 相比,DeepSeek V4 Pro 领先约 0.4 分(8.27 vs 7.88);Opus 4.5 的优势仍然主要在 OpenUI 视觉呈现。Flash Thinking 在已完成多步任务上达到 8.55,成本约 $0.008/task,是很值得关注的质量/成本组合,但完成率为 33/38。
成本是 DeepSeek V4 最值得关注的变量之一。 Flash 约 $0.007/task,Flash Thinking 约 $0.008/task,Pro 约 $0.10/task,Pro Thinking 约 $0.15/task;相比 Claude Opus 的 $0.70-$1.10/task,DeepSeek 在复杂研究任务上的边际成本明显更低。两者还支持 1M context、384K max output,以及 cache-hit 折扣。
| Rate limiter、async debugging、system design、SQL optimization、interpreter、distributed KV、Raft consensus、web crawler | ||
| Bayesian probability、constraint satisfaction、Fermi estimation、causal inference、game theory auction、mathematical proofs | ||
| Technical blog post、investment memo、LLM explainer | ||
| 16 个金融研究任务,以及 research synthesis、contrarian analysis、SaaS IPO、production incident debugging、ML pipeline design |
Source: Funda AI
| DeepSeek V4 Pro | DeepSeek Pandora | Yes | |||
| DeepSeek V4 Pro (Thinking) | Yes | Yes | 29 | 部分覆盖;public API 默认启用 thinking | |
| DeepSeek V4 Flash | DeepSeek Pandora | Yes | Yes | 38 | 完整覆盖 |
| DeepSeek V4 Flash (Thinking) | DeepSeek | Yes | Yes | 33 | 部分覆盖;public API 默认启用 thinking |
| Claude Opus 4.7 | Anthropic | Yes | Yes | 38 | 完整覆盖 |
| Claude Opus 4.6 | Anthropic | Yes | Yes | 38 | 完整覆盖 |
| Claude Opus 4.6 (Thinking) | Anthropic | Yes | Yes | 39 | 完整覆盖;启用 extended thinking,budget=10K |
| Claude Opus 4.5 | Anthropic | Yes | Yes | 38 | 完整覆盖 |
| GPT-5.4 | OpenAI | Yes | Yes | 37 | 接近完整 |
| Kimi K2.6 | Moonshot | Yes | Yes | 16 | 仅金融研究 |
Source: Funda AI
说明:Claude Opus 4.6 (Thinking) 是同一个 Opus 4.6 模型,但显式启用了 extended thinking(budget_tokens=10,000)。DeepSeek 的 Thinking 行来自 public API thinking mode;由于若干 hard coding/reasoning 任务 timeout,覆盖不完整。SSL、API bug、proxy timeout 等基础设施问题不计入模型能力失败。
| 指标 | Pro | Flash | 对比 |
|---|---|---|---|
| 平均耗时(金融研究,16 任务) | 256.3s | 164.7s | Flash 快 36% |
| 中位数耗时(金融研究) | 226.7s | 169.8s | |
| P95 耗时(金融研究) | 467.6s | 304.9s | |
| 平均耗时(基准测试,22 任务) | 215-532s | 116-371s | Flash 在所有类别中更快 |
| 最快任务 | Financial Data: 24.6s | Financial Data: 17.5s | |
| 最慢任务 | Comps: 576.7s | Game Theory: 310.2s |
Source: Funda AI
Pro 慢在哪里:主要慢在复杂多轮、重工具调用任务上,例如 comps(577s)、financial policy(468s)、game theory(450s)、DCF(439s)。Pro 通常会调用更多工具,也会生成更长的中间分析。
Flash 快在哪里:主要快在财报相关和简单检索任务上,例如 semi-sentiment(49s)、financial data(18s)、multi-company(73s)。Flash 收敛更快,工具循环也更少。
| 指标 | Pro | Flash |
|---|---|---|
| 平均输出 tokens(金融研究) | ~4,200 | ~3,800 |
| 平均正文词数(金融研究) | ~1,555 | ~1,199 |
| 总输出 tokens(基准测试) | ~58,800 | ~53,200 |
Source: Funda AI
Pro 在每个金融研究任务中平均多生成约 30% 的分析内容。这不是简单凑字数,而是体现在更多表格、更深的竞争拆解、更多引用和更完整的情景分析上。最典型的是 game theory:Pro 输出约 4,260 words,覆盖 11 个参与方和 18 个引用;Flash 约 2,800 words,框架相同但深度略低。
| 范围 | Pro | Flash |
|---|---|---|
| Coding(8 任务) | 8/8 (100%) | 8/8 (100%) |
| Reasoning(6 任务) | 6/6 (100%) | 6/6 (100%) |
| Writing(3 任务) | 3/3 (100%) | 3/3 (100%) |
| Multi-step(21 任务) | 21/21 (100%) | 21/21 (100%) |
| Overall | 38/38 (100%) | 38/38 (100%) |
Source: Funda AI
| 指标 | Pro 标准版 | Pro Thinking | Flash 标准版 | Flash Thinking |
|---|---|---|---|---|
| 金融研究平均分 | 8.29 | 8.90 (+0.61) | 8.06 | 8.40 (+0.34) |
| DCF (AAPL) | 8.5 | 9.1 | 8.3 | 8.6 |
| Earnings Recap | 7.5 | 8.8 (+1.3) | 7.5 | 8.5 (+1.0) |
| Blog Post | 8.8 | 9.3 | 8.0 | — |
| 覆盖范围 | 38/38 | 29/38 | 38/38 | 33/38 |
| 平均耗时 | 256s | ~350s | 165s | ~180s |
Source: Funda AI
Thinking mode 的提升很明显,尤其体现在 earnings recap、DCF 和复杂多步任务上。但它也带来更高延迟、更长输出和更高 timeout 风险。因此本文把 DeepSeek thinking 结果作为“已完成任务质量”来解读,而不是直接替代完整覆盖模型的综合排名。
| 模型 | 平均耗时/任务 | 统计任务数 | 速度档位 |
|---|---|---|---|
| GPT-5.4 | 105s | 37 | 快 |
| Claude Opus 4.5 | 138s | 38 | 中等 |
| DeepSeek V4 Flash | 165s | 38 | 中等 |
| DeepSeek V4 Flash (Thinking) | ~180s | 33 | 中等 |
| Claude Opus 4.7 | 227s | 38 | 慢 |
| DeepSeek V4 Pro | 256s | 38 | 慢 |
| Claude Opus 4.6 | 267s | 38 | 慢 |
| Claude Opus 4.6 (Thinking) | 283s | 39 | 慢 |
| Kimi K2.6 | 346s | 16 | 最慢档 |
| DeepSeek V4 Pro (Thinking) | ~350s | 29 | 最慢档 |
Source: Funda AI
| 模型 | 尝试任务数 | 完成任务数 | 成功率 | 备注 |
|---|---|---|---|---|
| Claude Opus 4.7 | 38 | 38 | 100% | 完整覆盖 |
| DeepSeek V4 Pro | 38 | 38 | 100% | 完整覆盖 |
| DeepSeek V4 Flash | 38 | 38 | 100% | 完整覆盖 |
| Kimi K2.6 | 16 | 16 | 100% | 仅测试金融研究 |
| Claude Opus 4.5 | 38 | 37 | 97% | 完整覆盖 |
| Claude Opus 4.6 | 38 | 37 | 97% | 完整覆盖 |
| Claude Opus 4.6 (Thinking) | 40 | 39 | 98% | 启用 extended thinking;ML pipeline 触发 token limit |
| GPT-5.4 | 38 | 37 | 97% | 1 个失败:financial-policy 触发最大工具轮数限制 |
| DeepSeek V4 Flash (Thinking) | 38 | 33 | 87% | 启用 thinking;5 个 timeout |
| DeepSeek V4 Pro (Thinking) | 38 | 29 | 76% | 启用 thinking;9 个 hard coding/reasoning timeout |
Source: Funda AI
| 模型 | 平均分 | 评分任务数 | 最佳任务 | 最弱任务 |
|---|---|---|---|---|
| DeepSeek V4 Pro (Thinking) | 8.90 | 20 | Game Theory (9.4) / Company Primer (9.2) / Research (9.2) | Financial Data (7.0) |
| Claude Opus 4.7 | 8.87 | 21 | Comps / Earnings Recap / Financial Policy (10.0) | Financial Data (7.0) |
| Claude Opus 4.6 (Thinking) | 8.68 | 20 | Industry Primer (9.2) / DCF (9.0) / Multi-Company (9.0) | Narrative Analysis (8.0) |
| DeepSeek V4 Flash (Thinking) | 8.55 | 20 | Incident Debug (9.1) / Research (8.8) | Estimate Analysis (7.5) |
| DeepSeek V4 Pro | 8.29 | 21 | Game Theory (10.0) | Financial Data (7.0) |
| DeepSeek V4 Flash | 8.06 | 21 | Game Theory (9.5) | Financial Data (7.0) |
| Claude Opus 4.6 | 8.05 | 21 | Industry Primer (9.0) | Financial Data (6.0) |
| GPT-5.4 | 7.65 | 20 | Incident Debug (10.0) / Game Theory (9.0) | Estimate Analysis (5.0), Earnings Recap (5.0) |
| Claude Opus 4.5 | 7.60 | 21 | DCF (8.5) / Game Theory (8.0) | Financial Data (6.5) |
| Kimi K2.6 | 6.91 | 16 | Game Theory (9.0) | Earnings Recap (4.0) |
Source: Funda AI
| 维度 | 领先模型 | DeepSeek V4 表现 | 备注 |
|---|---|---|---|
| 编程 | Claude Opus 4.6 (Thinking) (8.88) | Pro Thinking 8.48* / Flash Thinking 8.44* / Pro 8.13 / Flash 8.06 | DeepSeek thinking 编程分数只基于已完成任务;hard coding timeout 是主要限制 |
| 推理 | Claude Opus 4.6 (Thinking) (8.82) | Flash Thinking 8.63* / Pro Thinking 8.53* / Pro 8.17 / Flash 8.12 | GPT-5.4 的 causal inference 不再按 10/10 计,重新校准后推理明细为 8.15 |
| 写作 | Claude Opus 4.7 (9.17) | Pro Thinking 8.80 / Pro 8.33 / Flash Thinking 8.20* / Flash 7.87 | Opus 4.7 的技术博客是全测试唯一写作 10/10 |
| 单任务成本 | DeepSeek Flash (~$0.007) / Flash Thinking (~$0.008) | Pro ~$0.10 / Pro Thinking ~$0.15 / Flash ~$0.007 / Flash Thinking ~$0.008 | Thinking 增加输出 token:Flash +18%,Pro +62% |
* Thinking mode 分数只基于已完成任务。
Source: Funda AI
| 排名 | 模型 | 编程 | 推理 | 写作 | 多步任务 | 加权平均 | 覆盖范围 |
|---|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 (Thinking) | 8.93 | 8.72 | 8.37 | 8.68 | 8.72 | 39/40 |
| 1 | Claude Opus 4.7 | 8.55 | 8.50 | 9.07 | 8.87 | 8.72 | 38/38 |
| 3 | DeepSeek V4 Pro | 8.18 | 8.18 | 8.40 | 8.29 | 8.27 | 38/38 |
| 部分* | DeepSeek V4 Pro (Thinking) | 8.48 | 8.53 | 8.80 | 8.90 | 8.80* | 29/38 |
| 4 | Claude Opus 4.6 | 8.44 | 8.18 | 8.07 | 8.05 | 8.17 | 38/38 |
| 5 | DeepSeek V4 Flash | 7.89 | 8.07 | 7.93 | 8.06 | 8.01 | 38/38 |
| 部分* | DeepSeek V4 Flash (Thinking) | 8.44 | 8.63 | 8.20 | 8.55 | 8.52* | 33/38 |
| 6 | Claude Opus 4.5 | 8.25 | 8.17 | 8.00 | 7.60 | 7.88 | 38/38 |
| 6 | GPT-5.4 | 8.04 | 8.23 | 8.33 | 7.65 | 7.88 | 37/38 |
| 8 | Kimi K2.6 | — | — | — | 6.91 | 6.91* | 16/38 |
Source: Funda AI
* DeepSeek thinking 行覆盖不完整;加权平均仅基于已完成/已评分任务,不应直接视为 full-suite 排名。Kimi K2.6 仅测试金融研究任务。
多步任务共 21 个,包括 16 个需要实时数据检索、多轮工具调用和分析综合的金融研究任务,以及 5 个分析/工程类任务:research synthesis、contrarian analysis、SaaS IPO、production incident debugging、ML pipeline design。
Opus 4.7 的优势:财报电话会整合、管理层原话、Q&A 主题、市场反应分析、引用严谨度、数据校验,以及更保守的估值方法,例如把 SBC 当作真实成本处理。
DeepSeek V4 的相对优势:在 game theory、multi-company comparison、sentiment analysis 等复杂框架中更愿意展开长链条分析,也更善于综合 insider transactions、options Greeks、供应链细节等多类数据源。它的输出通常更长,但有效信息密度也较高。
任务亮点:
Claude Opus 4.6 更擅长搭建结构化分析框架,例如 comps、industry primers、recruitment intelligence。DeepSeek 则更擅长给出单点深度洞察,例如 Singapore reclassification、forced-move economics、EV/EBITDA + P/FCF + capex divergence。
两者文字量没有明显差距:Claude Opus 4.6 平均约 1,531 words/task,DeepSeek 约 1,559 words/task。真正的差异在组织方式:Claude 更常搭建多表格框架,DeepSeek 更常写高密度分析段落。
DeepSeek 在此前直接比较中 11-5 领先 Opus 4.5,主要来自更深的多步分析和更复杂的工具调用链。但 Opus 4.5 有一个真实优势:视觉呈现。它输出的 OpenUI components(MetricCards、BarCharts、LineCharts、DataTables)在 dashboard-style briefing 中更好用。后来 Opus 4.7 已经基本补上了 Opus 4.5 与 DeepSeek 的分析质量差距,在金融研究任务上与 DeepSeek 打成 7-7。
DeepSeek V4 的相对短板不是分析能力本身,而是视觉化、UI 化、可直接做成 dashboard 的呈现方式。本次基准测试并没有直接测试多模态图片生成,因此不应把结论写成 “DeepSeek 不擅长多模态”。更准确的说法是:DeepSeek 通常给出高质量的 markdown 分析;相比之下,Claude Opus 4.5 更容易生成 OpenUI 风格的 metric cards、bar charts、line charts 和 data tables,更适合直接用于 dashboard 或可视化报告。
这对用户体验有实际影响:如果目标是给研究员阅读、做模型推理和数据综合,DeepSeek 的输出非常有竞争力;如果目标是直接复制到 dashboard、newsletter 或投研系统中,作为可视化组件使用,Claude Opus 4.5 的呈现方式更接近成品。
图 1:同类招聘情报任务的呈现方式对比
Claude Opus 4.5 输出 OpenUI DataTable/BarChart;DeepSeek V4 输出 markdown 表格与段落。
Source: Funda AI
DeepSeek V4 vs Kimi K2.6
Kimi K2.6 完成了全部 16 个金融研究任务,game theory 表现强(9/10),并且在部分复杂金融分析任务上有不错深度。但它的整体一致性和覆盖范围低于 DeepSeek。最新综合分只基于金融研究任务计算,因此直接比较时应注意它并没有覆盖编程、推理和写作任务。
GPT-5.4 在完整多轮工具调用设置下,production incident debugging 拿到 10/10,并且仍然是最快的 full-suite 模型,平均耗时 105s。它的 rate limiter 输出相对浅(summary-only,约 1,111 chars),和 Opus 4.7 的 production-grade implementation 有明显差距;此前 causal inference 的 10/10 也被重新校准。金融研究方面,GPT-5.4 在最新 multi-step 表中平均 7.65,低于 DeepSeek Pro 的 8.29 和 Opus 4.7 的 8.87。GPT-5.4 最新综合分为 7.88,与 Claude Opus 4.5 并列,低于 DeepSeek Pro(8.27)和标准 Opus 4.6(8.17)。GPT-5.5/Codex 5.5 已经显示出很强的编程能力,但正式结论需要等 API 开放后用同一套基准补测。
表格缩写:DS-Pro = DeepSeek V4 Pro,DS-Pro(T) = DeepSeek V4 Pro (Thinking),DS-Flash = DeepSeek V4 Flash,DS-Flash(T) = DeepSeek V4 Flash (Thinking),Opus 4.6T = Claude Opus 4.6 (Thinking)。
| 任务 | DS-Pro | DS-Pro(T) | DS-Flash | DS-Flash(T) | Opus 4.5 | Opus 4.6 | Opus 4.6T | Opus 4.7 | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| Rate Limiter | 8.0 | — | 8.0 | 8.9 | 8.8 | 8.8 | 9.2 | 9.2 | 6.8 |
| Async Deadlock | 8.8 | 8.7 | 8.7 | 8.8 | 8 | 8.5 | 8.8 | 9.0 | 8.2 |
| URL Shortener | 8.0 | 8.5 | 8.0 | — | 8 | 8 | 8.5 | 8 | 9 |
| SQL Optimization | 8.0 | 8.2 | 8.0 | 8.0 | 8 | 8 | 8.0 | 8 | 8.0 |
Source: Funda AI
| 任务 | DS-Pro | DS-Pro(T) | DS-Flash | DS-Flash(T) | Opus 4.5 | Opus 4.6 | Opus 4.6T | Opus 4.7 | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| Build Interpreter | 8.0 | — | 8.0 | 2.0 | 8.7 | 9.0 | 9.3 | 9.1 | 8.0 |
| Distributed KV Store | 8.0 | — | 8.0 | — | 8.0 | 8.2 | 9.4 | 8.3 | 8.2 |
| Web Crawler | 8.0 | — | 8.0 | 8.0 | 8.0 | 8.0 | 8.8 | 8.0 | — |
| Raft Consensus | 8.0 | 8.5 | 8.0 | 8.5 | 8.0 | 8.2 | 9.2 | 8.0 | 8.0 |
Source: Funda AI
“—” 表示该任务未完成,原因可能是基础设施失败或 thinking-mode timeout。
DeepSeek V4 在编程任务上的亮点:
DeepSeek V4 的编程短板:
Claude vs DeepSeek 编程对比:Opus 4.7 给出了最强的 rate limiter:48 个测试在 0.20s 内通过,覆盖 clock drift、burst overflow、fractional tokens、concurrency、memory 等边界情况。DeepSeek Flash 在标准编程任务上很有竞争力,但 Claude 在复杂实现类任务上的稳定性更高。
| 任务 | DS-Pro | DS-Pro(T) | DS-Flash | DS-Flash(T) | Opus 4.5 | Opus 4.6 | Opus 4.6T | Opus 4.7 | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| Bayesian Probability | 9.0 | 9.1 | 8.8 | 9.0 | 8.7 | 8.8 | 9.0 | 9.0 | 8.2 |
| Logic Puzzle | 7.8 | 8.2 | 7.8 | 8.0 | 8.0 | 8.0 | 8.5 | 8.2 | 7.2 |
| Fermi Estimation | 8.0 | 8.3 | 8.0 | 8.2 | 8.0 | 8.0 | 8.2 | 8.3 | 8.0 |
| Causal Inference | 8.0 | 8.5 | 8.0 | 8.3 | 8.0 | 8.0 | 8.8 | 8.2 | 8.8 |
| Game Theory Auction | 8.2 | — | 8.0 | — | 8.0 | 8.2 | 9.4 | 9.2 | 8.7 |
| Mathematical Proofs | 8.0 | — | 8.0 | — | 8.0 | 8.0 | 9.3 | 8.0 | 8.0 |
Source: Funda AI
Bayesian probability 是所有模型表现最稳的任务,基本都能给出正确计算和逐步推导。Opus 4.7 和 DeepSeek Pro 的答案都比较优雅:Opus 4.7 在部分推导中使用 odds-form,更简洁;DeepSeek Pro 同样正确,但解释略长。GPT-5.4 正确,但解释层面的 insight 少一些。
Logic 与 constraint satisfaction 有一定区分度。GPT-5.4 更简洁,但偶尔会遗漏边界情况。
Hard reasoning(game theory auction、mathematical proofs):完成任务的模型整体表现都不错。Claude Opus 4.6 (Thinking) 在推理明细表中最强,game theory auction 得到 9.4,mathematical proofs 得到 9.3。Opus 4.7 的 game theory auction 也很强,包含严谨的 Nash equilibrium 分析、VCG payment 计算和 synergy-aware auction design。
总体判断:推理是差距最小的类别。前沿模型都能处理标准推理题,真正的差异更多来自解释清晰度、呈现效率和 hard reasoning 的稳定性,而不是简单正确/错误。
| 任务 | DS-Pro | DS-Pro(T) | DS-Flash | DS-Flash(T) | Opus 4.5 | Opus 4.6 | Opus 4.6T | Opus 4.7 | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| Technical Blog Post | 8.8 | 9.3 | 8.0 | — | 8.0 | 8.2 | 8.3 | 10.0 | 8.5 |
| Investment Memo | 8.2 | 8.8 | 7.8 | 8.2 | 8.0 | 8.0 | 8.8 | 9.2 | 8.8 |
| LLM Explainer | 8.0 | 8.3 | 7.8 | — | 7.8 | 7.8 | 8.0 | 8.3 | 8.0 |
Source: Funda AI
Technical Blog Post(Microservices to Monolith):这是写作类别里质量差距最大的任务。Claude Opus 4.7 拿到 10/10,也是整套测试里唯一一个写作满分。它的文章已经接近可发布稿件,有真实感很强的 VP Engineering 口吻、具体公司细节(47 services、$340K/month Datadog bill、5-trading-day onboarding metrics)、自然的人物和场景细节、量化结果表,以及对 “什么时候 microservices 是对的” 的细致讨论。
DeepSeek Pro 的技术博客也很强(8.8/10):叙事弧线完整,虚构公司 Meridian 足够真实,围绕 payment reconciliations SaaS 展开,包含三个结构清楚的问题、root cause analysis、strangler fig migration strategy 和量化结果。与 Opus 4.7 的差距主要在声音真实感略弱,个别场景(例如 Kafka crash-loop)稍显设计感。
GPT-5.4 的博客也合格(8.5/10),核心 thesis 是 “architecture should reflect coupling, not aspiration”,结构清楚,但缺少 Opus 4.7 那种更自然的情绪纹理和具体细节。
Investment Memo:各模型差距较小,都能写出 thesis、financials、risks、recommendation 等标准结构。Opus 4.7 在估值框架上更锐利;GPT-5.4 的 memo 干净,但 recommendation 更偏谨慎。
| 任务 | DS-Pro | DS-Pro(T) | DS-Flash | DS-Flash(T) | Opus 4.5 | Opus 4.6 | Opus 4.6T | Opus 4.7 | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| NVDA vs AVGO Research | 8.3 | 9.2 | 8.0 | 8.8 | 7.8 | 8.2 | 9.0 | 9.2 | 8.0 |
| Contrarian Bear Case | 8.2 | 8.8 | 8.0 | 8.5 | 7.8 | 8.0 | 8.5 | 8.5 | 8.0 |
| SaaS IPO Strategy | 8.0 | 8.8 | 8.0 | 8.5 | 7.8 | 8.0 | 8.8 | 8.3 | 8.0 |
| Production Incident Debug | 8.3 | 8.5 | 8.2 | 9.1 | 8.0 | 8.2 | 9.2 | 9.0 | 9.5 |
| ML Fraud Pipeline Design | 8.0 | — | 8.0 | 8.3 | 7.5 | 8.0 | — | 8.5 | 8.2 |
Source: Funda AI
NVDA vs AVGO Research Synthesis:这个任务很清楚地体现了多轮工具调用的优势。Opus 4.7 产出了一份包含实时金融数据的研究笔记,例如 $199.79 的 NVDA 股价、$4.86T 市值、71.1% gross margin、$96.7B FCF,并给出了财务 scoreboard、竞争定位、AI capex 下降 50% 情景分析和带 trigger 的具体建议。GPT-5.4 的多轮工具版本也不错,但金融数据整合深度略低。没有工具访问的单轮模型通常只能承认无法获取实时数据,然后提供框架性分析。
Production Incident Debugging:GPT-5.4 在这个任务上拿到 10/10,是全场最强。它的调试流程非常系统:triage、correlate、narrow、hypothesize,并给出 production-ready diagnostic commands,包括 pg_stat_activity、Redis info、kubectl logs filters、Prometheus queries。PIR 也完整覆盖 timeline、分层 action