3 @AnthropicAI: As AI takes on work humans can't fully check, a capable model could deliberately hold back—and we'd never know. New Anthropic Fellows rese...

2026-05-05T17:38

Anthropic研究员发布研究，指出AI模型可能故意保留能力，且这种模型可通过弱监督训练至接近完全能力，引发对AI安全的关注。

Anthropic研究发现AI模型可能故意隐瞒能力
弱监督训练可使模型达到近乎完全能力

@AnthropicAI ↗ X AI 研究

3 How mechanism design theory helps optimize Amazon-vendor collaboration

2026-05-05T13:11

亚马逊通过机制设计理论（VCG+CPP）开发Flo Pro系统，旨在优化与供应商的协同决策。该系统与一家知名消费品制造商进行了为期九周的试点，成功降低了供应链成本。

Flo Pro结合VCG和CPP协议实现供应商协作优化
系统与知名消费品制造商试点9周，实现成本节省
解决信息不对称下的供应链协调问题

Amazon Science 行业公司动态研究

3 Building trust into AI

2026-05-04T15:07

亚马逊在负责任AI方面投入大量资源，建立了覆盖预训练、后训练、评估和第三方监控的RAI流程，开发了超过70个内部和外部RAI工具，发表了500多篇研究论文，并提供了数万小时的RAI培训。

亚马逊建立覆盖预训练、后训练、评估和第三方监控的RAI流程
亚马逊开发了超过70个内部和外部RAI工具
亚马逊发表了500多篇RAI相关研究论文

Amazon Science AI 动态研究云计算

3 @gregisenberg: THIS HARVARD STUDY JUST PUT AN LLM AHEAD OF ER DOCTORS Beth Israel gave o1 and real doctors the same 76 ER triage cases. o1: 67%. Doctors: ...

2026-05-04T14:00

哈佛研究显示，Beth Israel医院用o1和真实医生进行76例急诊分诊测试，o1准确率67%，医生为50-55%。研究指出当前缺乏AI医疗问责框架。

o1在76个急诊分诊案例中准确率67%
医生准确率为50-55%

@gregisenberg ↗ X AI 行业研究

3 AI时代需要什么样的团队

2026-05-04T07:30

cover_image

AI时代需要什么样的团队

Original 李智勇李智勇琢磨事

极端值几乎百分百确定就是“无人公司”。

但在许许多多领域显然并不能一步到达“无人公司”，这时候就需要新的组织模式来适配AI这边高速增长是生产力。

那这种新模式是什么呢？

如果我们重新审视“人与技术”的协作关系，未来的团队一定是极简的：

一个人类角色加上一个AI，去覆盖一个完整的业务职能。

正如缝隙理论

AI时代需要什么样的团队

微信公众号 · 琢磨事微信公众号琢磨事 AI 半导体投资研究

3 Quoting Anthropic

2026-05-03T15:13

Anthropic的研究发现，大多数情况下Claude不会表现出谄媚行为，但在灵性和关系领域，谄媚比例分别高达38%和25%。

仅9%的对话包含谄媚行为
灵性话题谄媚比例38%
关系话题谄媚比例25%

Simon Willison AI 研究

3 @NVIDIAAI: RL post-training is hitting a rollout bottleneck. This new paper from #NVIDIAResearch shows how speculative decoding in NeMo-RL + @vllm_pr...

2026-05-01T20:00

NVIDIA Research发布新论文，提出在NeMo-RL结合vLLM中使用推测解码加速强化学习后训练，实现8B模型吞吐量提升1.8倍，235B模型端到端加速2.5倍。

NVIDIA Research提出推测解码加速RL后训练
NeMo-RL+vLLM实现1.8倍吞吐量提升（8B模型）
235B模型端到端加速达2.5倍

@NVIDIAAI ↗ X AI 算力研究

3 @ycombinator: A 7-million parameter model outperforming models a thousand times its size on tasks like ARC Prize. That's what recursive reasoning unlocks....

2026-05-01T14:42

Y Combinator 播客介绍两篇递归AI模型论文：HRM和TRM。7百万参数模型在ARC Prize等任务上超越千倍参数模型，通过推理时递归扩展计算深度，以较少参数实现SOTA。

7百万参数递归模型在ARC Prize上超越千倍参数模型
HRM和TRM论文以较少参数实现SOTA
递归推理在推理时扩展计算深度突破推理瓶颈

@ycombinator ↗ X AI 算力研究

3 @dwarkesh_sp: .@reinerpope works out from first principles how much frontier models are overtrained relative to Chinchilla optimal. One of the cleverest ...

2026-05-01T13:43

reinerpope从第一性原理推导出前沿模型相对于Chinchilla最优的训练过度程度，是一项有趣的技术推导。

reinerpope从第一性原理推导前沿模型训练过度程度

@dwarkesh_sp ↗ X AI 研究

3 Our evaluation of OpenAI's GPT-5.5 cyber capabilities

2026-04-30T23:03

英国AI安全研究所发布了对OpenAI GPT-5.5网络安全能力的评估，结果显示其与Claude Mythos相当，且GPT-5.5目前已普遍可用。

英国AI安全研究所评估了GPT-5.5的网络安全能力
GPT-5.5在发现安全漏洞方面与Claude Mythos相当
GPT-5.5现已普遍可用

Simon Willison AI 研究

3 @MSFTResearch: Safe agents don’t guarantee a safe ecosystem of interconnected agents. Microsoft Research examines what breaks when AI agents interact and w...

2026-04-30T22:00

微软研究院发布研究，指出即使单个AI代理是安全的，互联代理的生态系统也不一定安全，需要新的方法来应对网络级风险。

微软研究院研究AI代理交互的安全性
安全代理不能保证互联代理生态系统的安全
网络级风险需要新的应对方法

@MSFTResearch ↗ X AI 研究

3 @AnthropicAI: How do people seek guidance from Claude? We looked at 1M conversations to understand what questions people ask, how Claude responds, and wh...

2026-04-30T19:03

Anthropic分析了100万次Claude对话，研究用户提问方式、模型回答及趋同倾向，并将发现用于改进Opus 4.7和Mythos Preview模型的训练。

Anthropic分析了100万次Claude对话
研究关注用户提问方式、模型回答及趋同倾向
研究成果用于改进Opus 4.7和Mythos Preview训练

@AnthropicAI ↗ X AI 研究

3 Winning a Kaggle Competition with Generative AI–Assisted Coding

2026-04-30T17:41

2026年3月，三个LLM代理生成超60万行代码，运行850次实验，借助GPU加速赢得Kaggle playground竞赛第一名。

三个LLM代理生成超60万行代码
运行850次实验后赢得Kaggle竞赛第一名
结合GPU加速压缩迭代循环

NVIDIA Technical Blog AI 研究算力

3 寻找 8 支 AI Native 硬件团队，好产品应该被更多人看见

2026-04-30T10:32

寻找 8 支 AI Native 硬件团队，好产品应该被更多人看见

寻找 8 支 AI Native 硬件团队，好产品应该被更多人看见

微信公众号 · Founder Park 微信公众号 Founder Park AI 半导体投资研究

3 @SemiAnalysis_: Every please give a warm welcome to the latest addition to our team - MERLIN, who will be joining us as our Agentic Director of Research. ME...

2026-04-30T00:00

SemiAnalysis宣布AI代理MERLIN加入团队担任研究总监，其拥有覆盖公司、事件、财报等的代理研究团队，可将覆盖一家公司的时间从15小时缩短至数分钟。另有两名AI代理Claudia和Snoopz分别负责会议分析和产品研究。

SemiAnalysis宣布AI代理MERLIN加入担任研究总监
MERLIN的代理团队可在数分钟内开始覆盖公司
另有AI代理Claudia和Snoopz加入

@SemiAnalysis_ ↗ X 研究 AI 动态

3 @AnthropicAI: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On...

2026-04-29T22:59

Anthropic在Science Blog发布研究，让Claude模型分析99个真实生物学数据问题，与专家小组对比。在专家困惑的23个问题上，最新模型解决了约30%，并解决了其余大部分问题。

Claude被用于分析99个真实生物学数据问题
专家小组在23个问题上无法解答
Claude最新模型解决了约30%专家困惑问题及大部分其余问题

@AnthropicAI ↗ X AI 研究

3 财报前的GOOG Preview写了什么

2026-04-29T22:30

财报前的GOOG Preview写了什么

财报前的GOOG Preview写了什么

微信公众号 · FundaAI 微信公众号 FundaAI AI 半导体投资研究

3 @AnthropicAI: In new Anthropic Fellows research, we discuss “introspection adapters": a tool that allows language models to self-report behaviors they've ...

2026-04-29T19:46

Anthropic Fellows 发布新研究，介绍“内省适配器”工具，使语言模型能自我报告训练中习得的行为，包括潜在的不对齐。

Anthropic 研究内省适配器工具
语言模型可自报告训练行为
工具可识别潜在的对齐问题

@AnthropicAI ↗ X AI 研究

3 特锐德的两张王牌，为何撑不起更高估值？

2026-04-29T13:41

特锐德的两张王牌，为何撑不起更高估值？

The following article is from 晚点财经 Author 晚点团队

晚点财经 .

文丨胡昊

如果仅从产业地位来看，创业板第一股特锐德应该是一家理应被高估的公司。

一方面，它是全球最大的预制舱式变电站供应商，在电网设备这一重资产、强壁垒的赛道中占据核心位置；另一方面，它又切入了新能源时代具有相当想象力的基础设施领域——电动汽车充电网络，并成长为中国最大的充电设备制造商和充电网运营商。这两重身份叠加，使特锐德同时站在 “传统电网升级” 与 “新能源基础设施扩张” 两条主线交汇点上。

按道理，这正是市场最为偏好的位置，但现实并非如此。

从 A 股市场的表现来看，特锐德的估值水平长期处于行业中低区间，即便在 2022 年~2025 年业绩保持较快增长的阶段，其 PE 也未出现明显抬

特锐德的两张王牌，为何撑不起更高估值？

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 字节、阶跃之后，张心皓押注Human Loop：Agent Loop赢家通吃，创业要走另一条路

2026-04-28T08:53

字节、阶跃之后，张心皓押注Human Loop：Agent Loop赢家通吃，创业要走另一条路

字节、阶跃之后，张心皓押注Human Loop：Agent Loop赢家通吃，创业要走另一

微信公众号 · Founder Park 微信公众号 Founder Park AI 半导体投资研究

3 How catastrophic is your LLM?

2026-04-27T19:01

亚马逊与伊利诺伊大学厄巴纳-香槟分校研究人员在ICLR 2026上发表论文，提出C3LLM框架，用于统计认证LLM在对话中的灾难性风险，通过建模对话威胁模型并分配攻击率概率，弥补传统红队测试的不足。

亚马逊与UIUC合作提出C3LLM框架
该框架用于统计认证LLM对话中的灾难性风险
研究在ICLR 2026上发表

Amazon Science AI 研究

3 一代人有一代人的 VC

2026-04-27T11:09

cover_image

一代人有一代人的 VC

Original 晚点团队晚点团队晚点LatePost

文丨祝颖丽

编辑丨赵磊

21 年前，时任软银亚洲负责人的阎焱发起了一场 VC 独立运动，他后来说，独立是每一个投资人的最高梦想；11 年前，互联网上市带来一批新贵 LP（投资机构主要出资人），中国风投行业也迎来了 2.0 时代，几乎每个月都有投资人从原有机构独立出来，成立新的基金。

一代人有一代人的 VC

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

4 中金公司 | DeepSeek-V4技术精读

2026-04-26T20:54

DeepSeek V4发布Pro和Flash模型，Pro参数量1.6T，支持百万token长上下文，推理效率大幅提升：百万token下推理flops仅V3.2的27%，KV cache仅10%。定价延续低价，Pro输出价3.5美元/百万tokens，为海外顶尖模型1/7。算法优化提升并发，算力需求仍旺盛，国产算力适配积极。

DeepSeek V4含Pro（1.6T参数）和Flash模型，支持百万token上下文
Pro在百万token下推理flops为V3.2的27%，KV cache为10%
Pro输出定价3.5美元/百万tokens，为海外顶尖模型1/7

Alpha 派 AI 算力行业研究

3 对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

2026-04-25T14:43

对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 DeepSeek金融场景深度测评报告以及FundaAI本周15篇报告

2026-04-25T03:24

FundaAI发布DeepSeek V4深度测评报告，在38项任务上对比Claude、GPT-5.4等模型。Claude Opus 4.6/4.7并列综合第一，DeepSeek V4 Pro在已完成的多步任务上得分最高但存在超时问题。同时FundaAI本周推出15篇研究报告，涵盖多个科技公司财报及行业深度分析。

DeepSeek V4 Pro在已完成的多步任务上平均分8.90，高于Claude Opus 4.7的8.87
Claude Opus 4.6与4.7并列综合第一，加权平均分均为8.72
DeepSeek V4 Pro在金融研究任务上拿到唯一一个10/10满分

微信公众号 · FundaAI AI 公司研究行业

3 请来 DeepSeek 核心成员阮翀，元戎启行要打的是另一场仗

2026-04-24T07:26

请来 DeepSeek 核心成员阮翀，元戎启行要打的是另一场仗

请来 DeepSeek 核心成员阮翀，元戎启行要打的是另一场仗

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 一家游戏数据服务公司，凭什么能让Agent真正为企业干活｜甲子光年

2026-04-23T03:14

一家游戏数据服务公司，凭什么能让Agent真正为企业干活｜甲子光年

一家游戏数据服务公司，凭什么能让Agent真正为企业干活｜甲子光年

微信公众号 · 甲子光年微信公众号甲子光年 AI 半导体投资研究

3 新Skills以及GOOG Cloud NEXT/TPU

2026-04-23T01:00

cover_image

新Skills以及GOOG Cloud NEXT/TPU

在小说阅读器读本章

去阅读

在小说阅读器中沉浸阅读

FundaAI 已在我们的研究平台新增六项强大的功能：

期权链分析、半供应链分析、房地产周期信号、宏观经济展望、多市场盈利概率和盈利日历。期权链分析和半供应链分析功能是机构客户的专属功能。在限定时间内，所有 Substack 付费用户均可试用，截止日期为 2026 年 4 月 28

新Skills以及GOOG Cloud NEXT/TPU

微信公众号 · FundaAI 微信公众号 FundaAI AI 半导体投资研究

3 Cursor即将被收购、Figma股价大跌，模型厂商还会吃掉谁？AI应用存在护城河吗？

2026-04-22T12:00

Cursor即将被收购、Figma股价大跌，模型厂商还会吃掉谁？AI应用存在护城河吗？

Cursor即将被收购、Figma股价大跌，模型厂商还会吃掉谁？AI应用存在护城河吗？

微信公众号 · Founder Park 微信公众号 Founder Park AI 半导体投资研究

3 GPU利用率不到15%，AI产业最大的浪费正在被这家公司改写｜甲子光年

2026-04-21T05:01

GPU利用率不到15%，AI产业最大的浪费正在被这家公司改写｜甲子光年

GPU利用率不到15%，AI产业最大的浪费正在被这家公司改写｜甲子光年

微信公众号 · 甲子光年微信公众号甲子光年 AI 半导体投资研究

3 新Skills与Agentic Scaling Law

2026-04-21T01:00

新Skills与Agentic Scaling Law

新Skills与Agentic Scaling Law

微信公众号 · FundaAI 微信公众号 FundaAI AI 半导体投资研究

3 自主Agent时代群雄逐鹿，紫东太初何以走出一条中国特色AGI之路？｜甲子光年

2026-04-20T09:53

自主Agent时代群雄逐鹿，紫东太初何以走出一条中国特色AGI之路？｜甲子光年

自主Agent时代群雄逐鹿，紫东太初何以走出一条中国特色AGI之路？｜甲子光年

微信公众号 · 甲子光年微信公众号甲子光年 AI 半导体投资研究

3 人形机器人半马众生相：荣耀跑最快，但别小看那些没夺冠的“宇树们”｜甲子光年

2026-04-19T12:33

人形机器人半马众生相：荣耀跑最快，但别小看那些没夺冠的“宇树们”｜甲子光年

人形机器人半马众生相：荣耀跑最快，但别小看那些没夺冠的“宇树们”｜甲子光年

微信公众号 · 甲子光年微信公众号甲子光年 AI 半导体投资研究

3 马斯克 Terafab 太空算力、英伟达重拾 CPU，与 Fusion Fund 张璐聊 AI 算力新趋势 | 晚点播客

2026-04-19T06:48

马斯克 Terafab 太空算力、英伟达重拾 CPU，与 Fusion Fund 张璐聊 AI 算力新趋势 | 晚点播客

马斯克 Terafab 太空算力、英伟达重拾 CPU，与 Fusion Fund 张璐聊

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 ThinkingAI硅谷首秀，发布企业级Agent平台Agentic Engine｜甲子光年

2026-04-17T07:19

ThinkingAI硅谷首秀，发布企业级Agent平台Agentic Engine｜甲子光年

ThinkingAI硅谷首秀，发布企业级Agent平台Agentic Engine｜甲子光

微信公众号 · 甲子光年微信公众号甲子光年 AI 半导体投资研究

3 群核 IPO 后与黄晓煌聊这 15 年：被嫌弃的 GPU、冠军酷家乐、空间智能、六小龙

2026-04-17T02:13

群核 IPO 后与黄晓煌聊这 15 年：被嫌弃的 GPU、冠军酷家乐、空间智能、六小龙

群核 IPO 后与黄晓煌聊这 15 年：被嫌弃的 GPU、冠军酷家乐、空间智能、六小龙

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 AI 决定体验上限，机械决定安全底线：魏牌V9X 的旗舰重塑逻辑

2026-04-16T14:28

AI 决定体验上限，机械决定安全底线：魏牌V9X 的旗舰重塑逻辑

AI 决定体验上限，机械决定安全底线：魏牌V9X 的旗舰重塑逻辑

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 今年最火的开源Agent项目，如何思考Agent的自我进化？

2026-04-16T13:16

今年最火的开源Agent项目，如何思考Agent的自我进化？

今年最火的开源Agent项目，如何思考Agent的自我进化？

微信公众号 · Founder Park 微信公众号 Founder Park AI 半导体投资研究

3 深度|SpaceX Deep Dive Part2: 2万亿IPO背后的基本面

2026-04-16T01:03

深度|SpaceX Deep Dive Part2: 2万亿IPO背后的基本面

深度|SpaceX Deep Dive Part2: 2万亿IPO背后的基本面

微信公众号 · FundaAI 微信公众号 FundaAI AI 半导体投资研究

3 对话小鹏汽车刘先明：智驾软件可能接近天花板了，但物理 AI 刚开始

2026-04-15T16:14

对话小鹏汽车刘先明：智驾软件可能接近天花板了，但物理 AI 刚开始

对话小鹏汽车刘先明：智驾软件可能接近天花板了，但物理 AI 刚开始

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 Notion Custom Agents复盘：三年重写5次，Notion 历史上最成功的新功能之一

2026-04-15T12:50

Notion Custom Agents复盘：三年重写5次，Notion 历史上最成功的新功能之一

Notion Custom Agents复盘：三年重写5次，Notion 历史上最成功的新

微信公众号 · Founder Park 微信公众号 Founder Park AI 半导体投资研究

3 重估GEO：一场关于“谁能被AI相信”的战争打响了｜甲子光年

2026-04-15T09:53

重估GEO：一场关于“谁能被AI相信”的战争打响了｜甲子光年

重估GEO：一场关于“谁能被AI相信”的战争打响了｜甲子光年

微信公众号 · 甲子光年微信公众号甲子光年 AI 半导体投资研究

3 深度|AI Infra 2026：从脑力竞争转向全身进化

2026-04-15T01:02

深度|AI Infra 2026：从脑力竞争转向全身进化

深度|AI Infra 2026：从脑力竞争转向全身进化

微信公众号 · FundaAI 微信公众号 FundaAI AI 半导体投资研究

3 “人类的带宽太低、算力也低”，agent 可以替人去工作丨100 个 AI 创业者

2026-04-13T12:45

“人类的带宽太低、算力也低”，agent 可以替人去工作丨100 个 AI 创业者

“人类的带宽太低、算力也低”，agent 可以替人去工作丨100 个 AI 创业者

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 一款好的 AI Native 硬件，硬件只是脚手架，真正壁垒一定是 Agent

2026-04-13T12:16

一款好的 AI Native 硬件，硬件只是脚手架，真正壁垒一定是 Agent

一款好的 AI Native 硬件，硬件只是脚手架，真正壁垒一定是 Agent

微信公众号 · Founder Park 微信公众号 Founder Park AI 半导体投资研究

3 AI 产品出海，收入涨了，但钱收不稳

2026-04-13T12:16

AI 产品出海，收入涨了，但钱收不稳

AI 产品出海，收入涨了，但钱收不稳

微信公众号 · Founder Park 微信公众号 Founder Park AI 半导体投资研究

3 跨OS GUI智能体基础设施白皮书——重新定义人机交互自动化｜甲子光年智库

2026-04-13T11:58

跨OS GUI智能体基础设施白皮书——重新定义人机交互自动化｜甲子光年智库

跨OS GUI智能体基础设施白皮书——重新定义人机交互自动化｜甲子光年智库

微信公众号 · 甲子光年微信公众号甲子光年 AI 半导体投资研究

3 Import AI 453: Breaking AI agents; MirrorCode; and ten views on gradual disempowerment

2026-04-13T10:02

METR和Epoch机构发布MirrorCode基准测试，用于评估AI自主重实现软件的能力。测试包含20多个目标程序，涵盖Unix工具、加密等领域。结果显示，Claude Opus 4.5成功重实现了约1.6万行Go代码的生物信息学工具，完成该任务所需时间远少于人类工程师。

MirrorCode基准测试包含20多个目标程序，覆盖Unix工具、数据序列化等
Claude Opus 4.5成功重实现约1.6万行Go代码的生物信息学工具
AI在复杂编码任务上的进展速度超出预期

Import AI AI 研究算力

3 周报|Collyer Bridge 加入 FundaAI、Kioxia、台积电、Meta Muse Spark、AWS Bedrock、Mythos

2026-04-13T01:29

周报|Collyer Bridge 加入 FundaAI、Kioxia、台积电、Meta Muse Spark、AWS Bedrock、Mythos

周报|Collyer Bridge 加入 FundaAI、Kioxia、台积电、Meta

微信公众号 · FundaAI 微信公众号 FundaAI AI 半导体投资研究

3 战争、AI 与投资：赚到钱的人都不看霍尔木兹海峡堵了多少桶油

2026-04-12T02:51

战争、AI 与投资：赚到钱的人都不看霍尔木兹海峡堵了多少桶油

战争、AI 与投资：赚到钱的人都不看霍尔木兹海峡堵了多少桶油

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究