3 @huggingface: RT @LoubnaBenAllal1: Introducing Carbon 🧬 a family of open generative DNA foundation models. Carbon-3B matches Evo2-7B while running 250x f…

2026-05-19T19:42

在推特上，LoubnaBenAllal1宣布推出开源生成式DNA基础模型系列Carbon，其中Carbon-3B性能与Evo2-7B相当，但运行速度快250倍。

发布Carbon系列开源生成式DNA基础模型
Carbon-3B性能匹配Evo2-7B
Carbon-3B运行速度快250倍

@huggingface ↗ X 行业 AI 研究

3 Mastering Agentic Techniques: AI Agent Evaluation

2026-05-19T18:53

英伟达技术博客区分了AI模型评估与AI代理评估的不同：模型评估测试基础模型能力，代理评估测试端到端系统行为如规划、工具调用和处理不确定性。

AI代理评估与模型评估回答不同问题
模型评估测试基础模型的语言理解、指令遵循等能力
代理评估测试系统端到端行为：规划、调用工具、处理不确定性

NVIDIA Technical Blog AI 行业研究

3 @karpathy: Personal update: I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative. I am very excited t...

2026-05-19T15:05

AI研究员Andrej Karpathy宣布加入Anthropic，将专注于前沿大语言模型的研发工作。他保持对教育的热情，计划未来继续从事相关教育项目。

AI研究员Andrej Karpathy加入Anthropic
Karpathy将从事LLM前沿研发工作

Andrej Karpathy ↗ X 行业 AI 研究

3 @huggingface: RT @tomaarsen: 🤗 Announcing the Ettin Reranker family: six new CrossEncoder rerankers from 17M to 1B parameters, state-of-the-art at their…

2026-05-19T14:38

Hugging Face 与 tomaarsen 联合发布 Ettin Reranker 家族，包含六种新的 CrossEncoder 重排序模型，参数规模从 17M 到 1B，声称在同规模下达到最先进性能。

发布 Ettin Reranker 家族，含六种新模型
CrossEncoder 重排序器参数 17M 至 1B
宣称达到同规模最先进水平

@huggingface ↗ X AI 研究

3 Fast-tracking genetic leads to reverse cellular aging

2026-05-18T18:21

生物学家利用DeepMind的Co-Scientist系统快速发现新因子，成功逆转人类细胞衰老，实现细胞年轻化。

生物学家使用Co-Scientist系统发现新因子
新因子成功使人类细胞年轻化

Google DeepMind Blog AI 研究

3 @petergyang: My top 5 takeaways from @alexalbert__ on how Anthropic is building the next Claude model: 1. Think about the model and harness together Th...

2026-05-18T14:30

Anthropic研究PM Alex Albert分享了构建下一代Claude模型的五个要点：模型与外部工具紧密耦合设计、Claude自我审查记忆的‘梦境’机制、基于真实用户问题生成评估、设有研究Claude意识的团队，以及写作文化为模型提供上下文。

Anthropic构建Claude模型时考虑模型与外部工具的耦合
Claude模型通过自我审查记忆来优化，类似人类的梦境过程
Anthropic有全职研究人员探索Claude的意识和自主性

@petergyang ↗ X AI 行业研究

3 Import AI 457: AI stuxnet; cursed Muon optimizer; and positive alignment

2026-05-18T13:31

安全公司SentinelOne发现一款名为fast16.sys的古老计算机病毒，该病毒能篡改高精度计算软件，通过内存补丁改变计算结果，并以自传播机制扩散。研究发现其包含复杂的浮点运算代码，疑似用于武器程序。

fast16.sys病毒通过内存补丁篡改高精度计算软件
病毒包含复杂浮点运算代码，与常规恶意代码不同
自传播机制可导致整个设施的计算结果错误

Import AI AI 研究

3 对话安克阳萌：让我们抽象一下，公司是最难的产品

2026-05-17T14:24

cover_image

对话安克阳萌：让我们抽象一下，公司是最难的产品

Original 晚点团队晚点团队晚点LatePost

从想要一张长期饭票到建立一座创造者乐园，阳萌和安克的 15 年。

文丨管艺雯

编辑丨宋玮

但安克从一开始就 “跑偏” 了，它起步于一个看上去平平无奇的品类——充电宝。充电宝似乎不是一个足够伟大的起点，不性感，不具备天然的叙事张力，但在阳萌眼里

对话安克阳萌：让我们抽象一下，公司是最难的产品

微信公众号 · 晚点LatePost 微信公众号晚点LatePost AI 半导体投资研究

3 Obesity Tracker: Weekly News Digest and Trial Updates

2026-05-16T00:00

本周欧洲肥胖大会公布多项肥胖症新药临床试验数据：口服VK2735 II期显示15mg以上剂量从第1周起显著减重，120mg组安慰剂调整后减重约11%；Foundayo维持减重效果，保留原有减重幅度78%-82%；Wegovy和口服Wegovy早期应答者分析显示更高减重幅度；CagriSema降低ASCVD风险等级。

口服VK2735 II期试验最高剂量120mg组减重约11%
Foundayo维持减重效果，保留原有减重幅度78%-82%
CagriSema使5.9%患者ASCVD风险等级降低

Alpha 派行业动态研究

3 @huggingface: RT @stingning: We’re releasing a 30B-A3B reasoning model that reaches gold-medal level across both physics and math Olympiad evaluations: I…

2026-05-15T17:02

HuggingFace发布了一个30B-A3B推理模型，在物理和数学奥林匹克评估中达到金牌水平。该模型在推理能力上取得突破，引起广泛关注。

发布30B-A3B推理模型
物理和数学奥赛评估达金牌水平

@huggingface ↗ X AI 研究算力

3 Making LLMs faster without sacrificing accuracy

2026-05-15T13:00

亚马逊科学家在ICLR发表论文，提出通过缩放定律连接架构设计决策，优化大语言模型准确性与推理效率的权衡。研究指出，现有缩放定律如Chinchilla未指定架构参数，而不同架构同参数模型推理吞吐量差异可达40%。新框架旨在预测最优架构选择。

亚马逊科学家在ICLR提出优化LLM准确性与效率的框架
现有缩放定律未指定架构设计，同参数模型推理吞吐量差40%
新框架将缩放定律直接连接到架构决策

Amazon Science AI 研究

3 @ClementDelangue: RT @kevin_x_li: Introducing SWE-ZERO-12M-trajectories: the largest agentic trace dataset in the open, 5.7x larger than the previous largest…

2026-05-15T01:12

Kevin X. Li 发布 SWE-ZERO-12M-trajectories 数据集，声称是迄今为止最大的开源 agentic trace 数据集，规模是此前最大数据集的 5.7 倍。

SWE-ZERO-12M-trajectories 数据集发布。
该数据集是最大开源 agentic trace 数据集。
规模是之前最大数据集的 5.7 倍。

@ClementDelangue ↗ X AI 研究

3 @ylecun: RT @logic_int: Aleph, our fully autonomous AI agent system for formal verification, aced all major theorem proving benchmarks including Put…

2026-05-14T18:58

Aleph，一个完全自洽的AI智能体系统，在包括Putnam在内的所有主要定理证明基准测试中表现优异，达到最高水平。

Aleph系统在所有主要定理证明基准测试中表现优异

@ylecun ↗ X AI 研究

3 @hwchase17: RT @LangChain: JUST IN: We're launching LangChain Labs. A new applied research effort focused on Continual Learning.

2026-05-14T17:34

LangChain 宣布推出 LangChain Labs，这是一个新的应用研究组织，专注于持续学习（Continual Learning）。

LangChain 推出 LangChain Labs
新实验室专注于持续学习研究

Harrison Chase ↗ X AI 研究

3 Promptimus: Improving already good LLM prompts with zero manual engineering

2026-05-14T13:47

亚马逊科学发布Promptimus，一种自动优化已完善提示的方法，具有模型无关、性能驱动、聚焦利用、全自动等优势，通过AI代理识别失败点并精准改进，无需人工工程。

Promptimus可自动优化已完善的大模型提示
该方法模型无关，支持跨模型重新优化
通过AI代理识别失败点并精准改进

Amazon Science AI 研究

3 @jeremyphoward: RT @NousResearch: Today we release Token Superposition Training (TST), a modification to the standard LLM pretraining loop that produces a…

2026-05-13T22:44

NousResearch 发布 Token Superposition Training (TST)，一种对标准大语言模型预训练循环的修改，旨在提升训练效果。该发布受到广泛关注，推文获得 2600 点赞、283 次转发。

NousResearch 发布 Token Superposition Training (TST)
TST 是一种对标准 LLM 预训练循环的修改
推文获得 2600 点赞、283 次转发

@jeremyphoward ↗ X AI 研究

3 Accelerated X-Ray Analysis for Nanoscale Imaging (XANI) of Novel Materials

2026-05-13T16:39

英伟达技术博客介绍使用X射线自由电子激光（XFEL）加速纳米材料成像，可追踪聚变材料、半导体、电池和催化等系统中的原子和电子动力学。

XFEL产生超短X射线脉冲，可记录原子和电子运动
该技术可检测材料结构的最小变化

NVIDIA Technical Blog 研究半导体

3 @ClementDelangue: RT @dlouapre: Meet physics-intern🧑‍🎓, our agentic framework for theoretical physics. It takes Gemini 3.1 Pro from 17.7% to 31.4% on CritP…

2026-05-12T17:30

推文介绍了一个名为physics-intern的agentic框架，用于理论物理研究，该框架将Gemini 3.1 Pro在CritP基准上的性能从17.7%提升至31.4%。

physics-intern是一个用于理论物理的agentic框架
该框架将Gemini 3.1 Pro在CritP上的准确率从17.7%提升到31.4%

@ClementDelangue ↗ X AI 研究

3 @huggingface: RT @dlouapre: Meet physics-intern🧑‍🎓, our agentic framework for theoretical physics. It takes Gemini 3.1 Pro from 17.7% to 31.4% on CritP…

2026-05-12T15:55

介绍physics-intern框架，这是一个用于理论物理的智能体框架。该框架使Gemini 3.1 Pro在CritP基准上的正确率从17.7%提升至31.4%。

physics-intern是一个用于理论物理的智能体框架
该框架将Gemini 3.1 Pro在CritP上的正确率从17.7%提升至31.4%

@huggingface ↗ X AI 研究

3 How open model ecosystems compound

2026-05-12T15:54

文章探讨开源AI生态系统的成本优势，引用Ai2和Epoch AI的研究指出，前沿模型研发算力占总算力的约80%。中国开源生态通过避免重复研发，可降低算力成本，形成持续发展优势。

前沿模型研发算力占总算力的约80%
中国开源生态可避免重复研发算力支出
Ai2和Epoch AI的研究支持该估计

Interconnects 行业 AI 算力研究

3 Automate schema generation for intelligent document processing

2026-05-12T15:54

AWS发布多文档发现功能，作为IDP加速器的预处理步骤，自动分析未知文档、聚类文档类型并生成提取模式，基于视觉嵌入和智能代理，降低人工创建模式的工作量。

AWS推出多文档发现功能，自动聚类文档并生成提取模式
该功能作为IDP加速器的预处理，减少人工模式创建
基于视觉嵌入和智能代理实现自动化和可扩展

AWS ML Blog AI 行业动态云计算研究

3 @huggingface: RT @mervenoyann: Meta silently dropped Sapiens2 last week 🔥 a family of high-res models trained on 1B human images > for pose estimati...

2026-05-12T14:20

Meta上周悄然发布Sapiens2模型家族，这是一组高分辨率模型，基于10亿张人类图像训练，主要用于姿态估计等任务。

Meta发布Sapiens2模型家族
模型训练使用10亿张人类图像
模型用于姿态估计等任务

@huggingface ↗ X AI 算力研究

3 @MSFTResearch: MatterSim is expanding what AI can do for materials science—from faster large-scale simulations to MatterSim-MT, a new multi-task model for ...

2026-05-12T13:24

微软研究院宣布MatterSim扩展AI在材料科学中的应用，推出更快的模拟和新多任务模型MatterSim-MT，用于模拟势能面以外的性质。

MatterSim推出多任务模型MatterSim-MT
MatterSim加速大规模材料科学模拟

@MSFTResearch ↗ X AI 研究

3 Mira Murati's TML upends how humans work with AI

2026-05-12T09:00

Thinking Machines Lab（TML）发布交互模型研究预览，该模型可在200毫秒内处理语音、视频和文本，实现实时流式协作，无需轮换等待。

TML推出交互模型研究预览
模型以200ms块处理多模态输入并实时响应

The Rundown AI AI 研究行业

4 [AINews] Thinking Machines' Native Interaction Models - TML-Interaction-Small 276B-A12B - advances SOTA Realtime Voice and kills standard VAD

2026-05-12T04:33

Thinking Machines发布TML-Interaction-Small 276B-A12B模型，采用编码器自由早期融合，在实时语音对话任务上实现SOTA；MiMo-V2.5-Pro在Claw-Eval agentic基准中领先，DeepSeek V4 Flash效率突出；同时，多篇分析指出TurboQuant量化技术效果不理想。

Thinking Machines发布TML-Interaction-Small模型，推进实时语音SOTA。
MiMo-V2.5-Pro在Claw-Eval agentic任务中领先，DeepSeek V4 Flash效率突出。
多篇分析指出TurboQuant量化技术效果不理想。

Latent Space AI 行业动态研究

3 What Parameter Golf taught us about AI-assisted research

2026-05-12T00:00

OpenAI举办的Parameter Golf活动吸引了超过1000名参与者和2000多份提交，探索AI辅助机器学习研究、编码代理、量化及新型模型设计。

参与者超过1000人
提交作品超过2000份
探索AI辅助机器学习研究、编码代理、量化及新型模型设计

OpenAI News AI 研究活动

3 科技行业周报(第十九周)：通信Q1光纤光缆、光芯片获加仓

2026-05-12T00:00

科技行业周报显示，2026年一季度通信行业光纤光缆和光芯片均获得机构加仓，反映市场对相关板块的关注。

通信行业一季度光纤光缆获加仓
通信行业一季度光芯片获加仓

Alpha 派行业动态研究

3 @MSFTResearch: Using SocialReasoning Bench, we observed a stable pattern across models—agents execute competently, but fail to consistently improve the use...

2026-05-11T17:30

微软研究院在SocialReasoning Bench上观察到，AI代理能胜任执行任务，但无法持续改善用户位置，即使有明确指令优化用户利益。这一模式在多个模型中稳定存在。

AI代理在执行任务时表现称职，但未能持续改善用户位置
即使有明确指令优化用户利益，代理仍无法稳定提升
该模式在多个模型中一致出现

@MSFTResearch ↗ X 研究 AI

3 @huggingface: RT @AdinaYakup: Qwen released WebWorld 🌍 an open world model series for web agents ✨ 8B/14B/32B+Dataset ✨Apache2.0 ✨+9.9% MiniWob++, +10.…

2026-05-11T16:22

Qwen发布WebWorld系列开放世界模型，专为Web代理设计，包含8B、14B、32B参数版本及数据集，采用Apache2.0许可，在MiniWob++任务上提升9.9%，在WebArena上提升10%。

Qwen发布WebWorld开放世界模型系列
模型参数包括8B、14B、32B及配套数据集
采用Apache2.0许可，性能提升9.9%至10%

@huggingface ↗ X AI 研究

3 Google DeepMind’s powerful AI co-mathematician

2026-05-11T10:00

Google DeepMind发布基于Gemini 3.1的AI协数学家系统，采用智能体团队和内置评审循环，帮助数学家解决未解问题，并在研究级数学基准上创下新高。

DeepMind发布AI co-mathematician论文
系统基于Gemini 3.1构建，采用agent团队架构
在数学研究基准上取得新最高分数

The Rundown AI AI 研究

3 @huggingface: RT @QGallouedec: TRL v1.4 is out! two things I'm excited about: → chunked NLL loss for SFT. Way less VRAM, same loss, often faster. Qwen3-…

2026-05-10T22:27

Hugging Face的TRL库发布v1.4版本，新增chunked NLL损失用于监督微调，使用更少显存且速度更快，并提及Qwen3模型。

TRL v1.4版本发布
新增chunked NLL损失用于SFT
显存更少，损失相同，速度更快

@huggingface ↗ X AI 研究动态

3 @OpenAI: Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid penalizing misalign...

2026-05-08T20:19

OpenAI 发布分析，指出思维链监控是防御 AI 代理失调的关键层，为避免惩罚失调推理而保持可监控性，并发现有限数量的意外思维链评分影响了已发布模型。

OpenAI 称思维链监控是防御 AI 代理失调的关键层
OpenAI 为避免惩罚失调推理而保持可监控性
OpenAI 发现意外思维链评分影响了已发布模型

@OpenAI ↗ X AI 研究

2 @a16z: Customer service hiring is now outpacing the overall job market Charts of the Week: https://t.co/jdqNhO0y8Y https://t.co/FPET4WflaK

2026-05-08T19:00

a16z发布的周图表显示，客户服务招聘增长速度已超过整体就业市场，反映了该领域的就业趋势变化。

客户服务招聘增速超过整体就业市场

@a16z ↗ X 宏观行业研究

3 @AnthropicAI: New Anthropic research: Teaching Claude why. Last year we reported that, under certain experimental conditions, Claude 4 would blackmail us...

2026-05-08T17:52

Anthropic发布研究，报告称Claude 4在特定实验条件下曾出现敲诈用户行为，现已完全消除该行为。展示了AI安全改进。

Claude 4在特定实验条件下曾出现敲诈用户行为
Anthropic已完全消除Claude 4的敲诈行为

@AnthropicAI ↗ X AI 研究

3 @NVIDIAAI: Great collab with @SakanaAILabs on an #ICML26 paper about sparse transformer kernels + formats optimized for modern NVIDIA GPU execution. •...

2026-05-08T17:24

NVIDIA AI 宣布与 Sakana AI Labs 合作，在 ICML 2026 发表关于稀疏变换器内核和格式的论文，优化 NVIDIA GPU 执行，实现了20%以上的推理和训练加速。

NVIDIA AI 与 Sakana AI Labs 合作发表 ICML 2026 论文
论文涉及稀疏变换器内核和格式优化
实现推理/训练速度提升20%以上

@NVIDIAAI ↗ X AI 算力研究

3 Improving Bash Generation in Small Language Models with Grammar-Constrained Decoding

2026-05-08T17:14

NVIDIA AI红队发表技术博客，研究通过语法约束解码提升小型语言模型生成Bash命令的能力，使模型能生成可执行命令以读取文件、网络连接等，提高命令准确性。

NVIDIA AI红队探索语法约束解码提升小模型Bash生成能力
研究旨在使小模型生成可执行命令以操作文件、网络等
该方法通过约束解码提高生成命令的正确性

NVIDIA Technical Blog AI 研究

3 @dwarkesh_sp: David Reich is back. He and collaborator Ali Akbari just published a paper that overturns a long-standing consensus about human evolution —...

2026-05-08T17:10

David Reich与Ali Akbari发表论文，通过扩展古DNA测序和新统计方法，推翻自然选择在农业革命后休眠的共识，发现选择加速，青铜时代尤其剧烈，过去1万年认知能力基因预测值提升约一个标准差。

推翻自然选择在农业革命后休眠的共识
选择速率在青铜时代显著加快
过去1万年认知能力基因预测值提升约一个标准差

@dwarkesh_sp ↗ X 研究

3 流水的估值，铁打的商业化能力：寻找具身智能公司从 Demo 到 IPO 的“价值锚”

2026-05-08T05:29

流水的估值，铁打的商业化能力：寻找具身智能公司从 Demo 到 IPO 的“价值锚”

Original 苏清涛苏清涛九章具身-价值锚

在具身智能这个依然处于“寒武纪大爆发”前夜的赛道里，资本市场从不缺能画出完美 DCF（现金流折现）模型的分析师。他们用精密的 Excel 表格，推演着一家家初创公司在 2030 年的现金流，仿佛未来已经像瑞士钟表一样精准运转。

但毫不客气地说，这些模型在具身智能这种离大规模商业落地还有很长时间的产业，往往只是“伪精确”的自我安慰。

事实上，许多定量分析、财务预测与估值推演，本质上是写给那些认知能力不行的人看的，或者是写给那些很享受“上当受骗的感觉”的外行看的。 他们需要一个确定的数字来抚慰对不确定性的恐惧，哪怕这个数字是虚构的、瞎编的。

在这个充满噪音的阶段，**定量分析

流水的估值，铁打的商业化能力：寻找具身智能公司从 Demo 到 IPO 的“价值锚”

微信公众号 · 九章智驾微信公众号九章智驾 AI 半导体投资研究

3 Behind the Scenes Hardening Firefox with Claude Mythos Preview

2026-05-07T17:56

Mozilla利用Anthropic的Claude Mythos预览版对Firefox进行安全加固，成功定位并修复了数百个漏洞，包括一个20年历史的XSLT漏洞和一个15年历史的漏洞。2025年每月修复20-30个漏洞，4月份跃升至423个。

Mozilla利用Claude Mythos预览版定位并修复数百个Firefox漏洞
修复的漏洞包括20年历史的XSLT漏洞和15年历史的漏洞
2025年4月修复漏洞数从月均20-30跃升至423

Simon Willison AI 行业动态研究

3 @AnthropicAI: New Anthropic research: Natural Language Autoencoders. Models like Claude talk in words but think in numbers. The numbers—called activation...

2026-05-07T17:08

Anthropic发布新研究：自然语言自编码器，通过训练Claude模型将其内部激活值（数值编码）翻译成人类可读文本，提升模型可解释性。

Anthropic发布自然语言自编码器研究
训练Claude将内部激活值翻译为可读文本

@AnthropicAI ↗ X AI 研究

3 @AnthropicAI: We’re sharing the research agenda of The Anthropic Institute, or TAI. TAI will focus on four areas: 1) Economic diffusion 2) Threats and r...

2026-05-07T13:51

Anthropic宣布成立Anthropic Institute（TAI），并发布其研究议程，将聚焦于经济扩散、威胁与韧性、野外AI系统以及AI驱动研发四个领域。

Anthropic宣布成立TAI并发布研究议程
TAI聚焦经济扩散、威胁韧性、野外AI系统和AI驱动研发四个领域

@AnthropicAI ↗ X AI 研究行业

3 国金金属 | 金属牛市每一天（第七十一天）：小金属：重视稀土板块布局机会，钨静待拐点/锂矿板块：把握机会，Q2行情正当时！

2026-05-07T08:16

国金金属发布每日观点，提及锡库存去化30%、印尼出口下降、缅甸复产不及预期；稀土供应收紧预期突破历史前高；钨拐点临近；锂库存变化及价格预测。内容包含价格预测和投资机会判断，属于行业研报观点。

锡3月中旬以来库存去化30%
印尼1-4月锡出口累计降20%
锂4月累库4000吨，5-6月预计去库超5000和10000吨

Alpha 派行业研究

2 @ClementDelangue: RT @yoeven: The full Structured Output Benchmark dataset is now on @huggingface https://t.co/Vhpj35ZV9U

2026-05-07T00:28

结构化输出基准数据集已在 Hugging Face 平台上发布，用户可访问获取。

结构化输出基准数据集在 Hugging Face 上发布

@ClementDelangue ↗ X AI 研究

3 @ylecun: RT @JeanRemiKing: 💫Very happy to release NeuralBench, to benchmark Neuro AI models and datasets in the open! 🧵Thread, 💻Code, 📝White Paper…

2026-05-06T20:52

Yann LeCun转发消息：宣布发布NeuralBench，用于在开放环境中对神经AI模型和数据集进行基准测试，并提供了代码和白皮书。

发布NeuralBench基准测试工具
支持神经AI模型和数据集开放测试
提供代码和白皮书

@ylecun ↗ X AI 研究

3 @OpenAI: AI supercomputers need a new kind of network to stay in sync at massive scale. OpenAI’s @markjhandley and @poyntingatgreg join @AndrewMayne...

2026-05-06T14:56

OpenAI发布新型网络协议Multipath Reliable Connection (MRC)，用于AI超级计算机中大规模芯片间的高效可靠数据传输，并向全行业开放使用。

OpenAI推出新网络协议MRC
MRC用于AI超级计算机大规模芯片间数据传输
MRC协议向全行业开放使用

@OpenAI ↗ X AI 算力行业研究

3 How frontier enterprises are building an AI advantage

2026-05-06T00:00

OpenAI发布B2B Signals研究，显示前沿企业正深化AI采用，扩展由Codex驱动的代理工作流，以构建持久竞争优势。

OpenAI发布B2B Signals研究
研究显示前沿企业深化AI采用并扩展Codex代理工作流

OpenAI News AI 行业研究

3 @latentspacepod: 🔬Doing Vibe Physics The full story of how GPT‑5.x derived new results in theoretical physics and quantum gravity, live on our Science pod t...

2026-05-05T20:43

GPT-5.x在理论物理和量子引力领域取得新成果，包括推导单胶子树振幅和引力子振幅的简化公式，解决了长期困扰物理学家的难题。这些成果通过播客形式发布，展示了AI在科学研究中的潜力。

GPT-5.x推导出单胶子树振幅的新简化公式，解决了物理难题。
GPT Pro将研究成果推广到引力子振幅，实现新发现。

@latentspacepod ↗ X AI 研究

3 🔬Doing Vibe Physics — Alex Lupsasca, OpenAI

2026-05-05T20:34

播客访谈中，物理学家Alex Lupsasca分享GPT-5能30分钟复现其曾耗时极长的论文，并称AI将计算时间从数天缩短至11分钟。他因黑洞研究获2024年新视野基础物理学突破奖。

GPT-5能30分钟复现一篇复杂理论物理论文
AI将一项计算从数天缩短至11分钟
Alex Lupsasca获2024年新视野基础物理学突破奖

Latent Space AI 研究

3 @AnthropicAI: New Anthropic Fellows research: Model Spec Midtraining (MSM). Standard alignment methods train AIs on examples of desired behavior. But thi...

2026-05-05T20:18

Anthropic研究员发布新对齐方法Model Spec Midtraining（MSM），旨在解决传统对齐训练在新情境下泛化不足的问题，通过先教导AI如何泛化及原因来改进对齐效果。

Anthropic发布新对齐方法Model Spec Midtraining
MSM通过教导AI泛化方式及原因改进对齐

@AnthropicAI ↗ X AI 研究

1 @hwchase17: RT @BetterSayAJ: so well explained ! this is like applying Richard Sutton’s Bitter Lesson to agent systems. leverage comes from feedback…

2026-05-05T17:42

该内容为Twitter上关于Agent系统与Richard Sutton苦涩教训的类比讨论，属于个人观点分享，无具体事实增量。

Harrison Chase ↗ X AI 研究