SemiAnalysis发布推文称,Anthropic在一个周三增加了200MW电力容量。该信息暗示Anthropic正在扩张算力基础设施,但未披露具体项目细节。
一位用户在推文上发布了一项新的子二次注意力技术,声称可使长上下文大语言模型成本降低10倍且不牺牲性能,并附有链接。该技术可能影响AI模型的效率。
AI从训练向推理演进,CPU/GPU配比变化,未来70%-80%算力将消耗在CPU上。AMD预测2030年AI CPU市场规模超1200亿美元,服务器CPU已涨价10%-20%。英特尔AI营收占比达60%,同比增长40%。国内海光等CPU厂商及配套公司将受益。
豆包推出三档付费增值服务,海外Anthropic 2026年5月ARR达440亿美元,OpenAI预计2030年AI广告营收1020亿美元。年初至今算力租赁价涨40%,相关上市公司一季度净利增近5倍,回本周期缩至2年,净利率超20%。超节点可提升算力效率,交换芯片配比提升5-6倍,国产化进度更快。
Anthropic CEO Dario Amodei表示,今年早些时候公司使用量和收入增长了80倍,因此将继续尽可能多地获取算力。
SEMI与TechInsights联合发布2026年Q1半导体制造监测报告,显著上调2026年电子、IC销售和半导体资本支出展望。AI芯片在半导体组合中份额持续增长,得益于超大规模资本支出和AI基础设施投资周期。晶圆厂利用率改善,但增长由高价值器件和工艺复杂度驱动,而非晶圆产能扩张,先进封装和测试成为有效产出瓶颈。
ZyphraAI发布推理MoE模型ZAYA1-8B,训练于AMD平台,活跃参数小于1B,优化智能密度。
NVIDIA与Unsloth合作,通过开源贡献使LLM训练速度提升约25%,并发布指南以降低训练门槛。
UnslothAI与NVIDIA合作发布了一项技术,通过3种优化方法使LLM训练速度提升约25%,并分享了实现细节。
英伟达宣布与SpaceX和AnthropicAI达成新的计算合作伙伴关系,将提供超过22万块英伟达GPU,部署在Colossus 1超级计算机上。
Anthropic宣布与SpaceX达成合作伙伴关系,将大幅增加其计算能力。该合作将支持其AI模型的训练和推理需求。
NVIDIA AI宣布推出TokenSpeed推理引擎,专为高速智能体工作负载设计。该引擎具备高级KV缓存管理、安全高效调度器、可插拔分层内核系统,支持多芯片,并在NVIDIA Blackwell上实现最快的MLA注意力内核。
谷歌发布并部署了新的开源网络协议MRC,专为大型AI训练集群设计,旨在提高多路径可靠连接性能,已在谷歌最大训练集群上生产部署。
该公司自研推理引擎ROSE,用于处理从嵌入到万亿参数MoE的生产及API流量。ROSE集成了CuTeDSL,以加速内核部署并在Hoppers和Blackwells GPU上实现峰值性能。
Perplexity AI宣布自研推理引擎ROSE,用于服务从嵌入模型到各种规模的模型,提升运行时优化。
OpenAI发布新型网络协议Multipath Reliable Connection (MRC),用于AI超级计算机中大规模芯片间的高效可靠数据传输,并向全行业开放使用。
OpenAI与AMD、博通、英特尔、微软、英伟达合作发布新型开放网络协议MRC,旨在提升大型AI训练集群的速度和可靠性,减少GPU时间浪费。该协议通过多路径可靠连接优化网络性能,影响AI计算基础设施。
OpenAI推出了新的MRC网络协议,旨在解决大规模AI集群中的网络拥塞和故障挑战。当前超大规模云商正将GPU集群扩展到数十万张,该协议旨在提升通信效率和可靠性。
OpenAI推出新的Multipath Reliable Connection(MRC)网络协议,旨在减少大型AI集群中的拥塞和故障相关减速,支持超大规模扩展至数十万GPU,以应对日益增长的算力需求。
AMD MI355x在SGLang上运行DeepSeekv4 Pro,自发布以来每GPU吞吐量提升超过10倍。
海外AI四巨头最新财报均超预期,谷歌云营收同比增63%创历史新高,微软AI年化收入达370亿美元,AWS营收同比增28%,Meta营收同比增33%。谷歌、微软、Meta上调资本开支,亚马逊2026年资本开支指引达2000亿美元,均重点投向AI算力。
GBrain v0.27.1版本发布,新增支持多模态图像嵌入功能。
vLLM项目宣布即日起支持Gemma4的MTP(多令牌预测),提供即用Docker镜像,解码速度可提升至3倍。
海外AI巨头资本开支上修至近7000亿美金,微软AI年化收入超370亿美金,亚马逊AI收入超150亿美金;存储AI需求年复合增速超50%,CPU与GPU配比将达1:1。
Gemma 4 通过 MTP drafters 实现投机解码,速度提升高达 3 倍 tokens/sec。
AWS宣布在AgentCore Browser中推出OS级别操作功能,使AI代理能够与操作系统原生UI交互,如系统打印对话框、键盘快捷键、右键菜单等,解决了之前CDP和Playwright无法操作OS渲染内容的限制,适用于生产环境中复杂的浏览器自动化场景。
Lattice半导体与SEALSQ公司合作,推出基于TPM的FPGA架构,用于边缘硬件信任,集成安全启动、认证和后量子密码学。
NVIDIA AI发文称,运行规模化agentic工作负载对token消耗、上下文长度和延迟要求极高。Vera Rubin平台通过极致协同设计,针对此类复杂工作负载,可在万亿参数MoE模型上实现每用户每秒400+ tokens。
NVIDIA技术博客指出生成式AI正从人类请求-模型响应模式转向代理系统。代理系统不遵循预定序列,而是调用工具、生成子代理、管理记忆和上下文窗口,并自主决定完成时机。文章介绍了应对这种复杂性的极简协同设计方法。
Meta押注太空太阳能,凸显AI数据中心电力需求与电网扩张之间的差距。新的能源合作伙伴关系表明,近期数据中心电力需求增长快于电网基础设施的扩展速度。
OpenAI通过OCP发布了名为MRC(多路径可靠连接)的新型超级计算机网络协议,旨在提升大规模AI训练集群的韧性和性能。
Legrand 被选中为葡萄牙 Start Campus 的 1.2GW Sines 数据中心部署先进冷却方案,以支持高密度 AI 工作负载的机架级高效冷却。
Peter Thiel领投初创公司Panthalassa 1.4亿美元B轮融资,该公司建造自主漂浮计算结构,利用波浪能供电和海水冷却,用于AI数据中心。每个85米钢制节点可在公海自主航行,估值近10亿美元。
ClementDelangue转发Gabriel的推文,称本地AI语音模型在苹果M4 Max笔记本上运行速度比M2 Max快4倍,显示了Apple Silicon的迭代性能提升。
IBM发布Granite 4.1系列LLM,包括3B、8B和30B三种尺寸,采用Apache 2.0开源许可。Unsloth提供了21个GGUF量化变体,文件大小从1.2GB到6.34GB,总计51.3GB。文章还提及该系列的训练过程详情。
NVIDIA内部使用基于cuOpt的智能工作流优化供应链,该工具已开源,支持多智能体编排和GPU加速求解器,可在几分钟内完成优化,并提供预配置GPU环境供开发者试用。
据推特消息,GB300 ultra NVL72在vllm推理引擎上比GB200 NVL72快2.7倍。虽然理论性能提升仅1.5倍,但通过全栈优化实现了更高实际性能。该临时样机由英伟达、Inferact和CoreWeave提供用于开源项目。
NVIDIA Megatron Core 新增对 Muon、MOP 和 REKLS 等优化器的支持,旨在提升 GB300 GPU 和 NVL72 系统上训练 Kimi K2、Qwen3 30B 等大模型的效率。
英伟达发布cuOpt Agent Skills,用于优化供应链决策系统,能够加速将业务问题转化为数学模型,应对需求波动和成本压力。
Vercel 创始人宣布开源一个用于深度安全审查的智能体编排工具 deepspec。该工具内部使用后,已在多个大型开源项目中发现关键漏洞。它针对 Vercel Sandbox 优化,可并行调度数千个智能体扫描代码库,将数月的工作缩短至几分钟。作者邀请用户尝试,并为开源项目提供赞助支持。
Amazon SageMaker AI推出智能体引导的模型定制工作流程,用户通过自然语言描述用例,AI编码助手自动完成数据准备、技术选择、微调、评估和部署,支持SFT、DPO、RLVR等技术,并生成可编辑的代码工件。
SemiAnalysis指出常见误解:TPU v8i并非训练芯片,而是推理芯片。v8i配备8组HBM3E 12-Hi显存,共288GB,带宽8.6 TB/s,而v8t为6组216GB、6.5 TB/s。v8i有384MB片上SRAM,v8t为128MB。FP4算力上,v8i为10.1 PFLOPs,v8t为12.6 PFLOPs。
AWS宣布SageMaker AI推理端点支持容量感知实例池,允许用户定义优先级实例类型列表,在创建、扩展时自动fallback到可用实例,无需手动干预,适用于多种端点类型。
AI数据中心热潮正在重塑美国电力供应链。电力设备需求增长推动供应增长,超大规模数据中心建设加速,但基础设施挑战持续存在。
Expanse 推出新平台,利用空闲 GPU 容量,支持云和本地 HPC 环境,提供作业提交、优化和调试功能。
本周财报显示谷歌、微软、亚马逊云均提高资本开支,云收入加速增长:GCP增长63%,Azure增长39%,AWS预计下季度加速。DeepSeek V4推动KV缓存从DRAM/HBM大规模迁移至SSD,成为NAND需求的结构性拐点。
OpenAI重构了其WebRTC技术栈,以支持低延迟、全球规模的实时语音AI,并实现无缝的对话轮换。
聚丙烯管道系统正被应用于高密度数据中心环境,旨在提升冷却系统运行效率并促进废热回收利用。相关企业aquatherm已推出针对性管道解决方案,以满足数据中心日益增长的散热与温控需求。该技术路径有助于优化数据中心整体能耗管理。
ABB电气化部门订单在2025年出现季节性模式逆转,Q4环比增长17%,2026年Q1订单创纪录超60亿美元,归因于数据中心需求,预示数据中心工业链积极前景。
英伟达股价在云厂商财报强化AI投入背景下逆势下跌,市场交易逻辑转向远期竞争格局,谷歌TPU、亚马逊自研芯片等替代叙事增强,资金流向AMD、博通等。