llama.cpp/ggml 宣布推出全新 WebGPU 后端,支持浏览器端运行大模型,提升推理性能。该项目已开始全面集成 WebGPU 支持。
Microsoft Azure 宣布 Azure NetApp Files 在 EDA 工作负载中取得性能突破,通过新独立基准测试证实其可提供可预测的高性能共享存储,支持大规模并发,并已获得领先半导体公司采用,推动芯片设计上云。
AI推理工作负载正推动数据中心从郊区回迁至城市区域。Mathpix在布鲁克林部署GPU,表明生产型AI需求驱动城市托管基础设施增长。
HSCALE在意大利米兰获得250MW电力容量,承诺超过20亿欧元用于两个园区的超大规模数据中心建设,计划于2028年前交付。
东方公用事业报告指出,算电协同为早期政策支持的产业。一季度实际弃风弃光率超10%,2025年数据中心用电量近2000亿度,其中AIDC占25%-30%。预计2030年智算用电量中性达5000-6000亿度。
AI半导体内存墙问题催生新方案:GPU与HBM解耦,通过光学互连远距离安装更多HBM。国内大型内存厂商研究人员于5月22日透露正与客户讨论该方案,以突破HBM带宽和容量扩展瓶颈,同时HBM堆叠超过16层面临物理极限。
推文指出LLM训练依赖快速矩阵乘法,但许多周围操作仍受内存限制。CODA方法对这些内核进行重新参数化优化。
作者指出AI从廉价聊天工具转向高成本AI代理,上下文窗口更大,推理成本高一个数量级。AI能力持续提升,高端用例继续使用前沿模型,低端任务转向低成本模型。成本分层扩大,企业需管理AI成本。
英伟达CEO黄仁勋与戴尔CEO迈克尔·戴尔共同发布戴尔AI工厂重大更新,该全栈平台支持从桌面工作站到大规模数据中心机架,运行英伟达Vera Rubin芯片,旨在推动企业自主AI代理的发展。
AMD加速推出下一代Helios机架级AI平台,计划2026年下半年开始量产部署;台湾ODM厂商(纬创、纬颖、英业达)已开始量产准备,预计2026年Q2末至Q3开始出货;前五大北美云商大幅增加机架式AI服务器采购,AMD成为供应链多元化关键;微软积极采用AMD作为第二AI加速平台。
高通(Qualcomm)向字节跳动(ByteDance)和亚马逊(Amazon)提供ASIC(专用集成电路)服务,表明其拓展定制芯片业务。
Gavin Baker发推表示高兴得知Starcloud将使用SpaceX进行发射,并称星载H100已在太空中用于训练和推理。
Daytona发布Agent-Native Compute产品,宣称60ms沙箱启动,75秒内注册5万初创公司,日运行850万次,支持RL/评估,CLI优于MCP。
Lambda API与Hudson River Trading达成合作,将利用NVIDIA HGX B200系统为量化研究提供算力支持,该系统据称具备高计算能效和低令牌成本。
EDA行业三大巨头Synopsys、Cadence和Siemens EDA合计市场份额超85%,2025年总收入约160亿美元。EDA行业以13% CAGR增长,超过半导体研发支出的7%增速,研发强度正从销售额的6%升至9%。
Daytona发布Agent-Native Compute服务,沙箱启动仅60ms,75秒内可启动5万个初创环境,日运行85万次。CEO解释AI代理需要可组合计算机,RL工作负载占比从0%增至约50%。
NVIDIA发布技术博客,介绍使用Slurm拓扑感知作业调度,以充分发挥GB200 NVL72机架的Exascale计算性能,支持实时万亿参数模型。
AWS 发布技术方案,通过 Amazon Bedrock AgentCore Runtime 集成 MCP 服务器,使 Amazon Quick 能够将自然语言查询转换为 AWS CLI 命令,无需切换工具,并保留 IAM 权限和 CloudWatch 审计。
本文介绍了使用Amazon Bedrock AgentCore Code Interpreter和Strands Agents SDK实现递归语言模型(RLM)的方法,以突破上下文窗口限制,处理任意长度的文档,通过子LLM调用分析特定文档段落。
OPLOG使用Amazon Bedrock AgentCore构建AI代理驱动的商业智能系统,整合Hubspot CRM等数据源,实现销售周期缩短35%、CRM数据完整性提升91%、手动研究时间减少98%。系统结合Anthropic Cloude Sonnet和Amazon Bedrock Knowledge Bases。
AWS发布博客介绍结合Amazon Bedrock AgentCore、Strands Agents和Amazon Quick的AI驱动仪表板自动化代理解决方案,采用多智能体架构,可实现自然语言驱动的仪表板修改,减少传统IT流程的等待时间。
全球电信公司正基于NVIDIA Cloud Partner参考架构建设主权AI工厂,为政府、企业和初创公司提供国内AI基础设施,并探讨如何构建按token计费的生产级企业AI服务。
美国政府将CHIPS法案产业政策扩展至量子计算领域,通过支持IBM和D-Wave的交易,推动量子制造和计算发展。
据The Information报道,Anthropic正与微软谈判租用其自研AI芯片Maia的服务器,以应对AI需求增长。微软已向Anthropic提供额外Nvidia服务器资源并建设新集群,同时通过Maia 200芯片降低Copilot工具成本,该工具使用Claude模型已产生至少5亿美元支出。
SpaceX提交IPO文件,将其重新定义为垂直整合的AI基础设施平台,覆盖计算、网络、能源和轨道系统。
据传闻,由于内存价格上涨导致BOM占比过高,英伟达正进行系统级优化,内部讨论在部分Vera Rubin配置中减少系统DDR内存(可能指LPDDR),HBM容量不变。
OpenAI的通用推理模型(推测为GPT5.6)在32小时内以低于1000美元的成本,解决了1946年提出的Erdős平面单位距离问题,发现了新的构造族。该结果得到数学家Timothy Gowers肯定,被认为是AI解决著名开放数学问题的首个明确例子。
Google为开源生产Kubernetes分布式推理工具llm-d添加了夜间CI。TPU在llm-d的CI和代码质量上正在追赶NVIDIA。AMD尚未将其GPU或NIC加入该CI。
韩国5月1-20日DRAM出口数据:出口额115.27亿美元,同比增长498%,环比增长27%;出口单价60319美元/千克,同比上涨432%,较4月20日上涨5%。
英伟达在电话会议中预计,其独立Vera CPU市场在2027财年将达到200亿美元。Vera作为Grace的继任者,针对AI代理工作负载优化,预计售价更高。
亚马逊SageMaker AI推出OpenAI兼容API支持,实时推理端点新增/openai/v1路径,接受Chat Completions请求并支持流式响应。用户无需自定义客户端或SigV4包装,只需更改端点URL即可使用OpenAI SDK、LangChain等调用模型。同时支持为端点创建限时bearer令牌,简化认证。此举降低了AI工作负载在SageMaker上部署和调用的复杂性。
xAI 表示 Colossus 1/2 数据中心有重大扩展计划,计划部署超过 100 万 GPU,容量将远超 1.2GW。
hwchase17发布轻量级代码执行环境code interpreter,支持RLMs和程序化工具调用,无需完整沙箱。
xAI与Anthropic达成计算资源销售协议,Anthropic每月将向xAI支付12.5亿美元以获得计算服务。该协议是两家AI公司之间的大规模商业合作,具体金额首次公开。
英伟达AI超大规模客户营收在四月季度同比增长191%(不含中国),博通预计下一季度AI业务同比增长143%。
亚马逊云科技宣布自2025年11月起,Amazon SageMaker AI支持双向流式推理,结合vLLM的Realtime API实现WebSocket双向流,用于构建实时语音转文本服务。文章展示了部署Mistral AI的Voxtral-Mini-4B-Realtime-2602模型至SageMaker端点,支持语音代理、实时字幕等应用。
llama.cpp 发布 b9235 版本,新增推理加速功能,并在 RTX 5090 上对 Qwen3.6 27B 模型进行了基准测试,展示了性能提升。
ASML 将从2027年底起限制 DRAM 产能扩张,重点是转向 EUV 工具,这将导致存储厂商与台积电、英特尔竞争。
文章指出可持续采购正重塑数据中心能源格局,超大规模数据中心将长期电力采购与电网脱碳、成本稳定和基础设施相结合,推动行业绿色转型。
FAST-41法案适用范围扩大,现在涵盖AI数据中心、关键矿产和输电,形成单一联邦许可框架。
Jabil在JP Morgan炉边谈话中确认,与Sivers合作的1.6T LRO光收发器量产时间提前,未来1-4个月进入认证,认证周期2-6个月。该产品功耗约11千瓦,远低于现有1.6T方案,形成显著竞争壁垒。需求极度旺盛,供应不足,任何生产的产品都将被市场采购,收入实现窗口预计在2026年底至2027年初。
OpenAI宣布向Y Combinator当前批次的每家初创公司提供200万美元API积分,用于支持下一代AI应用的计算需求。
Google在I/O 2026发布Gemini 3.5 Flash,月处理token量达3.2万亿同比增长7倍,Gemini应用月活超9亿覆盖230+国家。同时展示Gemini Live语音、Omni视频等模态及Antigravity代理栈。
在Google I/O大会上,NVIDIA和Google Cloud宣布联合开发者社区在一年内突破10万名开发者。社区成员已构建RAG应用、多智能体管道等。今年新增JAX学习路径、NVIDIA Dynamo优化codelab和月度开发者直播。此外,NVIDIA与Google DeepMind合作,使用SynthID为NVIDIA Cosmos模型输出添加水印。
谷歌Q1云业务同比增长63%,积压订单达4620亿美元,环比增90%;今年TPU出货指引400-480万颗,明年1500万颗,后年3000万颗,产业链预计明年增长3倍;Anthropic年化收入4月初300亿美元,预期5月底达500亿美元;谷歌I/O大会将发布新Gemini模型、安卓17等,利好TPU、OCS、液冷产业链。
NVIDIA发布Nemotron-Labs-Diffusion系列扩散语言模型,参数规模3B至14B,支持并行生成多个token并在生成过程中进行修订,提升推理速度,还包括视觉语言变体。
gdb在推特宣布,提供折扣token和容量保证以换取1-3年承诺,并预期未来模型持续进步将导致容量日益紧张。
伯克希尔哈撒韦于2025年Q3首次投资谷歌,并在2026年Q1加仓。巴菲特引用对TPU v5p架构的理解,表示其类似于铁路系统。
OpenAI CEO Sam Altman在推特表示,客户对算力确定性需求增加,随着模型进步,全球算力将长期供不应求。公司推出1-3年承诺的折扣令牌,以帮助规划并实现双赢。
NVIDIA宣布与Blue Yonder合作,致力于为全球供应链带来可扩展的AI创新。双方未披露具体合作细节。