SemiAnalysis研究指出,在ERCOT地区,AI运营商的数据中心互连请求与电网实际核准能力之间存在巨大差距,反映了电力危机中供需不匹配。
SemiAnalysis发推称,在Cerebras上运行深度编码模型需24个系统(2400万美元资本支出)仅支持256并发用户,而同等资金下标准GB300机架能提供更多内存带宽。
SemiAnalysis发布深度报告,预计到2030年800VDC供电技术将推动约39GW的新增数据中心容量,并分析了该技术的渗透率、市场机会及挑战。
据SemiAnalysis统计,AI agent使用中63%的会话不使用子代理,25.9%使用1-5个并发子代理,9.8%使用5个以上并行子代理。并行子代理可在不增加HBM带宽需求的情况下加速任务完成。
Semianalysis发布LLM推理延迟分析:端到端延迟中prefill占48%,decode占52%;prefill又分为prefill extend(缓写入)和cache read(缓存读取)。
据SemiAnalysis观点,Meta将70%的新毕业软件工程师重新分配至强化学习任务,体现公司对RL方向的资源倾斜。
SemiAnalysis指出,现场天然气已不再是边缘选择,而是悄然成为美国下一代AI训练集群的默认规划假设。
据分析,现代代理编码中42%的时间用于CPU进行工具使用。传统云计算按CPU核心收费,而代理经济按token收费,为增加token收入,需增加CPU算力。
摩根士丹利发布NVL72 BoM分析,指出内存价值不含HBM;Nvidia对内存加价;PCB因无缆设计面积和材料升级;BoM价格为OEM渠道价格,超大规模云和Neocloud成本更低。
SemiAnalysis分析了43.2万个真实编码代理请求,发现中位数输入令牌数为9.6万,超过《了不起的盖茨比》全文,表明代理工作负载正在改变推理经济学。
Google为开源生产Kubernetes分布式推理工具llm-d添加了夜间CI。TPU在llm-d的CI和代码质量上正在追赶NVIDIA。AMD尚未将其GPU或NIC加入该CI。
伯克希尔哈撒韦于2025年Q3首次投资谷歌,并在2026年Q1加仓。巴菲特引用对TPU v5p架构的理解,表示其类似于铁路系统。
黄仁勋在斯坦福大学演讲中表示,他希望始终维持低模型浮点利用率(MFU),通过过度配置算力、网络和内存等资源来实现更高智能,并暗示xAI可能遵循此策略。
AMD首次向英伟达开源项目AIPerf贡献代码,该仓库专注于LLM工作负载基准测试。此贡献被视为开源社区的重要进展,有望推动厂商无关的高质量代码发展。
谷歌在Google Cloud Next大会上发布新型推理专用TPU,采用名为Broadfly的新型网络拓扑。利用高基数设计,单pod最多可扩展到1152个TPU,相比Ironwood,pod大小提升4.5倍,网络直径减小,任意两个芯片间最多7跳。
一篇推文介绍通过组合多个B200 8-GPU机器,使用RoCEv2 CX-7以太网和Tomahawk交换机,并应用PD分解推理优化,使每GPU token吞吐量提升高达7倍,每百万token成本降低7倍。
AMD ROCm软件栈在DeepSeekv4发布后14天内性能提升超75倍,通过融合mHC操作和RoPE Hadamard变换降低CPU开销并提高HBM利用率。此外,使用TileLang和Triton编写注意力索引器和KVCache压缩器以加快开发速度。未来目标:再提升5倍以匹敌单节点B200,再提升1.5倍以匹敌PD分离式B200。
SGL Project和Radixark团队优化了DeepSeek V4在B200和B300上的推理性能,并在GB300上实现了4倍交互吞吐量提升。
数据中心开发商越来越多地在县级非建制土地上规划项目,这并非偶然。在城市范围外,他们可以绕过市议会批准、分区投票和土地使用审查,从而重塑大型AI基础设施的布局地图。
vLLM项目维护者正在优化DeepSeekv4的首日性能,并在周末合并了初始模型支持PR,强调速度是关键优势。
SemiAnalysis发布推文称,Anthropic在一个周三增加了200MW电力容量。该信息暗示Anthropic正在扩张算力基础设施,但未披露具体项目细节。
AMD MI355x在SGLang上运行DeepSeekv4 Pro,自发布以来每GPU吞吐量提升超过10倍。
据推特消息,GB300 ultra NVL72在vllm推理引擎上比GB200 NVL72快2.7倍。虽然理论性能提升仅1.5倍,但通过全栈优化实现了更高实际性能。该临时样机由英伟达、Inferact和CoreWeave提供用于开源项目。
SemiAnalysis指出常见误解:TPU v8i并非训练芯片,而是推理芯片。v8i配备8组HBM3E 12-Hi显存,共288GB,带宽8.6 TB/s,而v8t为6组216GB、6.5 TB/s。v8i有384MB片上SRAM,v8t为128MB。FP4算力上,v8i为10.1 PFLOPs,v8t为12.6 PFLOPs。
ABB电气化部门订单在2025年出现季节性模式逆转,Q4环比增长17%,2026年Q1订单创纪录超60亿美元,归因于数据中心需求,预示数据中心工业链积极前景。
原文指出在AI时代,IT机架变得更复杂,需要GPU/ASIC、液冷、高速连接等多系统协同,ODM从单纯的制造角色演变为设计、集成和量产合作伙伴,以支持多种平台和数据中心建设。
半导体分析机构SemiAnalysis指出,硅晶圆平均售价正在回升。外延片供应紧张,先进逻辑(7nm及以下)晶圆需求预计在2028年达到近100万片/月,占300mm当量总需求的10%。GlobalWafers、SUMCO、信越化学和Siltronics等主要晶圆制造商有望受益于AI基础设施周期。
AWS在定制AI芯片Trainium和Inferentia上取得进展,团队正在全球最大云基础设施中扩展部署这些处理器。
在DeepSeekv4 Pro 1.6T模型上,GB300 NVL72搭配SGLang disaggregation和DeepSeek MegaMoe kernels,性能比B200提升6.5倍。该成果由Radix Ark、LMSYS Org、NVIDIA AI、CoreWeave等团队协作实现。
DeepSeek v4 Pro发布不到一周,vllm_project和inferact团队通过vLLM 0.20.0版本中的MegaMoE内核,在GB200平台上实现了显著性能改进。