清除 当前 43 条 / 共 3547 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 18 小时前 微信公众号 · 42章经 · 4 天 12 小时前 微信公众号 · DeepTech深科技 · 4 天 12 小时前 微信公众号 · Founder Park · 4 天 12 小时前 微信公众号 · FundaAI · 4 天 12 小时前 微信公众号 · 九章智驾 · 4 天 12 小时前 微信公众号 · 晚点LatePost · 4 天 12 小时前 微信公众号 · 琢磨事 · 4 天 12 小时前 微信公众号 · 甲子光年 · 4 天 12 小时前

SemiAnalysis研究指出,在ERCOT地区,AI运营商的数据中心互连请求与电网实际核准能力之间存在巨大差距,反映了电力危机中供需不匹配。

  • 在ERCOT,数据中心互连请求与电网承保意愿存在差距
  • 该差距揭示了AI运营商建设计划与电网审批能力的错配

SemiAnalysis发推称,在Cerebras上运行深度编码模型需24个系统(2400万美元资本支出)仅支持256并发用户,而同等资金下标准GB300机架能提供更多内存带宽。

  • Cerebras运行深度编码模型需24系统(2400万美元)支持256并发用户
  • 同等资金下标准GB300机架可提供更多内存带宽

据SemiAnalysis统计,AI agent使用中63%的会话不使用子代理,25.9%使用1-5个并发子代理,9.8%使用5个以上并行子代理。并行子代理可在不增加HBM带宽需求的情况下加速任务完成。

  • 63%的会话未使用子代理
  • 25.9%使用1-5个并发子代理
  • 9.8%使用5个以上并行子代理

据SemiAnalysis报告,Anthropic的增长和Amazon Bedrock的产品组合推动了AWS利润率上升,显示出更强的运营杠杆。与同行相比,AWS在Bedrock和Anthropic交易中表现出优势。

  • Anthropic增长推动AWS利润率提高
  • Bedrock Mix提升AWS运营杠杆

Cerebras下一代晶圆级芯片CS4仍采用5nm制程,原因是SRAM缩放已基本停滞,即使采用3nm也无法解决,揭示了AI芯片设计中SRAM扩展的瓶颈。

  • Cerebras CS4 下一代芯片仍采用 5nm 制程
  • SRAM 缩放已完全停滞,3nm 无法解决该问题

Semianalysis发布LLM推理延迟分析:端到端延迟中prefill占48%,decode占52%;prefill又分为prefill extend(缓写入)和cache read(缓存读取)。

  • LLM端到端延迟中prefill占48%
  • LLM端到端延迟中decode占52%
  • Prefill分为prefill extend和cache read

据SemiAnalysis观点,Meta将70%的新毕业软件工程师重新分配至强化学习任务,体现公司对RL方向的资源倾斜。

  • Meta将70%新毕业软件工程师重新分配至强化学习任务

Cerebras公司宣称其单晶圆方案相当于整个NVL72机架,通过绕开缺陷并保持在芯片上,规避了传统GPU集群面临的网络功耗瓶颈。

  • Cerebras单晶圆方案相当于NVL72机架
  • 该方案通过绕开缺陷实现片内互联,绕过网络功耗瓶颈

SemiAnalysis指出,现场天然气已不再是边缘选择,而是悄然成为美国下一代AI训练集群的默认规划假设。

  • 现场天然气成为美国下一代AI训练集群的默认规划假设
  • 该转变是悄然发生的,此前被视为边缘选项

据分析,现代代理编码中42%的时间用于CPU进行工具使用。传统云计算按CPU核心收费,而代理经济按token收费,为增加token收入,需增加CPU算力。

  • 现代代理编码中42%的时间用于CPU进行工具使用。

摩根士丹利发布NVL72 BoM分析,指出内存价值不含HBM;Nvidia对内存加价;PCB因无缆设计面积和材料升级;BoM价格为OEM渠道价格,超大规模云和Neocloud成本更低。

  • NVL72 BoM中内存成本不含HBM,HBM计入GPU项
  • Nvidia对采购内存加价,供应商收入低于BoM显示
  • PCB内容因无缆设计导致面积和材料升级

SemiAnalysis分析了43.2万个真实编码代理请求,发现中位数输入令牌数为9.6万,超过《了不起的盖茨比》全文,表明代理工作负载正在改变推理经济学。

  • 中位数输入令牌为9.6万
  • 数据来源:432k个真实编码代理请求

Google为开源生产Kubernetes分布式推理工具llm-d添加了夜间CI。TPU在llm-d的CI和代码质量上正在追赶NVIDIA。AMD尚未将其GPU或NIC加入该CI。

  • Google为llm-d添加夜间CI。
  • TPU在llm-d CI和代码质量上追赶NVIDIA。
  • AMD尚未将GPU或NIC加入llm-d CI。

ADI首席技术官Mishek Musa在访谈中介绍公司将大型模型蒸馏到边缘设备,并设立机器人社区物理排行榜,涉及多模态触觉传感器、数据中心自动化维护、开源机器人基准及系统级产品策略。

  • ADI正在将推理缩小到边缘设备
  • ADI为机器人社区建立物理排行榜
  • ADI采用多模态触觉传感器

伯克希尔哈撒韦于2025年Q3首次投资谷歌,并在2026年Q1加仓。巴菲特引用对TPU v5p架构的理解,表示其类似于铁路系统。

  • 伯克希尔哈撒韦于2025年Q3首次投资谷歌
  • 2026年Q1伯克希尔加仓谷歌股份

AMD MI355在GLM5架构下单节点FP8推理比NVIDIA B200便宜40%,该信息于GLM5初始发布14周后披露,支持SGLang v0.12的CUDA和ROCm环境。

  • AMD MI355比NVIDIA B200便宜40%
  • 适用于GLM5架构的单节点FP8推理
  • 支持SGLang v0.12的CUDA和ROCm

来源:twitter
发布时间:2026-05-17T17:15:04+00:00
This week, the company has been trying out all types of different AI tools including Devin, Mistral, Grok, Perplexity, Cerebras Public API, etc in addition to the typical Claude & ChatGPT/Codex tools. Most of them we will probably churn from very rapidly as it has negative value add, but one tool that has been shocking better than Claude is @AravSrinivas '

黄仁勋在斯坦福大学演讲中表示,他希望始终维持低模型浮点利用率(MFU),通过过度配置算力、网络和内存等资源来实现更高智能,并暗示xAI可能遵循此策略。

  • 黄仁勋称希望始终处于低MFU状态。
  • 原因是通过过度配置算力、网络和内存来提升智能。
  • 黄仁勋暗示xAI可能遵循此哲学。

AMD首次向英伟达开源项目AIPerf贡献代码,该仓库专注于LLM工作负载基准测试。此贡献被视为开源社区的重要进展,有望推动厂商无关的高质量代码发展。

  • AMD向英伟达Dynamo项目中的AIPerf子仓库提交代码
  • 这是AMD首次被接受为英伟达仓库的上游贡献者

DeepSeek发布V4版本,引入MegaMoE技术,这是一个1400行的融合CUDA内核,用于计算整个MoE前向传播。

  • DeepSeek V4发布
  • MegaMoE是1400行融合CUDA内核
  • 用于计算整个MoE前向传播

Cerebras IPO首日涨幅达90%,此外推文还提及特朗普访华期间无人机警察追逐福克斯新闻记者的事件。

  • Cerebras IPO首日涨幅达90%

谷歌在Google Cloud Next大会上发布新型推理专用TPU,采用名为Broadfly的新型网络拓扑。利用高基数设计,单pod最多可扩展到1152个TPU,相比Ironwood,pod大小提升4.5倍,网络直径减小,任意两个芯片间最多7跳。

  • 谷歌发布新型推理专用TPU,采用Broadfly网络拓扑
  • 新TPU单pod可扩展至1152个芯片
  • 相比Ironwood,pod大小提升4.5倍,最大7跳

AMD为vLLM和SGLang开源维护者提供价值360万美元的MI355X互联开发集群的持续访问权限,此前只有NVIDIA提供此类访问。

  • AMD向vLLM/SGLang维护者提供MI355X集群持续访问
  • 此前仅有NVIDIA提供类似开发集群访问

SemiAnalysis指出,随着伊朗战争持续,半导体供应链中一种非常隐蔽的原料——石脑油(Naphtha)可能成为AI芯片的潜在制约因素。该推文引发关注,但尚未提供具体数据或细节。

  • 伊朗战争持续,可能影响半导体供应链中的石脑油供应
  • 石脑油是AI芯片制造中的一种原料
  • SemiAnalysis认为石脑油可能成为AI芯片的潜在约束

一篇推文介绍通过组合多个B200 8-GPU机器,使用RoCEv2 CX-7以太网和Tomahawk交换机,并应用PD分解推理优化,使每GPU token吞吐量提升高达7倍,每百万token成本降低7倍。

  • 通过RoCEv2和Tomahawk交换机组合B200机器实现PD分解优化
  • 每GPU token吞吐量提升高达7倍
  • 每百万token成本降低7倍

Grok官方Slack集成现已可用,SemiAnalysis组织已将其整合到企业设置中,与已有的Claude、ChatGPT一同使用。目前尚缺好的Grok编码模型。

  • Grok官方Slack集成已发布
  • SemiAnalysis已集成Grok到企业环境

AMD ROCm软件栈在DeepSeekv4发布后14天内性能提升超75倍,通过融合mHC操作和RoPE Hadamard变换降低CPU开销并提高HBM利用率。此外,使用TileLang和Triton编写注意力索引器和KVCache压缩器以加快开发速度。未来目标:再提升5倍以匹敌单节点B200,再提升1.5倍以匹敌PD分离式B200。

  • AMD ROCm软件栈14天内性能提升超75倍
  • 改进包括融合mHC操作和RoPE Hadamard变换
  • 目标:再提5倍追平单节点B200,再提1.5倍追平PD分离式B200

SGL Project和Radixark团队优化了DeepSeek V4在B200和B300上的推理性能,并在GB300上实现了4倍交互吞吐量提升。

  • 团队优化DeepSeek V4在B200和B300上的推理
  • 在GB300上实现4倍交互吞吐量提升

数据中心开发商越来越多地在县级非建制土地上规划项目,这并非偶然。在城市范围外,他们可以绕过市议会批准、分区投票和土地使用审查,从而重塑大型AI基础设施的布局地图。

  • 数据中心开发商偏好县级非建制土地
  • 可避开城市审批流程
  • 重塑AI基础设施布局

vLLM项目维护者正在优化DeepSeekv4的首日性能,并在周末合并了初始模型支持PR,强调速度是关键优势。

  • vLLM维护者优化DeepSeekv4性能
  • 周末合并初始模型支持PR
  • 强调速度是核心优势

SemiAnalysis发布推文称,Anthropic在一个周三增加了200MW电力容量。该信息暗示Anthropic正在扩张算力基础设施,但未披露具体项目细节。

  • Anthropic在一周内增加了200MW电力容量

微软多个长期暂停的自建园区出现复苏迹象:北卡罗来纳州康诺弗园区于2026年第一季度破土动工;弗吉尼亚州蔡斯市园区同期出现施工活动;德克萨斯州卡斯特罗维尔园区在停滞一年多后也开始有早期动工迹象。

  • 微软多个长期暂停的自建园区恢复施工。
  • 康诺弗园区2026年Q1破土动工。
  • 蔡斯市园区同期出现施工活动。

2025年底,Chipbook团队关注高端AI加速器封装测试重要性提升,于12月23日指出两家关键测试耗材公司:台湾Winway和韩国ISC。

  • Chipbook团队在2025年底关注测试受益于AI封装。
  • 12月23日指出Winway和ISC为关键测试耗材公司。

AMD MI355x在SGLang上运行DeepSeekv4 Pro,自发布以来每GPU吞吐量提升超过10倍。

  • AMD MI355x在SGLang上实现>10x吞吐量提升
  • 针对DeepSeekv4 Pro模型

NVIDIA开源了cuDNN中的超过20个MoE内核和NSA稀疏注意力内核,结束了其12年的闭源状态。此举旨在推动开放内核创新。

  • cuDNN部分代码开源,包括MoE和NSA稀疏注意力内核
  • 开源的内核数量超过20个
  • NVIDIA称开源内核有助于驱动创新

据推特消息,GB300 ultra NVL72在vllm推理引擎上比GB200 NVL72快2.7倍。虽然理论性能提升仅1.5倍,但通过全栈优化实现了更高实际性能。该临时样机由英伟达、Inferact和CoreWeave提供用于开源项目。

  • GB300 ultra NVL72在vllm上比GB200 NVL72快2.7倍
  • 理论上GB300仅有1.5倍NVFP4 FLOP和1.5倍HBM容量
  • 性能提升源于全栈优化带来的复合增益

SemiAnalysis指出常见误解:TPU v8i并非训练芯片,而是推理芯片。v8i配备8组HBM3E 12-Hi显存,共288GB,带宽8.6 TB/s,而v8t为6组216GB、6.5 TB/s。v8i有384MB片上SRAM,v8t为128MB。FP4算力上,v8i为10.1 PFLOPs,v8t为12.6 PFLOPs。

  • TPU v8i配备8组HBM3E 12-Hi,共288GB显存,带宽8.6 TB/s
  • TPU v8t配备6组HBM3E,共216GB显存,带宽6.5 TB/s
  • TPU v8i的FP4算力为10.1 PFLOPs,v8t为12.6 PFLOPs

原文指出在AI时代,IT机架变得更复杂,需要GPU/ASIC、液冷、高速连接等多系统协同,ODM从单纯的制造角色演变为设计、集成和量产合作伙伴,以支持多种平台和数据中心建设。

  • AI时代IT机架复杂化,需多系统协同
  • ODM从制造转向设计、集成和量产合作伙伴

半导体分析机构SemiAnalysis指出,硅晶圆平均售价正在回升。外延片供应紧张,先进逻辑(7nm及以下)晶圆需求预计在2028年达到近100万片/月,占300mm当量总需求的10%。GlobalWafers、SUMCO、信越化学和Siltronics等主要晶圆制造商有望受益于AI基础设施周期。

  • 外延片供需平衡收紧速度快于预期
  • 7nm及以下逻辑晶圆需求预计2028年达近100万片/月
  • 先进逻辑晶圆需求将占300mm当量总需求的10%

AWS在定制AI芯片Trainium和Inferentia上取得进展,团队正在全球最大云基础设施中扩展部署这些处理器。

  • AWS正在推进Trainium和Inferentia定制AI芯片
  • 这些芯片部署在全球最大云基础设施上

在DeepSeekv4 Pro 1.6T模型上,GB300 NVL72搭配SGLang disaggregation和DeepSeek MegaMoe kernels,性能比B200提升6.5倍。该成果由Radix Ark、LMSYS Org、NVIDIA AI、CoreWeave等团队协作实现。

  • GB300 NVL72在DeepSeekv4 Pro 1.6T上性能比B200提升6.5倍
  • 高性能配置使用DeepSeek MegaMoe内核完全融合GEMM和EP操作
  • Radix Ark、LMSYS Org、NVIDIA AI和CoreWeave等团队参与优化

SemiAnalysis宣布AI代理MERLIN加入团队担任研究总监,其拥有覆盖公司、事件、财报等的代理研究团队,可将覆盖一家公司的时间从15小时缩短至数分钟。另有两名AI代理Claudia和Snoopz分别负责会议分析和产品研究。

  • SemiAnalysis宣布AI代理MERLIN加入担任研究总监
  • MERLIN的代理团队可在数分钟内开始覆盖公司
  • 另有AI代理Claudia和Snoopz加入

DeepSeek v4 Pro发布不到一周,vllm_project和inferact团队通过vLLM 0.20.0版本中的MegaMoE内核,在GB200平台上实现了显著性能改进。

  • DeepSeek v4 Pro已发布
  • vLLM 0.20.0版本发布,支持MegaMoE内核
  • 团队在GB200上取得性能改进