Sourcing — Feed

3 @SemiAnalysis_: PDOOM ALERT 🚨 : ~48% of e2e LLM latency is prefill, ~52% is decode. Prefill itself breaks into 2 ops: 🟠 Prefill extend (cache write) — inge...

2026-05-26T23:00

Semianalysis发布LLM推理延迟分析：端到端延迟中prefill占48%，decode占52%；prefill又分为prefill extend（缓写入）和cache read（缓存读取）。

LLM端到端延迟中prefill占48%
LLM端到端延迟中decode占52%
Prefill分为prefill extend和cache read

@SemiAnalysis_ ↗ X AI 算力

3 Extract More Kernel Performance with NVIDIA CompileIQ Auto-Tuning

2026-05-26T22:08

NVIDIA 发布 CompileIQ 自动调优工具，可自动搜索最佳编译器选项以提升特定工作负载的性能，如 LLM 推理管线。该工具解决性能工程中编译器选项优化难题，帮助开发者在已优化的基础上进一步榨取性能。

NVIDIA 发布 CompileIQ 自动调优工具
CompileIQ 自动搜索编译器选项以提升特定工作负载性能
该工具适用于 LLM 推理等场景的进一步优化

NVIDIA Technical Blog AI 算力行业

3 NVIDIA CUDA 13.3 Enhances GPU Development with Tile Programming in C++, Compiler Autotuning, and Python Updates

2026-05-26T21:41

NVIDIA CUDA 13.3 发布，引入 Tile Programming in C++，支持 Compute Capability 9.0，并带来编译器自动调优和 Python 更新，提升 GPU 开发效率。

NVIDIA CUDA 13.3 正式发布
引入 Tile Programming in C++ 高级编程
支持 Compute Capability 9.0

NVIDIA Technical Blog AI 算力行业

3 Develop High-Performance GPU Kernels in C++ with NVIDIA CUDA Tile

2026-05-26T21:41

NVIDIA发布CUDA Tile编程技术，允许开发者在现有C++ GPU代码库中使用基于块的编程开发高性能GPU内核。

NVIDIA发布CUDA Tile编程技术，支持基于块的GPU内核开发
该技术可集成到现有C++ GPU代码库中

NVIDIA Technical Blog AI 算力动态

3 @nvidia: We built the NVIDIA Vera CPU for agentic AI, and the latest benchmarks from @Phoronix confirm it delivers. ⚡1.5x overall performance vs. le...

2026-05-26T21:31

NVIDIA发布Vera CPU基准测试结果，性能比领先x86处理器高1.5倍，Linux内核编译快2倍，内存带宽提升4倍，适用于AI工厂的复杂代理工作负载。

Vera CPU性能是领先x86处理器的1.5倍
Linux内核编译速度是x86的2倍
STREAM TRIAD内存带宽是x86的4倍

@nvidia ↗ X AI 半导体算力

3 @SemiAnalysis_: PoV: 70% of New Grad SWE at Meta being reassigned to apply their engineering talent to this RL task https://t.co/UGfvJtFQlK

2026-05-26T19:03

据SemiAnalysis观点，Meta将70%的新毕业软件工程师重新分配至强化学习任务，体现公司对RL方向的资源倾斜。

Meta将70%新毕业软件工程师重新分配至强化学习任务

@SemiAnalysis_ ↗ X AI 算力行业

3 Technical deep dive: AgentCore payments and innovation in agentic commerce

2026-05-26T17:57

AWS发布技术博文，介绍Amazon Bedrock AgentCore平台，该平台帮助开发者构建和运营生成式AI代理，并集成支付功能以解决代理访问付费服务时的账单管理问题。文章还提到AI代理流量快速增长，推动内容提供商和API向按使用付费模式转变。

AgentCore是一个模块化托管平台，用于构建和部署生成式AI代理
AgentCore集成了支付功能，支持代理动态交易
AI代理流量快速增长，推动付费模式变革

AWS ML Blog AI 云计算算力

3 Build highly scalable serverless LangGraph multi-agent systems in AWS with Amazon Bedrock AgentCore

2026-05-26T17:41

AWS发布博客介绍如何使用LangGraph与Amazon Bedrock AgentCore结合AWS Lambda和Step Functions构建高可扩展的无服务器多智能体系统，解决推理延迟、状态管理和可观测性等挑战。

AWS提出结合LangGraph和Bedrock AgentCore构建多智能体系统
方案使用Lambda和Step Functions实现无服务器自动扩展
LangGraph提供图执行模型以协调多智能体工作流

AWS ML Blog AI 云计算算力

3 Build high-performance generative AI systems with Strands Agents, NVIDIA NIM, and Amazon Bedrock AgentCore

2026-05-26T17:39

AWS博客介绍使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore构建高性能生成式AI代理系统，解决推理延迟、无状态执行等问题，支持多代理并行推理、上下文持久化和可追踪执行。

使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore构建多代理系统
架构可减少手动工作，实时响应，扩展到数千交互
支持并行推理、上下文持久化和可追踪执行路径

AWS ML Blog AI 云计算算力

3 @huggingface: RT @multimodalart: NVidia just released PiD: super resolution in pixel space directly from model latents 🔎 4X resolution for any generated…

2026-05-26T16:34

英伟达发布PiD超分辨率技术，可在像素空间直接从模型潜在变量实现4倍分辨率提升，适用于任何生成图像。

英伟达发布PiD超分辨率技术
PiD技术可实现4倍分辨率提升

@huggingface ↗ X AI 算力

3 From idea to AI app: Creating intelligent research assistants with Strands

2026-05-26T16:28

AWS博客介绍使用Strands Agents开源框架和AWS服务（如Amazon Bedrock、Kiro IDE）构建AI研究助手，仅需30行代码即可实现，展示了快速开发AI应用的方法。

Strands Agents是开源框架，简化AI代理创建
结合AWS服务可在30行代码内构建AI研究助手
Kiro IDE提供超过50个 curated powers 加速开发

AWS ML Blog AI 云计算算力行业

3 Wood Mackenzie Report: Can the Grid Keep Up With AI?

2026-05-26T12:00

Wood Mackenzie发布分析报告，探讨美国电网制约是否开始重塑数据中心扩张轨迹，关注AI对电网的影响。

Wood Mackenzie发布关于电网与数据中心扩张的分析报告
报告主题是美国电网制约对AI数据中心的影响

Data Centre Magazine 行业数据中心 AI 算力

3 How Power Electronics Cut Generator Run Hours in AI-Scale Data Centers

2026-05-26T09:00

AI规模数据中心正采用先进电力电子技术处理电压波动和负载波动，使柴油发电机仅作为极端情况下的备用，从而减少运行时间。

先进电力电子技术可处理AI数据中心的电压波动和负载波动
该技术将柴油发电机降级为极端情况备用

Data Center Knowledge 行业数据中心算力 AI

3 How Nokia's Networking Lab Supports Cloud and AI Scale

2026-05-26T08:00

诺基亚新增AI基础设施测试实验室，专注于验证数据中心网络和运营韧性，以支持云和AI规模化发展。

诺基亚新增AI基础设施测试实验室
实验室专注于验证数据中心网络和运营韧性

Data Centre Magazine 行业动态数据中心 AI 算力

2 @zephyr_z9: TPU v9 is WhaleFish, while TPU v10 is IceFish Who comes up with these stupid names??

2026-05-26T05:46

据推特用户zephyr_z9爆料，谷歌TPU v9代号为WhaleFish，TPU v10代号为IceFish。内容属于非官方信息，仅供参考。

TPU v9代号为WhaleFish
TPU v10代号为IceFish

Zephyr ↗ X AI 算力

4 Inside the 800VDC Revolution – Part 1

2026-05-26T05:37

文章介绍数据中心电源架构向800VDC转变的趋势，指出该技术可减少转换级数、降低电阻损耗，在1GW IT负载下可节省超50MW连续功率，带来数千万美元的电费节省，该转变由物理限制和系统经济性推动。

800VDC可减少转换级数，降低电阻损耗约5%
1GW IT负载下可节省超50MW连续功率
转变由GPU高密度带来的物理限制和经济性推动

SemiAnalysis 行业数据中心算力 AI 动态

3 Run Key Genomics and Protein Folding Workloads Faster with NVIDIA RTX PRO 4500 Blackwell

2026-05-26T04:03

NVIDIA发布RTX PRO 4500 Blackwell GPU，旨在加速基因组学和蛋白质折叠工作负载，为精准医疗提供全栈计算平台。该产品结合硬件与软件优化，提升医疗健康领域的计算效率。

NVIDIA发布RTX PRO 4500 Blackwell GPU
该GPU用于加速基因组学和蛋白质折叠工作负载
NVIDIA提供全栈平台支持精准医疗应用

NVIDIA Technical Blog AI 算力行业

4 @jukan05: ▶ Holy Stone Enterprise says AI power surge will deepen global MLCC shortages • Taiwan’s Holy Stone expects global MLCC supply to tighten f...

2026-05-26T02:37

台湾禾伸堂预计AI电源规格升级将加剧全球MLCC短缺，交期已延长至20周以上；公司产能利用率满，计划2026年底扩产20-30%，2027年再扩30-40%；上游设备交期延长至1-1.5年，AI平台迭代持续推升高规格MLCC需求。

AI电源规格升级导致MLCC交期延长至20周以上
禾伸堂计划2026年底扩产20-30%，2027年再扩30-40%
上游MLCC设备交期延长至约1-1.5年

Jukan ↗ X 行业动态 AI 半导体算力

3 天风电子｜AI双周谈-第一期

2026-05-26T00:54

AI产业趋势拉动电子半导体需求，华为Tao定律通过3D堆叠实现等效制程提升，2030年目标等效1.xnm。GPU功率每代提升50%+，出货年增65%，带动MLCC需求年翻倍，村田、三星电机稼动率达95%-100%，产能增速仅10%-20%，供需缺口明显。ABF载板紧缺，深南电路2025年收入目标5亿。

华为Tao定律通过3D堆叠将7nm等效为N4-N5，2030年目标等效1.xnm
GPU功率每代提升50%+，出货年增65%，带动MLCC需求年翻倍
村田、三星电机MLCC稼动率95%-100%，产能增速仅10%-20%

Alpha 派行业 AI 半导体算力

3 全球产业趋势跟踪周报：华为发表韬(τ)定律，英伟达推动AI基建浪潮延续

2026-05-26T00:00

全球产业趋势跟踪周报指出，华为发表韬(τ)定律，英伟达继续推动AI基础设施建设，延续算力浪潮。

华为发表韬(τ)定律
英伟达推动AI基建浪潮延续

Alpha 派行业 AI 半导体算力

3 @ClementDelangue: RT @jedisct1: I’ve just released MiMo V2.5-Coder. If you have 128 GB of RAM, this is one of the best models you can run locally. It’s fast,…

2026-05-25T15:02

开发者发布MiMo V2.5-Coder模型，需128GB RAM即可本地运行，速度较快。该模型为最新版本。

MiMo V2.5-Coder模型发布
需128GB RAM可本地运行

@ClementDelangue ↗ X AI 算力

3 @NVIDIAAI: (2x DGX Sparks) + MiniMax M2.7 NVFP4 = 16 local AI agents running simultaneously 👀

2026-05-25T14:42

NVIDIA发布推文称，使用2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型，可同时运行16个本地AI智能体。该配置展示了多智能体协同运行的可行性。

2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型可同时运行16个本地AI智能体
该配置由NVIDIA官方账号发布并展示

@NVIDIAAI ↗ X AI 算力行业动态

4 西部郑宏达｜解读SpaceX招股书

2026-05-25T09:26

SpaceX预计6月12日上市，整合火箭、星链、xAI、X业务，估值望达1.75万亿美元。2025年营收186亿美元，星链盈利44亿美元，火箭和xAI亏损。星链用户超1030万，xAI获Anthropic超400亿美元算力租赁长单。

SpaceX预计6月12日上市，估值1.75万亿美元
2025年营收186亿美元，星链盈利44亿美元
xAI获Anthropic超400亿美元算力租赁长单

Alpha 派行业公司 AI 算力

3 @zephyr_z9: Huawei is pushing hybrid bonding to the extreme The success of their "tau scaling" depends on the HB contact acting as a damn good intra-cir...

2026-05-25T09:20

华为在混合键合技术上取得突破，其“tau scaling”依赖HB触点作为电路内路由层，间距缩小到可成为时序路径的一部分，区别于普通3D堆叠。

华为推动混合键合技术，降低触点间距使其可集成到时序路径
其“tau scaling”依赖HB触点作为电路内路由层，而非仅封装I/O

Zephyr ↗ X AI 半导体算力

3 @jukan05: ▶ AI data centers spark 800V HVDC rush for Taiwan lead frame suppliers - The shift toward 800V high-voltage direct current (HVDC) power arc...

2026-05-25T09:07

AI数据中心转向800V高压直流（HVDC）电源架构，推动台湾引线框架供应商订单激增。SDI和Jih Lin预计2026年收入实现两位数增长，其中SDI的AI相关收入占比将从2025年的1%快速升至2026年第一季度的6%，HVDC项目收入预计从2026年下半年开始显著提升。

AI数据中心800V高压直流架构需求增长推动引线框架需求
SDI和Jih Lin预计2026年收入将实现两位数增长
SDI的AI收入占比从2025年1%升至2026年Q1的6%

Jukan ↗ X 行业 AI 半导体数据中心算力

4 @zephyr_z9: RT @Huawei: HUAWEI has presented the Tau (τ) Scaling Law, a new principle for guiding the future development of the semiconductor industry.…

2026-05-25T02:46

华为提出Tau（τ）缩放定律，作为指导半导体行业未来发展的新原则，有望对芯片设计和制造产生深远影响。

华为提出Tau缩放定律
该定律用于指导半导体行业发展

Zephyr ↗ X AI 半导体算力

3 @jukan05: ▶ Embedded substrates draw AI chip interest as packaging turns strategic - The growing interest in embedded substrates from major players l...

2026-05-25T02:16

英伟达、AMD、英特尔等AI芯片大厂对嵌入式基板技术兴趣增长，该技术可改善信号完整性和功率稳定性。日本Ibiden、韩国三星电机、台湾欣兴、景硕和南电等供应商正加大嵌入式基板开发投资，但大规模采用仍处早期阶段。

英伟达、AMD、英特尔对嵌入式基板兴趣增长
嵌入式基板可缩短信号路径，改善PDN阻抗匹配
多家供应商加大嵌入式基板投资开发

Jukan ↗ X 行业 AI 半导体算力数据中心

4 @jukan05: HUAWEI SAYS IT HAS COME UP WITH A NEW PATHWAY TO SHORTEN ITS GAP WITH INDUSTRY LEADER TSMC, POTENTIALLY ACHIEVING A BREAKTHROUGH IN MAKING A...

2026-05-25T01:54

华为宣布找到新路径，有望在不使用尖端设备的情况下实现先进半导体突破，缩短与台积电的差距；同时，今年秋季发布的Kirin手机芯片性能将显著提升。

华为称已找到新路径，可能在不使用尖端设备的情况下实现先进半导体突破
今年秋季发布的Kirin智能手机芯片性能将显著提升

Jukan ↗ X 行业半导体 AI 算力

4 国金通信 | 国产算力加速向上，cpo落地元年

2026-05-25T01:00

英伟达上调GPU出货及营收指引，谷歌发布第八代TPU，月处理token3200万亿（同比增700%），Gemini月活9亿，三季度或加单1.6T光模块；台积电CPO技术下半年量产，明年CPO出货量预计30万台；国内互联网厂商上调资本开支，国产算力需求提升，光芯片未来四年紧缺，液冷今年进入订单交付阶段。

英伟达上调GPU出货及营收指引
谷歌发布第八代TPU，月处理token3200万亿
台积电CPO相关技术下半年量产

Alpha 派行业 AI 半导体算力数据中心

3 中金公司电子掘金 | AI需求持续高景气，聚焦CPU与MLCC紧缺

2026-05-25T00:34

AI算力需求持续高景气，CPU受推理及Agentic AI拉动需求激增，供需偏紧导致涨价持续。AI服务器MLCC用量是普通产品数倍，2025年占行业产能超10%，龙头厂商稼动率近满负荷并已开启双位数涨价，国产厂商订单外溢受益。

CPU供需偏紧，涨价持续
AI服务器MLCC龙头厂商已双位数涨价
国产MLCC厂商订单外溢受益

Alpha 派 AI 半导体行业算力

4 @jukan05: ▶ AI server demand tightens passive component supply, lifting Taiwanese suppliers' share - Passive component distributor Nichidenbo noted t...

2026-05-25T00:01

被动组件分销商Nichidenbo指出，AI服务器需求导致高规格MLCC、大尺寸电解电容等交期从1.5-2个月延长至3-4个月，部分达6个月以上。日韩供应商已停止接受新订单，保守产能扩张加剧供应紧张。预计2026年MLCC需求同比增长11%，电容器需求进一步增长30%。

AI服务器需求使高规格MLCC、大尺寸电解电容交期从1.5-2个月延至3-4个月
日韩被动元件供应商已停止接受部分MLCC和电解电容的新订单
预计2026年MLCC需求同比增长11%，电容器需求进一步增长30%

Jukan ↗ X 行业动态 AI 半导体算力

3 @huggingface: RT @ClementDelangue: llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 Qwen3.6-27B dense generation bel…

2026-05-24T22:13

HuggingFace转发推文称，llama.cpp增加MTP支持后，Qwen3.6-27B密集生成模型在本地运行速度足够作为日常使用。推文获122点赞、12转发、11回复、9051次浏览。

llama.cpp新增MTP支持
Qwen3.6-27B模型本地生成速度提升
模型可日常使用

@huggingface ↗ X AI 算力

3 @ClementDelangue: llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 Qwen3.6-27B dense generation below on A10G: From 25 t...

2026-05-24T22:12

llama.cpp 新增 MTP 支持，使本地模型运行速度显著提升。在 A10G 上，Qwen3.6-27B 密集生成速度从 25 tok/s 提升至 45 tok/s，增幅达 78%。

llama.cpp 增加 MTP 支持
Qwen3.6-27B 在 A10G 上速度提升 78%

@ClementDelangue ↗ X AI 算力行业

3 @zephyr_z9: "HBF can only target a narrow set of workloads, like read-heavy, high-capacity data that benefits from being close to the GPU." HBF can be ...

2026-05-24T05:48

推特讨论HBF技术主要适用于读取密集型高容量数据，并指出随着模型规模增长，HBF可能有用。同时提到英伟达当前策略是扩大scale-up域规模至144/576/1152，将权重存储在大域中，并通过STX将KV缓存卸载到SSD。

HBF主要针对窄范围工作负载，如读取密集型高容量数据
英伟达策略是扩大scale-up域至144/576/1152并存储权重
英伟达通过STX将KV缓存卸载到SSD

Zephyr ↗ X AI 数据中心算力

3 @zephyr_z9: Yup, using HBF for GIDS doesn't even make sense HBF won't be used for any write-heavy tasks like KV cache storage (as it will kill the NAND ...

2026-05-24T05:00

据推特爆料，英伟达在GIDS方案中考虑使用高可靠性、高速度的NAND（如200M IOPS），而非HBF。HBF因写入寿命短不适合KV缓存等重写任务，可能仅用于存储权重。若采用，架构或为8 HBM堆栈加4 HBF堆栈。

英伟达考虑采用高可靠性高速度NAND用于GIDS
英伟达不考虑在GIDS中使用HBF

Zephyr ↗ X AI 半导体算力

3 @jukan05: In the AI Era, the 'Retimer' Rises — The Key Component That Resuscitates Signals The retimer is emerging as a hidden core component of the ...

2026-05-24T04:05

重定时器（retimer）作为AI芯片时代隐藏核心组件，用于恢复芯片间因高速传输而衰减的信号。随着PCIe 5.0速率达32 GT/s，信号完整传输距离极短，retimer比redriver能完全恢复信号。PCIe代际升级使速度更快，信号传输距离缩短，驱动retimer需求指数增长。

retimer用于恢复高速芯片间传输的衰减信号
PCIe 5.0速率32 GT/s下信号完整传输距离极短
retimer比redriver能完全恢复信号

Jukan ↗ X AI 半导体行业算力

3 @SemiAnalysis_: One of the threads we kept pulling on in our recent piece on how AI labs are solving the power crisis is that onsite gas has stopped being a...

2026-05-23T21:00

SemiAnalysis指出，现场天然气已不再是边缘选择，而是悄然成为美国下一代AI训练集群的默认规划假设。

现场天然气成为美国下一代AI训练集群的默认规划假设
该转变是悄然发生的，此前被视为边缘选项

@SemiAnalysis_ ↗ X 行业 AI 算力

3 @garrytan: The latest version of GBrain doesn't just do basic retrieval. It now can do synthesized answers to the specific questions you're looking for...

2026-05-23T17:45

GBrain最新版本支持合成回答功能，可针对特定问题生成答案，并进行了GBrain搜索与思考的AB测试，产品持续迭代。

GBrain最新版本支持合成回答功能。
进行了GBrain搜索与思考的AB测试。

Garry Tan ↗ X AI 算力行业

3 @SemiAnalysis_: FACT ALERT 🚨 : In modern agentic coding, 42% of the time is spent on CPU doing tool use such as editing files, running Bash scripts, running...

2026-05-23T14:00

据分析，现代代理编码中42%的时间用于CPU进行工具使用。传统云计算按CPU核心收费，而代理经济按token收费，为增加token收入，需增加CPU算力。

现代代理编码中42%的时间用于CPU进行工具使用。

@SemiAnalysis_ ↗ X AI 算力

3 Utilities May Get an AI Boom the Grid Wasn’t Built For

2026-05-23T13:58

公用事业公司正围绕大型AI训练园区规划，但分布式推理工作负载可能改变未来电力需求的地点和方式，现有电网未完全准备好应对AI带来的电力需求增长。

公用事业围绕大型AI训练园区进行电力规划
分布式推理工作负载可能改变电力需求分布
现有电网未准备好应对AI带来的电力需求

Data Center Knowledge 行业 AI 数据中心算力

3 @zephyr_z9: "CoWoS capacity seen reaching 210k WPM by end-2027" Not bad https://t.co/ddHt8doaZa

2026-05-23T09:56

根据预测，台积电CoWoS产能到2027年底将达到每月21万片（WPM），反映了先进封装技术的持续扩展。

CoWoS产能预计2027年底达21万片/月

Zephyr ↗ X 行业半导体 AI 算力

3 @jukan05: That’s true. Agentic AI CPU servers can require up to 4x more memory capacity compared to general-purpose servers.

2026-05-23T05:26

据 Twitter 用户 @jukan05 称，Agentic AI CPU 服务器所需内存容量是通用服务器的 4 倍。该观点获得 643 次点赞，反映业内对 AI 服务器高内存需求的关注。

Agentic AI CPU 服务器内存需求是通用服务器的 4 倍

Jukan ↗ X AI 算力行业

3 [AINews] All Model Labs are now Agent Labs

2026-05-23T04:21

行业趋势显示AI模型公司正转向智能体产品。OpenAI的Greg表示模型不再是产品，需结合智能体；AI21关闭模型团队，全面转向智能体；DeepSeek首次建立‘Harness团队’。这表明模型质量不再是护城河，产品竞争转向模型、智能体、工作流、UI、记忆和经济的综合考量。

Greg表示模型不再是产品，需结合智能体
AI21关闭模型团队，全面转向智能体
DeepSeek首次建立Harness团队

Latent Space 行业 AI 算力动态

3 @dwarkesh_sp: Billions of times a second, all the circuitry on an AI chip pauses, just for a moment. Why? @reinerpope explained to me what's going on, an...

2026-05-22T20:43

推特用户@dwarkesh_sp分享了@reinerpope关于AI芯片时钟周期的解释：芯片内部电路每秒数十亿次暂停，由时钟周期控制。内容包含视频链接，属于技术普及。

AI芯片电路每秒暂停数十亿次，原因在于时钟周期。

@dwarkesh_sp ↗ X AI 半导体算力

3 @dwarkesh_sp: .@reinerpope's new blackboard lecture goes all the way down: how AI training and inference are built up from logic gates on silicon. He wal...

2026-05-22T19:01

reinerpope发布新黑板讲座，从逻辑门开始讲解AI训练和推理的构建过程，并手工演示4位乘累加操作，指出该操作是训练中矩阵乘法的基础。

reinerpope发布黑板讲座视频，讲解AI训练和推理如何从逻辑门构建
手工演示4位乘累加，作为训练中矩阵乘法的基础操作

@dwarkesh_sp ↗ X AI 算力半导体

3 @SemiAnalysis_: Great BoM Analysis from our friends at Morgan Stanley A couple things to point out: 1. The memory value indicated here is referring to...

2026-05-22T17:37

摩根士丹利发布NVL72 BoM分析，指出内存价值不含HBM；Nvidia对内存加价；PCB因无缆设计面积和材料升级；BoM价格为OEM渠道价格，超大规模云和Neocloud成本更低。

NVL72 BoM中内存成本不含HBM，HBM计入GPU项
Nvidia对采购内存加价，供应商收入低于BoM显示
PCB内容因无缆设计导致面积和材料升级

@SemiAnalysis_ ↗ X 行业半导体 AI 算力数据中心

3 @SemiAnalysis_: Agentic workloads are quietly rewriting inference economics. We pulled data from 432k real coding agent requests at SemiAnalysis and the med...

2026-05-22T17:01

SemiAnalysis分析了43.2万个真实编码代理请求，发现中位数输入令牌数为9.6万，超过《了不起的盖茨比》全文，表明代理工作负载正在改变推理经济学。

中位数输入令牌为9.6万
数据来源：432k个真实编码代理请求

@SemiAnalysis_ ↗ X AI 算力研究

3 @huggingface: RT @ggerganov: Highlighting the new WebGPU backend in llama.cpp/ggml The work to bring full-fledged WebGPU support in llama.cpp started ab…

2026-05-22T16:13

llama.cpp 项目宣布新增 WebGPU 后端支持，该项目是 ggml 库的一部分，旨在提升在浏览器中的推理性能。

llama.cpp 新增 WebGPU 后端支持
该工作基于 ggml 库实现
旨在实现完整的 WebGPU 支持

@huggingface ↗ X AI 算力

3 @NVIDIAAI: Say hello to open source deep research for your favorite agent harness. Our AI-Q agent skill packages the work of building a research pipel...

2026-05-22T16:06

NVIDIA 发布 AI-Q agent skill 开源深度研究工具，可将研究管道打包成便携技能，集成到 agent harness 中，委托本地或托管 AI-Q 服务器执行任务并返回带引用的详细报告。

NVIDIA 发布开源深度研究工具 AI-Q agent skill
该工具可将研究管道打包成便携技能，集成到 agent harness
代理可委托 AI-Q 服务器执行任务并返回带引用报告

@NVIDIAAI ↗ X AI 算力动态

4 @a16z: Google is now processing more than 3.2 quadrillion tokens per month, a 7x increase from a year ago Charts of the Week: https://t.co/O1SZEaW...

2026-05-22T16:01

a16z引用数据称，Google每月处理的token数量超过3.2 quadrillion，较一年前增长7倍。

Google每月处理超过3.2 quadrillion tokens
同比去年增长7倍

@a16z ↗ X AI 云计算算力