Semianalysis发布LLM推理延迟分析:端到端延迟中prefill占48%,decode占52%;prefill又分为prefill extend(缓写入)和cache read(缓存读取)。
NVIDIA 发布 CompileIQ 自动调优工具,可自动搜索最佳编译器选项以提升特定工作负载的性能,如 LLM 推理管线。该工具解决性能工程中编译器选项优化难题,帮助开发者在已优化的基础上进一步榨取性能。
NVIDIA CUDA 13.3 发布,引入 Tile Programming in C++,支持 Compute Capability 9.0,并带来编译器自动调优和 Python 更新,提升 GPU 开发效率。
NVIDIA发布CUDA Tile编程技术,允许开发者在现有C++ GPU代码库中使用基于块的编程开发高性能GPU内核。
NVIDIA发布Vera CPU基准测试结果,性能比领先x86处理器高1.5倍,Linux内核编译快2倍,内存带宽提升4倍,适用于AI工厂的复杂代理工作负载。
据SemiAnalysis观点,Meta将70%的新毕业软件工程师重新分配至强化学习任务,体现公司对RL方向的资源倾斜。
AWS发布技术博文,介绍Amazon Bedrock AgentCore平台,该平台帮助开发者构建和运营生成式AI代理,并集成支付功能以解决代理访问付费服务时的账单管理问题。文章还提到AI代理流量快速增长,推动内容提供商和API向按使用付费模式转变。
AWS发布博客介绍如何使用LangGraph与Amazon Bedrock AgentCore结合AWS Lambda和Step Functions构建高可扩展的无服务器多智能体系统,解决推理延迟、状态管理和可观测性等挑战。
AWS博客介绍使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore构建高性能生成式AI代理系统,解决推理延迟、无状态执行等问题,支持多代理并行推理、上下文持久化和可追踪执行。
英伟达发布PiD超分辨率技术,可在像素空间直接从模型潜在变量实现4倍分辨率提升,适用于任何生成图像。
AWS博客介绍使用Strands Agents开源框架和AWS服务(如Amazon Bedrock、Kiro IDE)构建AI研究助手,仅需30行代码即可实现,展示了快速开发AI应用的方法。
Wood Mackenzie发布分析报告,探讨美国电网制约是否开始重塑数据中心扩张轨迹,关注AI对电网的影响。
AI规模数据中心正采用先进电力电子技术处理电压波动和负载波动,使柴油发电机仅作为极端情况下的备用,从而减少运行时间。
诺基亚新增AI基础设施测试实验室,专注于验证数据中心网络和运营韧性,以支持云和AI规模化发展。
据推特用户zephyr_z9爆料,谷歌TPU v9代号为WhaleFish,TPU v10代号为IceFish。内容属于非官方信息,仅供参考。
文章介绍数据中心电源架构向800VDC转变的趋势,指出该技术可减少转换级数、降低电阻损耗,在1GW IT负载下可节省超50MW连续功率,带来数千万美元的电费节省,该转变由物理限制和系统经济性推动。
NVIDIA发布RTX PRO 4500 Blackwell GPU,旨在加速基因组学和蛋白质折叠工作负载,为精准医疗提供全栈计算平台。该产品结合硬件与软件优化,提升医疗健康领域的计算效率。
台湾禾伸堂预计AI电源规格升级将加剧全球MLCC短缺,交期已延长至20周以上;公司产能利用率满,计划2026年底扩产20-30%,2027年再扩30-40%;上游设备交期延长至1-1.5年,AI平台迭代持续推升高规格MLCC需求。
AI产业趋势拉动电子半导体需求,华为Tao定律通过3D堆叠实现等效制程提升,2030年目标等效1.xnm。GPU功率每代提升50%+,出货年增65%,带动MLCC需求年翻倍,村田、三星电机稼动率达95%-100%,产能增速仅10%-20%,供需缺口明显。ABF载板紧缺,深南电路2025年收入目标5亿。
全球产业趋势跟踪周报指出,华为发表韬(τ)定律,英伟达继续推动AI基础设施建设,延续算力浪潮。
开发者发布MiMo V2.5-Coder模型,需128GB RAM即可本地运行,速度较快。该模型为最新版本。
NVIDIA发布推文称,使用2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型,可同时运行16个本地AI智能体。该配置展示了多智能体协同运行的可行性。
SpaceX预计6月12日上市,整合火箭、星链、xAI、X业务,估值望达1.75万亿美元。2025年营收186亿美元,星链盈利44亿美元,火箭和xAI亏损。星链用户超1030万,xAI获Anthropic超400亿美元算力租赁长单。
华为在混合键合技术上取得突破,其“tau scaling”依赖HB触点作为电路内路由层,间距缩小到可成为时序路径的一部分,区别于普通3D堆叠。
AI数据中心转向800V高压直流(HVDC)电源架构,推动台湾引线框架供应商订单激增。SDI和Jih Lin预计2026年收入实现两位数增长,其中SDI的AI相关收入占比将从2025年的1%快速升至2026年第一季度的6%,HVDC项目收入预计从2026年下半年开始显著提升。
华为提出Tau(τ)缩放定律,作为指导半导体行业未来发展的新原则,有望对芯片设计和制造产生深远影响。
英伟达、AMD、英特尔等AI芯片大厂对嵌入式基板技术兴趣增长,该技术可改善信号完整性和功率稳定性。日本Ibiden、韩国三星电机、台湾欣兴、景硕和南电等供应商正加大嵌入式基板开发投资,但大规模采用仍处早期阶段。
华为宣布找到新路径,有望在不使用尖端设备的情况下实现先进半导体突破,缩短与台积电的差距;同时,今年秋季发布的Kirin手机芯片性能将显著提升。
英伟达上调GPU出货及营收指引,谷歌发布第八代TPU,月处理token3200万亿(同比增700%),Gemini月活9亿,三季度或加单1.6T光模块;台积电CPO技术下半年量产,明年CPO出货量预计30万台;国内互联网厂商上调资本开支,国产算力需求提升,光芯片未来四年紧缺,液冷今年进入订单交付阶段。
AI算力需求持续高景气,CPU受推理及Agentic AI拉动需求激增,供需偏紧导致涨价持续。AI服务器MLCC用量是普通产品数倍,2025年占行业产能超10%,龙头厂商稼动率近满负荷并已开启双位数涨价,国产厂商订单外溢受益。
被动组件分销商Nichidenbo指出,AI服务器需求导致高规格MLCC、大尺寸电解电容等交期从1.5-2个月延长至3-4个月,部分达6个月以上。日韩供应商已停止接受新订单,保守产能扩张加剧供应紧张。预计2026年MLCC需求同比增长11%,电容器需求进一步增长30%。
HuggingFace转发推文称,llama.cpp增加MTP支持后,Qwen3.6-27B密集生成模型在本地运行速度足够作为日常使用。推文获122点赞、12转发、11回复、9051次浏览。
llama.cpp 新增 MTP 支持,使本地模型运行速度显著提升。在 A10G 上,Qwen3.6-27B 密集生成速度从 25 tok/s 提升至 45 tok/s,增幅达 78%。
推特讨论HBF技术主要适用于读取密集型高容量数据,并指出随着模型规模增长,HBF可能有用。同时提到英伟达当前策略是扩大scale-up域规模至144/576/1152,将权重存储在大域中,并通过STX将KV缓存卸载到SSD。
据推特爆料,英伟达在GIDS方案中考虑使用高可靠性、高速度的NAND(如200M IOPS),而非HBF。HBF因写入寿命短不适合KV缓存等重写任务,可能仅用于存储权重。若采用,架构或为8 HBM堆栈加4 HBF堆栈。
重定时器(retimer)作为AI芯片时代隐藏核心组件,用于恢复芯片间因高速传输而衰减的信号。随着PCIe 5.0速率达32 GT/s,信号完整传输距离极短,retimer比redriver能完全恢复信号。PCIe代际升级使速度更快,信号传输距离缩短,驱动retimer需求指数增长。
SemiAnalysis指出,现场天然气已不再是边缘选择,而是悄然成为美国下一代AI训练集群的默认规划假设。
GBrain最新版本支持合成回答功能,可针对特定问题生成答案,并进行了GBrain搜索与思考的AB测试,产品持续迭代。
据分析,现代代理编码中42%的时间用于CPU进行工具使用。传统云计算按CPU核心收费,而代理经济按token收费,为增加token收入,需增加CPU算力。
公用事业公司正围绕大型AI训练园区规划,但分布式推理工作负载可能改变未来电力需求的地点和方式,现有电网未完全准备好应对AI带来的电力需求增长。
根据预测,台积电CoWoS产能到2027年底将达到每月21万片(WPM),反映了先进封装技术的持续扩展。
据 Twitter 用户 @jukan05 称,Agentic AI CPU 服务器所需内存容量是通用服务器的 4 倍。该观点获得 643 次点赞,反映业内对 AI 服务器高内存需求的关注。
行业趋势显示AI模型公司正转向智能体产品。OpenAI的Greg表示模型不再是产品,需结合智能体;AI21关闭模型团队,全面转向智能体;DeepSeek首次建立‘Harness团队’。这表明模型质量不再是护城河,产品竞争转向模型、智能体、工作流、UI、记忆和经济的综合考量。
推特用户@dwarkesh_sp分享了@reinerpope关于AI芯片时钟周期的解释:芯片内部电路每秒数十亿次暂停,由时钟周期控制。内容包含视频链接,属于技术普及。
reinerpope发布新黑板讲座,从逻辑门开始讲解AI训练和推理的构建过程,并手工演示4位乘累加操作,指出该操作是训练中矩阵乘法的基础。
摩根士丹利发布NVL72 BoM分析,指出内存价值不含HBM;Nvidia对内存加价;PCB因无缆设计面积和材料升级;BoM价格为OEM渠道价格,超大规模云和Neocloud成本更低。
SemiAnalysis分析了43.2万个真实编码代理请求,发现中位数输入令牌数为9.6万,超过《了不起的盖茨比》全文,表明代理工作负载正在改变推理经济学。
llama.cpp 项目宣布新增 WebGPU 后端支持,该项目是 ggml 库的一部分,旨在提升在浏览器中的推理性能。
NVIDIA 发布 AI-Q agent skill 开源深度研究工具,可将研究管道打包成便携技能,集成到 agent harness 中,委托本地或托管 AI-Q 服务器执行任务并返回带引用的详细报告。
a16z引用数据称,Google每月处理的token数量超过3.2 quadrillion,较一年前增长7倍。