清除 当前 781 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 19 小时前 微信公众号 · 42章经 · 4 天 14 小时前 微信公众号 · DeepTech深科技 · 4 天 14 小时前 微信公众号 · Founder Park · 4 天 14 小时前 微信公众号 · FundaAI · 4 天 14 小时前 微信公众号 · 九章智驾 · 4 天 14 小时前 微信公众号 · 晚点LatePost · 4 天 14 小时前 微信公众号 · 琢磨事 · 4 天 14 小时前 微信公众号 · 甲子光年 · 4 天 14 小时前

Semianalysis发布LLM推理延迟分析:端到端延迟中prefill占48%,decode占52%;prefill又分为prefill extend(缓写入)和cache read(缓存读取)。

  • LLM端到端延迟中prefill占48%
  • LLM端到端延迟中decode占52%
  • Prefill分为prefill extend和cache read

NVIDIA 发布 CompileIQ 自动调优工具,可自动搜索最佳编译器选项以提升特定工作负载的性能,如 LLM 推理管线。该工具解决性能工程中编译器选项优化难题,帮助开发者在已优化的基础上进一步榨取性能。

  • NVIDIA 发布 CompileIQ 自动调优工具
  • CompileIQ 自动搜索编译器选项以提升特定工作负载性能
  • 该工具适用于 LLM 推理等场景的进一步优化

NVIDIA CUDA 13.3 发布,引入 Tile Programming in C++,支持 Compute Capability 9.0,并带来编译器自动调优和 Python 更新,提升 GPU 开发效率。

  • NVIDIA CUDA 13.3 正式发布
  • 引入 Tile Programming in C++ 高级编程
  • 支持 Compute Capability 9.0

NVIDIA发布CUDA Tile编程技术,允许开发者在现有C++ GPU代码库中使用基于块的编程开发高性能GPU内核。

  • NVIDIA发布CUDA Tile编程技术,支持基于块的GPU内核开发
  • 该技术可集成到现有C++ GPU代码库中

NVIDIA发布Vera CPU基准测试结果,性能比领先x86处理器高1.5倍,Linux内核编译快2倍,内存带宽提升4倍,适用于AI工厂的复杂代理工作负载。

  • Vera CPU性能是领先x86处理器的1.5倍
  • Linux内核编译速度是x86的2倍
  • STREAM TRIAD内存带宽是x86的4倍

据SemiAnalysis观点,Meta将70%的新毕业软件工程师重新分配至强化学习任务,体现公司对RL方向的资源倾斜。

  • Meta将70%新毕业软件工程师重新分配至强化学习任务

AWS发布技术博文,介绍Amazon Bedrock AgentCore平台,该平台帮助开发者构建和运营生成式AI代理,并集成支付功能以解决代理访问付费服务时的账单管理问题。文章还提到AI代理流量快速增长,推动内容提供商和API向按使用付费模式转变。

  • AgentCore是一个模块化托管平台,用于构建和部署生成式AI代理
  • AgentCore集成了支付功能,支持代理动态交易
  • AI代理流量快速增长,推动付费模式变革

AWS发布博客介绍如何使用LangGraph与Amazon Bedrock AgentCore结合AWS Lambda和Step Functions构建高可扩展的无服务器多智能体系统,解决推理延迟、状态管理和可观测性等挑战。

  • AWS提出结合LangGraph和Bedrock AgentCore构建多智能体系统
  • 方案使用Lambda和Step Functions实现无服务器自动扩展
  • LangGraph提供图执行模型以协调多智能体工作流

AWS博客介绍使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore构建高性能生成式AI代理系统,解决推理延迟、无状态执行等问题,支持多代理并行推理、上下文持久化和可追踪执行。

  • 使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore构建多代理系统
  • 架构可减少手动工作,实时响应,扩展到数千交互
  • 支持并行推理、上下文持久化和可追踪执行路径

英伟达发布PiD超分辨率技术,可在像素空间直接从模型潜在变量实现4倍分辨率提升,适用于任何生成图像。

  • 英伟达发布PiD超分辨率技术
  • PiD技术可实现4倍分辨率提升

AWS博客介绍使用Strands Agents开源框架和AWS服务(如Amazon Bedrock、Kiro IDE)构建AI研究助手,仅需30行代码即可实现,展示了快速开发AI应用的方法。

  • Strands Agents是开源框架,简化AI代理创建
  • 结合AWS服务可在30行代码内构建AI研究助手
  • Kiro IDE提供超过50个 curated powers 加速开发

Wood Mackenzie发布分析报告,探讨美国电网制约是否开始重塑数据中心扩张轨迹,关注AI对电网的影响。

  • Wood Mackenzie发布关于电网与数据中心扩张的分析报告
  • 报告主题是美国电网制约对AI数据中心的影响

AI规模数据中心正采用先进电力电子技术处理电压波动和负载波动,使柴油发电机仅作为极端情况下的备用,从而减少运行时间。

  • 先进电力电子技术可处理AI数据中心的电压波动和负载波动
  • 该技术将柴油发电机降级为极端情况备用

诺基亚新增AI基础设施测试实验室,专注于验证数据中心网络和运营韧性,以支持云和AI规模化发展。

  • 诺基亚新增AI基础设施测试实验室
  • 实验室专注于验证数据中心网络和运营韧性

据推特用户zephyr_z9爆料,谷歌TPU v9代号为WhaleFish,TPU v10代号为IceFish。内容属于非官方信息,仅供参考。

  • TPU v9代号为WhaleFish
  • TPU v10代号为IceFish

文章介绍数据中心电源架构向800VDC转变的趋势,指出该技术可减少转换级数、降低电阻损耗,在1GW IT负载下可节省超50MW连续功率,带来数千万美元的电费节省,该转变由物理限制和系统经济性推动。

  • 800VDC可减少转换级数,降低电阻损耗约5%
  • 1GW IT负载下可节省超50MW连续功率
  • 转变由GPU高密度带来的物理限制和经济性推动

NVIDIA发布RTX PRO 4500 Blackwell GPU,旨在加速基因组学和蛋白质折叠工作负载,为精准医疗提供全栈计算平台。该产品结合硬件与软件优化,提升医疗健康领域的计算效率。

  • NVIDIA发布RTX PRO 4500 Blackwell GPU
  • 该GPU用于加速基因组学和蛋白质折叠工作负载
  • NVIDIA提供全栈平台支持精准医疗应用

台湾禾伸堂预计AI电源规格升级将加剧全球MLCC短缺,交期已延长至20周以上;公司产能利用率满,计划2026年底扩产20-30%,2027年再扩30-40%;上游设备交期延长至1-1.5年,AI平台迭代持续推升高规格MLCC需求。

  • AI电源规格升级导致MLCC交期延长至20周以上
  • 禾伸堂计划2026年底扩产20-30%,2027年再扩30-40%
  • 上游MLCC设备交期延长至约1-1.5年

AI产业趋势拉动电子半导体需求,华为Tao定律通过3D堆叠实现等效制程提升,2030年目标等效1.xnm。GPU功率每代提升50%+,出货年增65%,带动MLCC需求年翻倍,村田、三星电机稼动率达95%-100%,产能增速仅10%-20%,供需缺口明显。ABF载板紧缺,深南电路2025年收入目标5亿。

  • 华为Tao定律通过3D堆叠将7nm等效为N4-N5,2030年目标等效1.xnm
  • GPU功率每代提升50%+,出货年增65%,带动MLCC需求年翻倍
  • 村田、三星电机MLCC稼动率95%-100%,产能增速仅10%-20%

全球产业趋势跟踪周报指出,华为发表韬(τ)定律,英伟达继续推动AI基础设施建设,延续算力浪潮。

  • 华为发表韬(τ)定律
  • 英伟达推动AI基建浪潮延续

开发者发布MiMo V2.5-Coder模型,需128GB RAM即可本地运行,速度较快。该模型为最新版本。

  • MiMo V2.5-Coder模型发布
  • 需128GB RAM可本地运行

NVIDIA发布推文称,使用2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型,可同时运行16个本地AI智能体。该配置展示了多智能体协同运行的可行性。

  • 2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型可同时运行16个本地AI智能体
  • 该配置由NVIDIA官方账号发布并展示

SpaceX预计6月12日上市,整合火箭、星链、xAI、X业务,估值望达1.75万亿美元。2025年营收186亿美元,星链盈利44亿美元,火箭和xAI亏损。星链用户超1030万,xAI获Anthropic超400亿美元算力租赁长单。

  • SpaceX预计6月12日上市,估值1.75万亿美元
  • 2025年营收186亿美元,星链盈利44亿美元
  • xAI获Anthropic超400亿美元算力租赁长单

华为在混合键合技术上取得突破,其“tau scaling”依赖HB触点作为电路内路由层,间距缩小到可成为时序路径的一部分,区别于普通3D堆叠。

  • 华为推动混合键合技术,降低触点间距使其可集成到时序路径
  • 其“tau scaling”依赖HB触点作为电路内路由层,而非仅封装I/O

AI数据中心转向800V高压直流(HVDC)电源架构,推动台湾引线框架供应商订单激增。SDI和Jih Lin预计2026年收入实现两位数增长,其中SDI的AI相关收入占比将从2025年的1%快速升至2026年第一季度的6%,HVDC项目收入预计从2026年下半年开始显著提升。

  • AI数据中心800V高压直流架构需求增长推动引线框架需求
  • SDI和Jih Lin预计2026年收入将实现两位数增长
  • SDI的AI收入占比从2025年1%升至2026年Q1的6%

华为提出Tau(τ)缩放定律,作为指导半导体行业未来发展的新原则,有望对芯片设计和制造产生深远影响。

  • 华为提出Tau缩放定律
  • 该定律用于指导半导体行业发展

英伟达、AMD、英特尔等AI芯片大厂对嵌入式基板技术兴趣增长,该技术可改善信号完整性和功率稳定性。日本Ibiden、韩国三星电机、台湾欣兴、景硕和南电等供应商正加大嵌入式基板开发投资,但大规模采用仍处早期阶段。

  • 英伟达、AMD、英特尔对嵌入式基板兴趣增长
  • 嵌入式基板可缩短信号路径,改善PDN阻抗匹配
  • 多家供应商加大嵌入式基板投资开发

华为宣布找到新路径,有望在不使用尖端设备的情况下实现先进半导体突破,缩短与台积电的差距;同时,今年秋季发布的Kirin手机芯片性能将显著提升。

  • 华为称已找到新路径,可能在不使用尖端设备的情况下实现先进半导体突破
  • 今年秋季发布的Kirin智能手机芯片性能将显著提升

英伟达上调GPU出货及营收指引,谷歌发布第八代TPU,月处理token3200万亿(同比增700%),Gemini月活9亿,三季度或加单1.6T光模块;台积电CPO技术下半年量产,明年CPO出货量预计30万台;国内互联网厂商上调资本开支,国产算力需求提升,光芯片未来四年紧缺,液冷今年进入订单交付阶段。

  • 英伟达上调GPU出货及营收指引
  • 谷歌发布第八代TPU,月处理token3200万亿
  • 台积电CPO相关技术下半年量产

AI算力需求持续高景气,CPU受推理及Agentic AI拉动需求激增,供需偏紧导致涨价持续。AI服务器MLCC用量是普通产品数倍,2025年占行业产能超10%,龙头厂商稼动率近满负荷并已开启双位数涨价,国产厂商订单外溢受益。

  • CPU供需偏紧,涨价持续
  • AI服务器MLCC龙头厂商已双位数涨价
  • 国产MLCC厂商订单外溢受益

被动组件分销商Nichidenbo指出,AI服务器需求导致高规格MLCC、大尺寸电解电容等交期从1.5-2个月延长至3-4个月,部分达6个月以上。日韩供应商已停止接受新订单,保守产能扩张加剧供应紧张。预计2026年MLCC需求同比增长11%,电容器需求进一步增长30%。

  • AI服务器需求使高规格MLCC、大尺寸电解电容交期从1.5-2个月延至3-4个月
  • 日韩被动元件供应商已停止接受部分MLCC和电解电容的新订单
  • 预计2026年MLCC需求同比增长11%,电容器需求进一步增长30%

HuggingFace转发推文称,llama.cpp增加MTP支持后,Qwen3.6-27B密集生成模型在本地运行速度足够作为日常使用。推文获122点赞、12转发、11回复、9051次浏览。

  • llama.cpp新增MTP支持
  • Qwen3.6-27B模型本地生成速度提升
  • 模型可日常使用

llama.cpp 新增 MTP 支持,使本地模型运行速度显著提升。在 A10G 上,Qwen3.6-27B 密集生成速度从 25 tok/s 提升至 45 tok/s,增幅达 78%。

  • llama.cpp 增加 MTP 支持
  • Qwen3.6-27B 在 A10G 上速度提升 78%

推特讨论HBF技术主要适用于读取密集型高容量数据,并指出随着模型规模增长,HBF可能有用。同时提到英伟达当前策略是扩大scale-up域规模至144/576/1152,将权重存储在大域中,并通过STX将KV缓存卸载到SSD。

  • HBF主要针对窄范围工作负载,如读取密集型高容量数据
  • 英伟达策略是扩大scale-up域至144/576/1152并存储权重
  • 英伟达通过STX将KV缓存卸载到SSD

据推特爆料,英伟达在GIDS方案中考虑使用高可靠性、高速度的NAND(如200M IOPS),而非HBF。HBF因写入寿命短不适合KV缓存等重写任务,可能仅用于存储权重。若采用,架构或为8 HBM堆栈加4 HBF堆栈。

  • 英伟达考虑采用高可靠性高速度NAND用于GIDS
  • 英伟达不考虑在GIDS中使用HBF

重定时器(retimer)作为AI芯片时代隐藏核心组件,用于恢复芯片间因高速传输而衰减的信号。随着PCIe 5.0速率达32 GT/s,信号完整传输距离极短,retimer比redriver能完全恢复信号。PCIe代际升级使速度更快,信号传输距离缩短,驱动retimer需求指数增长。

  • retimer用于恢复高速芯片间传输的衰减信号
  • PCIe 5.0速率32 GT/s下信号完整传输距离极短
  • retimer比redriver能完全恢复信号

SemiAnalysis指出,现场天然气已不再是边缘选择,而是悄然成为美国下一代AI训练集群的默认规划假设。

  • 现场天然气成为美国下一代AI训练集群的默认规划假设
  • 该转变是悄然发生的,此前被视为边缘选项

GBrain最新版本支持合成回答功能,可针对特定问题生成答案,并进行了GBrain搜索与思考的AB测试,产品持续迭代。

  • GBrain最新版本支持合成回答功能。
  • 进行了GBrain搜索与思考的AB测试。

据分析,现代代理编码中42%的时间用于CPU进行工具使用。传统云计算按CPU核心收费,而代理经济按token收费,为增加token收入,需增加CPU算力。

  • 现代代理编码中42%的时间用于CPU进行工具使用。

公用事业公司正围绕大型AI训练园区规划,但分布式推理工作负载可能改变未来电力需求的地点和方式,现有电网未完全准备好应对AI带来的电力需求增长。

  • 公用事业围绕大型AI训练园区进行电力规划
  • 分布式推理工作负载可能改变电力需求分布
  • 现有电网未准备好应对AI带来的电力需求

根据预测,台积电CoWoS产能到2027年底将达到每月21万片(WPM),反映了先进封装技术的持续扩展。

  • CoWoS产能预计2027年底达21万片/月

据 Twitter 用户 @jukan05 称,Agentic AI CPU 服务器所需内存容量是通用服务器的 4 倍。该观点获得 643 次点赞,反映业内对 AI 服务器高内存需求的关注。

  • Agentic AI CPU 服务器内存需求是通用服务器的 4 倍

行业趋势显示AI模型公司正转向智能体产品。OpenAI的Greg表示模型不再是产品,需结合智能体;AI21关闭模型团队,全面转向智能体;DeepSeek首次建立‘Harness团队’。这表明模型质量不再是护城河,产品竞争转向模型、智能体、工作流、UI、记忆和经济的综合考量。

  • Greg表示模型不再是产品,需结合智能体
  • AI21关闭模型团队,全面转向智能体
  • DeepSeek首次建立Harness团队

推特用户@dwarkesh_sp分享了@reinerpope关于AI芯片时钟周期的解释:芯片内部电路每秒数十亿次暂停,由时钟周期控制。内容包含视频链接,属于技术普及。

  • AI芯片电路每秒暂停数十亿次,原因在于时钟周期。

reinerpope发布新黑板讲座,从逻辑门开始讲解AI训练和推理的构建过程,并手工演示4位乘累加操作,指出该操作是训练中矩阵乘法的基础。

  • reinerpope发布黑板讲座视频,讲解AI训练和推理如何从逻辑门构建
  • 手工演示4位乘累加,作为训练中矩阵乘法的基础操作

摩根士丹利发布NVL72 BoM分析,指出内存价值不含HBM;Nvidia对内存加价;PCB因无缆设计面积和材料升级;BoM价格为OEM渠道价格,超大规模云和Neocloud成本更低。

  • NVL72 BoM中内存成本不含HBM,HBM计入GPU项
  • Nvidia对采购内存加价,供应商收入低于BoM显示
  • PCB内容因无缆设计导致面积和材料升级

SemiAnalysis分析了43.2万个真实编码代理请求,发现中位数输入令牌数为9.6万,超过《了不起的盖茨比》全文,表明代理工作负载正在改变推理经济学。

  • 中位数输入令牌为9.6万
  • 数据来源:432k个真实编码代理请求

llama.cpp 项目宣布新增 WebGPU 后端支持,该项目是 ggml 库的一部分,旨在提升在浏览器中的推理性能。

  • llama.cpp 新增 WebGPU 后端支持
  • 该工作基于 ggml 库实现
  • 旨在实现完整的 WebGPU 支持

NVIDIA 发布 AI-Q agent skill 开源深度研究工具,可将研究管道打包成便携技能,集成到 agent harness 中,委托本地或托管 AI-Q 服务器执行任务并返回带引用的详细报告。

  • NVIDIA 发布开源深度研究工具 AI-Q agent skill
  • 该工具可将研究管道打包成便携技能,集成到 agent harness
  • 代理可委托 AI-Q 服务器执行任务并返回带引用报告

a16z引用数据称,Google每月处理的token数量超过3.2 quadrillion,较一年前增长7倍。

  • Google每月处理超过3.2 quadrillion tokens
  • 同比去年增长7倍