清除 当前 781 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 19 小时前 微信公众号 · 42章经 · 4 天 14 小时前 微信公众号 · DeepTech深科技 · 4 天 14 小时前 微信公众号 · Founder Park · 4 天 14 小时前 微信公众号 · FundaAI · 4 天 14 小时前 微信公众号 · 九章智驾 · 4 天 14 小时前 微信公众号 · 晚点LatePost · 4 天 14 小时前 微信公众号 · 琢磨事 · 4 天 14 小时前 微信公众号 · 甲子光年 · 4 天 14 小时前

llama.cpp/ggml 宣布推出全新 WebGPU 后端,支持浏览器端运行大模型,提升推理性能。该项目已开始全面集成 WebGPU 支持。

  • llama.cpp/ggml 推出新 WebGPU 后端
  • 该项目开始全面支持 WebGPU

Microsoft Azure 宣布 Azure NetApp Files 在 EDA 工作负载中取得性能突破,通过新独立基准测试证实其可提供可预测的高性能共享存储,支持大规模并发,并已获得领先半导体公司采用,推动芯片设计上云。

  • Azure NetApp Files 实现低延迟、高吞吐的 EDA 存储性能突破
  • 新独立基准测试验证了其大规模并发下的可预测性能
  • 领先半导体公司正在采用 Azure NetApp Files 进行芯片设计

AI推理工作负载正推动数据中心从郊区回迁至城市区域。Mathpix在布鲁克林部署GPU,表明生产型AI需求驱动城市托管基础设施增长。

  • AI推理工作负载推动数据中心回迁至城市区域
  • Mathpix在布鲁克林部署GPU基础设施
  • 生产型AI需求驱动城市托管基础设施增长

HSCALE在意大利米兰获得250MW电力容量,承诺超过20亿欧元用于两个园区的超大规模数据中心建设,计划于2028年前交付。

  • HSCALE在米兰两个园区获得250MW电力容量
  • 承诺超过20亿欧元用于超大规模数据中心建设

东方公用事业报告指出,算电协同为早期政策支持的产业。一季度实际弃风弃光率超10%,2025年数据中心用电量近2000亿度,其中AIDC占25%-30%。预计2030年智算用电量中性达5000-6000亿度。

  • 一季度实际弃风弃光率超10%
  • 2025年数据中心用电量近2000亿度,AIDC占25%-30%
  • 预计2030年智算用电量中性达5000-6000亿度

AI半导体内存墙问题催生新方案:GPU与HBM解耦,通过光学互连远距离安装更多HBM。国内大型内存厂商研究人员于5月22日透露正与客户讨论该方案,以突破HBM带宽和容量扩展瓶颈,同时HBM堆叠超过16层面临物理极限。

  • 国内外内存和封装行业提出GPU-HBM通过光学互连解耦方案。
  • 国内大型内存厂商5月22日表示正与客户讨论光学互连方案。
  • HBM堆叠超过16层面临工艺难度和物理极限。

推文指出LLM训练依赖快速矩阵乘法,但许多周围操作仍受内存限制。CODA方法对这些内核进行重新参数化优化。

  • LLM训练中许多周围操作是内存受限的内核
  • CODA重新参数化这些内存受限的内核

作者指出AI从廉价聊天工具转向高成本AI代理,上下文窗口更大,推理成本高一个数量级。AI能力持续提升,高端用例继续使用前沿模型,低端任务转向低成本模型。成本分层扩大,企业需管理AI成本。

  • AI从廉价聊天工具转向具有大上下文窗口和更高推理成本的AI代理
  • 高端用例继续使用前沿模型,低端任务转向低成本模型
  • AI推理成本分层扩大,企业需管理成本

英伟达CEO黄仁勋与戴尔CEO迈克尔·戴尔共同发布戴尔AI工厂重大更新,该全栈平台支持从桌面工作站到大规模数据中心机架,运行英伟达Vera Rubin芯片,旨在推动企业自主AI代理的发展。

  • 英伟达与戴尔联合发布戴尔AI工厂重大更新
  • 新平台运行英伟达Vera Rubin芯片
  • 覆盖从桌面工作站到数据中心机架

AMD加速推出下一代Helios机架级AI平台,计划2026年下半年开始量产部署;台湾ODM厂商(纬创、纬颖、英业达)已开始量产准备,预计2026年Q2末至Q3开始出货;前五大北美云商大幅增加机架式AI服务器采购,AMD成为供应链多元化关键;微软积极采用AMD作为第二AI加速平台。

  • AMD加速推出下一代Helios机架级AI平台,计划2026年下半年量产部署
  • 台湾ODM厂商(纬创、纬颖、英业达)已开始量产准备,预计Q2末至Q3出货
  • 微软指定AMD为第二AI加速平台,Helios系统2026年下半年量产

高通(Qualcomm)向字节跳动(ByteDance)和亚马逊(Amazon)提供ASIC(专用集成电路)服务,表明其拓展定制芯片业务。

  • 高通为字节跳动和亚马逊提供ASIC服务。

Gavin Baker发推表示高兴得知Starcloud将使用SpaceX进行发射,并称星载H100已在太空中用于训练和推理。

  • Starcloud将使用SpaceX进行发射
  • 星载H100已在太空中用于训练和推理

Daytona发布Agent-Native Compute产品,宣称60ms沙箱启动,75秒内注册5万初创公司,日运行850万次,支持RL/评估,CLI优于MCP。

  • 沙箱启动仅60ms
  • 75秒内注册5万初创公司
  • 日运行量达850万次

Lambda API与Hudson River Trading达成合作,将利用NVIDIA HGX B200系统为量化研究提供算力支持,该系统据称具备高计算能效和低令牌成本。

  • Lambda API与Hudson River Trading合作
  • 使用NVIDIA HGX B200系统
  • 用于量化研究与开发

EDA行业三大巨头Synopsys、Cadence和Siemens EDA合计市场份额超85%,2025年总收入约160亿美元。EDA行业以13% CAGR增长,超过半导体研发支出的7%增速,研发强度正从销售额的6%升至9%。

  • 三大EDA公司占据超85%市场份额,合计收入约160亿美元。
  • 2025年Synopsys收入80亿美元,Cadence 53亿美元,Siemens EDA约22-25亿美元。
  • EDA行业增速13%,超过半导体研发增速7%,研发强度从6%升至9%。

Daytona发布Agent-Native Compute服务,沙箱启动仅60ms,75秒内可启动5万个初创环境,日运行85万次。CEO解释AI代理需要可组合计算机,RL工作负载占比从0%增至约50%。

  • 沙箱启动时间60ms,75秒启动5万初创环境
  • 日运行次数85万次
  • RL工作负载使用占比从0%增至约50%

NVIDIA发布技术博客,介绍使用Slurm拓扑感知作业调度,以充分发挥GB200 NVL72机架的Exascale计算性能,支持实时万亿参数模型。

  • NVIDIA GB200 NVL72单机架实现Exascale计算
  • 共享集群需拓扑感知调度器以发挥硬件性能
  • Slurm调度器可优化GB200 NVL72上的作业放置

AWS 发布技术方案,通过 Amazon Bedrock AgentCore Runtime 集成 MCP 服务器,使 Amazon Quick 能够将自然语言查询转换为 AWS CLI 命令,无需切换工具,并保留 IAM 权限和 CloudWatch 审计。

  • AWS 推出 Bedrock AgentCore Runtime 集成 MCP 服务器的方案
  • 该方案将自然语言查询直接转换为 AWS CLI 命令
  • 方案运行在现有 IAM 权限内并提供 CloudWatch 审计

本文介绍了使用Amazon Bedrock AgentCore Code Interpreter和Strands Agents SDK实现递归语言模型(RLM)的方法,以突破上下文窗口限制,处理任意长度的文档,通过子LLM调用分析特定文档段落。

  • Amazon Bedrock AgentCore Code Interpreter可用于实现RLM处理超长文档
  • RLM方法通过子LLM调用分析文档特定段落
  • Strands Agents SDK用于构建RLM工作流

OPLOG使用Amazon Bedrock AgentCore构建AI代理驱动的商业智能系统,整合Hubspot CRM等数据源,实现销售周期缩短35%、CRM数据完整性提升91%、手动研究时间减少98%。系统结合Anthropic Cloude Sonnet和Amazon Bedrock Knowledge Bases。

  • OPLOG使用Amazon Bedrock AgentCore构建BI系统
  • 系统将销售周期缩短35%
  • CRM数据完整性提升91%,手动研究时间减少98%

AWS发布博客介绍结合Amazon Bedrock AgentCore、Strands Agents和Amazon Quick的AI驱动仪表板自动化代理解决方案,采用多智能体架构,可实现自然语言驱动的仪表板修改,减少传统IT流程的等待时间。

  • Amazon Bedrock AgentCore与Strands Agents及Amazon Quick集成构建多智能体架构
  • 该方案包含三个专用代理:查找仪表板代理、转换数据代理、构建仪表板代理
  • 旨在将仪表板修改周期从天级缩短至实时

全球电信公司正基于NVIDIA Cloud Partner参考架构建设主权AI工厂,为政府、企业和初创公司提供国内AI基础设施,并探讨如何构建按token计费的生产级企业AI服务。

  • 全球电信公司基于NVIDIA Cloud Partner架构建设主权AI工厂
  • 工厂为政府、企业和初创公司提供国内AI基础设施
  • 文章讨论构建按token计费的企业AI服务

美国政府将CHIPS法案产业政策扩展至量子计算领域,通过支持IBM和D-Wave的交易,推动量子制造和计算发展。

  • IBM和D-Wave获得美国政府支持的交易
  • 美国将CHIPS产业政策延伸至量子计算

据The Information报道,Anthropic正与微软谈判租用其自研AI芯片Maia的服务器,以应对AI需求增长。微软已向Anthropic提供额外Nvidia服务器资源并建设新集群,同时通过Maia 200芯片降低Copilot工具成本,该工具使用Claude模型已产生至少5亿美元支出。

  • Anthropic正谈判租用微软自研AI芯片Maia的服务器
  • 微软已向Anthropic提供额外Nvidia服务器资源并建设新集群
  • 微软为Copilot使用Claude模型已支付至少5亿美元

SpaceX提交IPO文件,将其重新定义为垂直整合的AI基础设施平台,覆盖计算、网络、能源和轨道系统。

  • SpaceX递交IPO文件
  • 文件将公司定位为AI基础设施平台

据传闻,由于内存价格上涨导致BOM占比过高,英伟达正进行系统级优化,内部讨论在部分Vera Rubin配置中减少系统DDR内存(可能指LPDDR),HBM容量不变。

  • 内存价格上涨导致BOM占比过高
  • 英伟达内部讨论减少Vera Rubin配置中的系统DDR内存
  • HBM容量维持不变

OpenAI的通用推理模型(推测为GPT5.6)在32小时内以低于1000美元的成本,解决了1946年提出的Erdős平面单位距离问题,发现了新的构造族。该结果得到数学家Timothy Gowers肯定,被认为是AI解决著名开放数学问题的首个明确例子。

  • OpenAI通用推理模型解决Erdős平面单位距离问题
  • 模型运行时间<32小时,成本<1000美元
  • 结果获数学家Timothy Gowers高度评价

Google为开源生产Kubernetes分布式推理工具llm-d添加了夜间CI。TPU在llm-d的CI和代码质量上正在追赶NVIDIA。AMD尚未将其GPU或NIC加入该CI。

  • Google为llm-d添加夜间CI。
  • TPU在llm-d CI和代码质量上追赶NVIDIA。
  • AMD尚未将GPU或NIC加入llm-d CI。

韩国5月1-20日DRAM出口数据:出口额115.27亿美元,同比增长498%,环比增长27%;出口单价60319美元/千克,同比上涨432%,较4月20日上涨5%。

  • 韩国5月1-20日DRAM出口额115.27亿美元,同比增498%
  • DRAM出口单价60319美元/千克,同比增432%
  • DRAM出口额环比4月同期增27%

英伟达在电话会议中预计,其独立Vera CPU市场在2027财年将达到200亿美元。Vera作为Grace的继任者,针对AI代理工作负载优化,预计售价更高。

  • 英伟达预计Vera CPU市场在FY2027达到200亿美元

亚马逊SageMaker AI推出OpenAI兼容API支持,实时推理端点新增/openai/v1路径,接受Chat Completions请求并支持流式响应。用户无需自定义客户端或SigV4包装,只需更改端点URL即可使用OpenAI SDK、LangChain等调用模型。同时支持为端点创建限时bearer令牌,简化认证。此举降低了AI工作负载在SageMaker上部署和调用的复杂性。

  • SageMaker AI端点新增/openai/v1路径支持OpenAI兼容API
  • 支持Chat Completions请求和流式响应
  • 用户可创建限时bearer令牌用于OpenAI客户端

xAI 表示 Colossus 1/2 数据中心有重大扩展计划,计划部署超过 100 万 GPU,容量将远超 1.2GW。

  • xAI 计划扩展 Colossus 数据中心
  • 计划部署超过 100 万 GPU
  • 容量将超过 1.2GW

hwchase17发布轻量级代码执行环境code interpreter,支持RLMs和程序化工具调用,无需完整沙箱。

  • code interpreter是轻量级代码执行环境
  • 支持RLMs和程序化工具调用

xAI与Anthropic达成计算资源销售协议,Anthropic每月将向xAI支付12.5亿美元以获得计算服务。该协议是两家AI公司之间的大规模商业合作,具体金额首次公开。

  • xAI与Anthropic达成计算资源销售协议
  • Anthropic每月向xAI支付12.5亿美元
  • 具体金额首次公开

英伟达AI超大规模客户营收在四月季度同比增长191%(不含中国),博通预计下一季度AI业务同比增长143%。

  • 英伟达AI超大规模客户营收四月季度同比增191%
  • 博通预计下季度AI业务同比增143%

亚马逊云科技宣布自2025年11月起,Amazon SageMaker AI支持双向流式推理,结合vLLM的Realtime API实现WebSocket双向流,用于构建实时语音转文本服务。文章展示了部署Mistral AI的Voxtral-Mini-4B-Realtime-2602模型至SageMaker端点,支持语音代理、实时字幕等应用。

  • Amazon SageMaker AI自2025年11月起支持双向流式推理
  • vLLM Realtime API通过WebSocket实现双向流
  • 部署Voxtral-Mini-4B-Realtime-2602模型实现实时语音转文本

llama.cpp 发布 b9235 版本,新增推理加速功能,并在 RTX 5090 上对 Qwen3.6 27B 模型进行了基准测试,展示了性能提升。

  • llama.cpp b9235 版本发布,新增推理加速功能
  • 在 RTX 5090 上对 Qwen3.6 27B 进行了基准测试

ASML 将从2027年底起限制 DRAM 产能扩张,重点是转向 EUV 工具,这将导致存储厂商与台积电、英特尔竞争。

  • ASML 将成为 DRAM 产能扩张的限制因素
  • 从2027年底起转向 EUV 工具

文章指出可持续采购正重塑数据中心能源格局,超大规模数据中心将长期电力采购与电网脱碳、成本稳定和基础设施相结合,推动行业绿色转型。

  • 超大规模数据中心正将长期电力采购与电网脱碳相结合
  • 可持续采购旨在实现成本稳定和基础设施优化

FAST-41法案适用范围扩大,现在涵盖AI数据中心、关键矿产和输电,形成单一联邦许可框架。

  • FAST-41法案适用范围扩大
  • 涵盖AI数据中心和关键矿产
  • 形成单一联邦许可框架

Jabil在JP Morgan炉边谈话中确认,与Sivers合作的1.6T LRO光收发器量产时间提前,未来1-4个月进入认证,认证周期2-6个月。该产品功耗约11千瓦,远低于现有1.6T方案,形成显著竞争壁垒。需求极度旺盛,供应不足,任何生产的产品都将被市场采购,收入实现窗口预计在2026年底至2027年初。

  • Jabil的1.6T LRO将在未来1-4个月进入认证,认证期2-6个月。
  • 1.6T光收发器功耗约11千瓦,远低于当前方案。
  • 需求远超供应,Sivers和Jabil的产品基本会被市场全部购买。

OpenAI宣布向Y Combinator当前批次的每家初创公司提供200万美元API积分,用于支持下一代AI应用的计算需求。

  • OpenAI向YC当前批次每家初创公司提供200万美元API积分
  • 积分用于支持AI应用的计算需求

Google在I/O 2026发布Gemini 3.5 Flash,月处理token量达3.2万亿同比增长7倍,Gemini应用月活超9亿覆盖230+国家。同时展示Gemini Live语音、Omni视频等模态及Antigravity代理栈。

  • Gemini 3.5 Flash正式发布,定位快速代理/编码模型
  • Google月处理token量3.2万亿,同比增长7倍
  • Gemini应用月活9亿+,覆盖230国70+语言

在Google I/O大会上,NVIDIA和Google Cloud宣布联合开发者社区在一年内突破10万名开发者。社区成员已构建RAG应用、多智能体管道等。今年新增JAX学习路径、NVIDIA Dynamo优化codelab和月度开发者直播。此外,NVIDIA与Google DeepMind合作,使用SynthID为NVIDIA Cosmos模型输出添加水印。

  • NVIDIA与Google Cloud开发者社区一年内超10万名开发者
  • 新增JAX学习路径、NVIDIA Dynamo on GKE codelab
  • NVIDIA与Google DeepMind合作使用SynthID水印

谷歌Q1云业务同比增长63%,积压订单达4620亿美元,环比增90%;今年TPU出货指引400-480万颗,明年1500万颗,后年3000万颗,产业链预计明年增长3倍;Anthropic年化收入4月初300亿美元,预期5月底达500亿美元;谷歌I/O大会将发布新Gemini模型、安卓17等,利好TPU、OCS、液冷产业链。

  • 谷歌Q1云业务同比增63%,积压订单环比增90%
  • 今年TPU出货指引400-480万颗,明年1500万颗
  • Anthropic年化收入4月初300亿美元,预期5月底500亿美元

NVIDIA发布Nemotron-Labs-Diffusion系列扩散语言模型,参数规模3B至14B,支持并行生成多个token并在生成过程中进行修订,提升推理速度,还包括视觉语言变体。

  • NVIDIA发布Nemotron-Labs-Diffusion扩散语言模型家族
  • 模型可并行生成多个token并支持修订
  • 模型参数范围3B至14B,含视觉语言变体

gdb在推特宣布,提供折扣token和容量保证以换取1-3年承诺,并预期未来模型持续进步将导致容量日益紧张。

  • gdb提供折扣token和容量保证以换取1-3年承诺
  • gdb预期未来模型进步将导致容量持续紧张

伯克希尔哈撒韦于2025年Q3首次投资谷歌,并在2026年Q1加仓。巴菲特引用对TPU v5p架构的理解,表示其类似于铁路系统。

  • 伯克希尔哈撒韦于2025年Q3首次投资谷歌
  • 2026年Q1伯克希尔加仓谷歌股份

OpenAI CEO Sam Altman在推特表示,客户对算力确定性需求增加,随着模型进步,全球算力将长期供不应求。公司推出1-3年承诺的折扣令牌,以帮助规划并实现双赢。

  • OpenAI提供1-3年承诺的折扣令牌。
  • 客户对算力确定性需求增加。
  • 算力可能长期供不应求。

NVIDIA宣布与Blue Yonder合作,致力于为全球供应链带来可扩展的AI创新。双方未披露具体合作细节。

  • NVIDIA宣布与Blue Yonder合作