清除 当前 781 条 / 共 3563 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 21 小时前 微信公众号 · 42章经 · 4 天 16 小时前 微信公众号 · DeepTech深科技 · 4 天 16 小时前 微信公众号 · Founder Park · 4 天 16 小时前 微信公众号 · FundaAI · 4 天 16 小时前 微信公众号 · 九章智驾 · 4 天 16 小时前 微信公众号 · 晚点LatePost · 4 天 16 小时前 微信公众号 · 琢磨事 · 4 天 16 小时前 微信公众号 · 甲子光年 · 4 天 16 小时前

SemiAnalysis发布推文称,Anthropic在一个周三增加了200MW电力容量。该信息暗示Anthropic正在扩张算力基础设施,但未披露具体项目细节。

  • Anthropic在一周内增加了200MW电力容量

一位用户在推文上发布了一项新的子二次注意力技术,声称可使长上下文大语言模型成本降低10倍且不牺牲性能,并附有链接。该技术可能影响AI模型的效率。

  • 新子二次注意力技术可降低长上下文LLM成本10倍
  • 技术不牺牲性能

AI从训练向推理演进,CPU/GPU配比变化,未来70%-80%算力将消耗在CPU上。AMD预测2030年AI CPU市场规模超1200亿美元,服务器CPU已涨价10%-20%。英特尔AI营收占比达60%,同比增长40%。国内海光等CPU厂商及配套公司将受益。

  • AMD预测2030年AI CPU市场规模超1200亿美元
  • 服务器CPU今年3月已涨价10%-20%
  • 英特尔AI营收占比达60%,同比增40%

豆包推出三档付费增值服务,海外Anthropic 2026年5月ARR达440亿美元,OpenAI预计2030年AI广告营收1020亿美元。年初至今算力租赁价涨40%,相关上市公司一季度净利增近5倍,回本周期缩至2年,净利率超20%。超节点可提升算力效率,交换芯片配比提升5-6倍,国产化进度更快。

  • 豆包推出三档付费增值服务
  • 年初至今算力租赁价涨40%
  • 相关上市公司一季度净利增近5倍

Anthropic CEO Dario Amodei表示,今年早些时候公司使用量和收入增长了80倍,因此将继续尽可能多地获取算力。

  • Dario称今年早些时候使用量和收入增长80倍
  • 公司将继续尽可能多地获取算力

SEMI与TechInsights联合发布2026年Q1半导体制造监测报告,显著上调2026年电子、IC销售和半导体资本支出展望。AI芯片在半导体组合中份额持续增长,得益于超大规模资本支出和AI基础设施投资周期。晶圆厂利用率改善,但增长由高价值器件和工艺复杂度驱动,而非晶圆产能扩张,先进封装和测试成为有效产出瓶颈。

  • SEMI与TechInsights发布Q1 2026半导体制造监测报告
  • 2026年电子、IC销售和半导体资本支出展望显著上调
  • AI芯片份额持续增长,先进封装制约有效产出

ZyphraAI发布推理MoE模型ZAYA1-8B,训练于AMD平台,活跃参数小于1B,优化智能密度。

  • ZyphraAI发布ZAYA1-8B推理MoE模型
  • 模型在AMD上训练,活跃参数小于1B

NVIDIA与Unsloth合作,通过开源贡献使LLM训练速度提升约25%,并发布指南以降低训练门槛。

  • NVIDIA与Unsloth合作使LLM训练速度提升约25%
  • 双方发布训练优化指南

UnslothAI与NVIDIA合作发布了一项技术,通过3种优化方法使LLM训练速度提升约25%,并分享了实现细节。

  • UnslothAI与NVIDIA合作,实现LLM训练提速约25%
  • 通过3种优化方法实现加速

英伟达宣布与SpaceX和AnthropicAI达成新的计算合作伙伴关系,将提供超过22万块英伟达GPU,部署在Colossus 1超级计算机上。

  • 英伟达与SpaceX和AnthropicAI建立计算合作伙伴关系
  • 合作由Colossus 1中的22万+英伟达GPU提供算力

Anthropic宣布与SpaceX达成合作伙伴关系,将大幅增加其计算能力。该合作将支持其AI模型的训练和推理需求。

  • Anthropic与SpaceX达成合作
  • 计算能力将大幅增加

NVIDIA AI宣布推出TokenSpeed推理引擎,专为高速智能体工作负载设计。该引擎具备高级KV缓存管理、安全高效调度器、可插拔分层内核系统,支持多芯片,并在NVIDIA Blackwell上实现最快的MLA注意力内核。

  • TokenSpeed是NVIDIA发布的全新推理引擎
  • TokenSpeed在NVIDIA Blackwell上拥有最快的MLA注意力内核
  • 该引擎支持多芯片,采用可插拔分层内核系统

谷歌发布并部署了新的开源网络协议MRC,专为大型AI训练集群设计,旨在提高多路径可靠连接性能,已在谷歌最大训练集群上生产部署。

  • 谷歌发布开源网络协议MRC
  • MRC用于大型AI训练集群
  • 已在谷歌最大训练集群部署

该公司自研推理引擎ROSE,用于处理从嵌入到万亿参数MoE的生产及API流量。ROSE集成了CuTeDSL,以加速内核部署并在Hoppers和Blackwells GPU上实现峰值性能。

  • 公司自研推理引擎ROSE覆盖嵌入到万亿参数MoE的生产和API流量
  • ROSE集成CuTeDSL以加速内核部署
  • ROSE在Hoppers和Blackwells上实现峰值性能

Perplexity AI宣布自研推理引擎ROSE,用于服务从嵌入模型到各种规模的模型,提升运行时优化。

  • Perplexity AI开发了自研推理引擎ROSE。
  • ROSE用于服务从嵌入模型到多种规模的模型。

OpenAI发布新型网络协议Multipath Reliable Connection (MRC),用于AI超级计算机中大规模芯片间的高效可靠数据传输,并向全行业开放使用。

  • OpenAI推出新网络协议MRC
  • MRC用于AI超级计算机大规模芯片间数据传输
  • MRC协议向全行业开放使用

OpenAI与AMD、博通、英特尔、微软、英伟达合作发布新型开放网络协议MRC,旨在提升大型AI训练集群的速度和可靠性,减少GPU时间浪费。该协议通过多路径可靠连接优化网络性能,影响AI计算基础设施。

  • OpenAI与AMD、博通等合作发布MRC协议
  • MRC旨在提升AI训练集群效率和可靠性
  • 协议涉及多家芯片与云计算巨头

OpenAI推出了新的MRC网络协议,旨在解决大规模AI集群中的网络拥塞和故障挑战。当前超大规模云商正将GPU集群扩展到数十万张,该协议旨在提升通信效率和可靠性。

  • OpenAI发布MRC网络协议。
  • MRC旨在解决大规模AI集群的拥塞和故障。
  • 超大规模云商正扩展到数十万GPU。

OpenAI推出新的Multipath Reliable Connection(MRC)网络协议,旨在减少大型AI集群中的拥塞和故障相关减速,支持超大规模扩展至数十万GPU,以应对日益增长的算力需求。

  • OpenAI发布MRC协议以减少AI集群拥塞
  • 该协议针对大规模GPU集群的可靠性优化
  • 支持扩展至数十万GPU的超大规模部署

AMD MI355x在SGLang上运行DeepSeekv4 Pro,自发布以来每GPU吞吐量提升超过10倍。

  • AMD MI355x在SGLang上实现>10x吞吐量提升
  • 针对DeepSeekv4 Pro模型

海外AI四巨头最新财报均超预期,谷歌云营收同比增63%创历史新高,微软AI年化收入达370亿美元,AWS营收同比增28%,Meta营收同比增33%。谷歌、微软、Meta上调资本开支,亚马逊2026年资本开支指引达2000亿美元,均重点投向AI算力。

  • 谷歌云营收同比增63%,积压订单超4620亿美元
  • 微软AI年化收入达370亿美元,同比增123%
  • 亚马逊2026年资本开支指引达2000亿美元,同比增56%

GBrain v0.27.1版本发布,新增支持多模态图像嵌入功能。

  • GBrain v0.27.1支持多模态图像嵌入

vLLM项目宣布即日起支持Gemma4的MTP(多令牌预测),提供即用Docker镜像,解码速度可提升至3倍。

  • vLLM支持Gemma4的MTP功能
  • 提供即用Docker镜像
  • 解码速度提升至3倍

海外AI巨头资本开支上修至近7000亿美金,微软AI年化收入超370亿美金,亚马逊AI收入超150亿美金;存储AI需求年复合增速超50%,CPU与GPU配比将达1:1。

  • 海外AI巨头资本开支上修至近7000亿美金
  • 微软AI年化收入超370亿美金
  • 存储AI需求年复合增速超50%

Gemma 4 通过 MTP drafters 实现投机解码,速度提升高达 3 倍 tokens/sec。

  • Gemma 4 使用 MTP drafters 进行投机解码
  • 速度提升高达 3 倍 tokens/sec

AWS宣布在AgentCore Browser中推出OS级别操作功能,使AI代理能够与操作系统原生UI交互,如系统打印对话框、键盘快捷键、右键菜单等,解决了之前CDP和Playwright无法操作OS渲染内容的限制,适用于生产环境中复杂的浏览器自动化场景。

  • AWS推出AgentCore Browser的OS级别操作功能
  • 新功能可处理系统打印对话框、键盘快捷键等OS原生UI
  • 解决视觉型代理在原生UI出现时无法操作的问题

Lattice半导体与SEALSQ公司合作,推出基于TPM的FPGA架构,用于边缘硬件信任,集成安全启动、认证和后量子密码学。

  • Lattice与SEALSQ合作推出TPM锚定FPGA架构
  • 该架构支持安全启动、认证及后量子密码学

NVIDIA AI发文称,运行规模化agentic工作负载对token消耗、上下文长度和延迟要求极高。Vera Rubin平台通过极致协同设计,针对此类复杂工作负载,可在万亿参数MoE模型上实现每用户每秒400+ tokens。

  • NVIDIA推出Vera Rubin平台,用于运行agentic工作负载
  • 该平台在万亿参数MoE模型上实现每用户每秒400+ tokens

NVIDIA技术博客指出生成式AI正从人类请求-模型响应模式转向代理系统。代理系统不遵循预定序列,而是调用工具、生成子代理、管理记忆和上下文窗口,并自主决定完成时机。文章介绍了应对这种复杂性的极简协同设计方法。

  • 代理系统调用工具并生成子代理处理不同任务
  • 代理系统自主管理记忆和上下文窗口
  • 代理系统决定自身何时完成工作

Meta押注太空太阳能,凸显AI数据中心电力需求与电网扩张之间的差距。新的能源合作伙伴关系表明,近期数据中心电力需求增长快于电网基础设施的扩展速度。

  • Meta投资太空太阳能项目
  • AI数据中心电力需求与电网扩张存在差距
  • 新的能源合作伙伴关系凸显矛盾

OpenAI通过OCP发布了名为MRC(多路径可靠连接)的新型超级计算机网络协议,旨在提升大规模AI训练集群的韧性和性能。

  • OpenAI发布MRC超级计算机网络协议
  • MRC通过OCP开放发布
  • MRC旨在提升AI训练集群韧性和性能

Legrand 被选中为葡萄牙 Start Campus 的 1.2GW Sines 数据中心部署先进冷却方案,以支持高密度 AI 工作负载的机架级高效冷却。

  • Legrand 为 Start Campus 的 1.2GW 数据中心部署冷却方案
  • 该数据中心支持高密度 AI 工作负载

Peter Thiel领投初创公司Panthalassa 1.4亿美元B轮融资,该公司建造自主漂浮计算结构,利用波浪能供电和海水冷却,用于AI数据中心。每个85米钢制节点可在公海自主航行,估值近10亿美元。

  • Peter Thiel领投Panthalassa 1.4亿美元B轮融资
  • 公司建造漂浮AI计算节点,利用波浪能和海水冷却
  • 每个节点85米,可自主航行

ClementDelangue转发Gabriel的推文,称本地AI语音模型在苹果M4 Max笔记本上运行速度比M2 Max快4倍,显示了Apple Silicon的迭代性能提升。

  • 本地AI语音模型在M4 Max上比M2 Max快4倍

IBM发布Granite 4.1系列LLM,包括3B、8B和30B三种尺寸,采用Apache 2.0开源许可。Unsloth提供了21个GGUF量化变体,文件大小从1.2GB到6.34GB,总计51.3GB。文章还提及该系列的训练过程详情。

  • IBM发布Granite 4.1系列LLM,有3B、8B、30B三种尺寸
  • Granite 4.1采用Apache 2.0开源许可
  • Unsloth提供21个GGUF量化变体,总大小51.3GB

NVIDIA内部使用基于cuOpt的智能工作流优化供应链,该工具已开源,支持多智能体编排和GPU加速求解器,可在几分钟内完成优化,并提供预配置GPU环境供开发者试用。

  • NVIDIA内部使用cuOpt优化供应链
  • cuOpt已开源,支持多智能体编排
  • 提供预配置GPU环境供开发者试用

据推特消息,GB300 ultra NVL72在vllm推理引擎上比GB200 NVL72快2.7倍。虽然理论性能提升仅1.5倍,但通过全栈优化实现了更高实际性能。该临时样机由英伟达、Inferact和CoreWeave提供用于开源项目。

  • GB300 ultra NVL72在vllm上比GB200 NVL72快2.7倍
  • 理论上GB300仅有1.5倍NVFP4 FLOP和1.5倍HBM容量
  • 性能提升源于全栈优化带来的复合增益

NVIDIA Megatron Core 新增对 Muon、MOP 和 REKLS 等优化器的支持,旨在提升 GB300 GPU 和 NVL72 系统上训练 Kimi K2、Qwen3 30B 等大模型的效率。

  • NVIDIA Megatron Core 支持 Muon 等高阶优化器
  • 针对 GB300 GPU 和 NVL72 系统优化训练效率
  • 用于训练 Kimi K2 和 Qwen3 30B 规模模型

英伟达发布cuOpt Agent Skills,用于优化供应链决策系统,能够加速将业务问题转化为数学模型,应对需求波动和成本压力。

  • 英伟达推出cuOpt Agent Skills优化供应链决策系统
  • 该工具可加速业务问题转化为数学模型

Vercel 创始人宣布开源一个用于深度安全审查的智能体编排工具 deepspec。该工具内部使用后,已在多个大型开源项目中发现关键漏洞。它针对 Vercel Sandbox 优化,可并行调度数千个智能体扫描代码库,将数月的工作缩短至几分钟。作者邀请用户尝试,并为开源项目提供赞助支持。

  • 开源深度安全审查工具 deepspec 发布
  • 工具可并行数千个智能体扫描代码库
  • 工具优化用于 Vercel Sandbox 环境

Amazon SageMaker AI推出智能体引导的模型定制工作流程,用户通过自然语言描述用例,AI编码助手自动完成数据准备、技术选择、微调、评估和部署,支持SFT、DPO、RLVR等技术,并生成可编辑的代码工件。

  • Amazon SageMaker AI发布智能体引导的模型定制功能
  • 支持自然语言描述用例,自动化微调全流程
  • 集成LLM-as-a-Judge评估和灵活部署到Bedrock或SageMaker

SemiAnalysis指出常见误解:TPU v8i并非训练芯片,而是推理芯片。v8i配备8组HBM3E 12-Hi显存,共288GB,带宽8.6 TB/s,而v8t为6组216GB、6.5 TB/s。v8i有384MB片上SRAM,v8t为128MB。FP4算力上,v8i为10.1 PFLOPs,v8t为12.6 PFLOPs。

  • TPU v8i配备8组HBM3E 12-Hi,共288GB显存,带宽8.6 TB/s
  • TPU v8t配备6组HBM3E,共216GB显存,带宽6.5 TB/s
  • TPU v8i的FP4算力为10.1 PFLOPs,v8t为12.6 PFLOPs

AWS宣布SageMaker AI推理端点支持容量感知实例池,允许用户定义优先级实例类型列表,在创建、扩展时自动fallback到可用实例,无需手动干预,适用于多种端点类型。

  • SageMaker AI推出容量感知实例池功能
  • 用户可定义多个优先级实例类型
  • 端点在创建、扩展时自动选择可用实例

AI数据中心热潮正在重塑美国电力供应链。电力设备需求增长推动供应增长,超大规模数据中心建设加速,但基础设施挑战持续存在。

  • 数据中心电力设备需求增长推动供应增长
  • 超大规模数据中心建设加速
  • 基础设施挑战持续存在

Expanse 推出新平台,利用空闲 GPU 容量,支持云和本地 HPC 环境,提供作业提交、优化和调试功能。

  • Expanse 推出释放浪费 GPU 容量的平台。
  • 平台支持云和本地 HPC 环境。
  • 提供作业提交、优化和调试功能。

本周财报显示谷歌、微软、亚马逊云均提高资本开支,云收入加速增长:GCP增长63%,Azure增长39%,AWS预计下季度加速。DeepSeek V4推动KV缓存从DRAM/HBM大规模迁移至SSD,成为NAND需求的结构性拐点。

  • 谷歌/微软/亚马逊云提高资本开支,云收入加速增长
  • GCP增长63%,Azure增长39%,AWS预期加速
  • DeepSeek V4推动KV缓存从DRAM/HBM迁移至SSD

OpenAI重构了其WebRTC技术栈,以支持低延迟、全球规模的实时语音AI,并实现无缝的对话轮换。

  • OpenAI重构WebRTC栈以支持实时语音AI
  • 新架构实现低延迟和全球规模
  • 对话轮换无缝衔接

聚丙烯管道系统正被应用于高密度数据中心环境,旨在提升冷却系统运行效率并促进废热回收利用。相关企业aquatherm已推出针对性管道解决方案,以满足数据中心日益增长的散热与温控需求。该技术路径有助于优化数据中心整体能耗管理。

  • 聚丙烯管道系统应用于高密度数据中心以提升冷却效率。
  • 该系统旨在促进数据中心废热回收利用。
  • aquatherm推出针对性方案满足数据中心散热需求。

ABB电气化部门订单在2025年出现季节性模式逆转,Q4环比增长17%,2026年Q1订单创纪录超60亿美元,归因于数据中心需求,预示数据中心工业链积极前景。

  • ABB电气化部门2025年Q4订单环比增长17%
  • ABB 2026年Q1订单创纪录超过60亿美元
  • 订单增长归因于数据中心需求

英伟达股价在云厂商财报强化AI投入背景下逆势下跌,市场交易逻辑转向远期竞争格局,谷歌TPU、亚马逊自研芯片等替代叙事增强,资金流向AMD、博通等。

  • 英伟达股价逆势下跌,云厂商财报强化AI投入
  • 市场关注谷歌TPU、亚马逊自研芯片等替代叙事
  • 资金从英伟达流向AMD、博通等公司