清除 当前 781 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 20 小时前 微信公众号 · 42章经 · 4 天 15 小时前 微信公众号 · DeepTech深科技 · 4 天 15 小时前 微信公众号 · Founder Park · 4 天 15 小时前 微信公众号 · FundaAI · 4 天 15 小时前 微信公众号 · 九章智驾 · 4 天 15 小时前 微信公众号 · 晚点LatePost · 4 天 15 小时前 微信公众号 · 琢磨事 · 4 天 15 小时前 微信公众号 · 甲子光年 · 4 天 15 小时前

NVIDIA AI团队发布SANA-WM开源世界模型,参数26亿,单GPU运行,输入图像、文本和相机轨迹即可生成60秒可控视频。

  • NVIDIA发布SANA-WM开源世界模型
  • 模型参数26亿,单GPU运行
  • 支持60秒视频生成与精准相机控制

deepagents v0.6版本发布,主要优化性能,通过模型层控制实现。

  • deepagents v0.6版本发布,侧重性能优化
  • 性能优化首先体现在模型层控制

谷歌顶级客户每日处理超过10亿个tokens,若转向使用Gemini 3.5 Flash模型,每年可节省高达10亿美元的成本。

  • 谷歌顶级客户每日处理超10亿tokens

SemiAnalysis报告指出,AMD MI355在GLM5架构上用于单节点FP8推理时,价格比NVIDIA B200低40%,该对比发生在MI355发布14周后。

  • AMD MI355比NVIDIA B200便宜40%(单节点FP8推理)
  • 价格对比基于GLM5架构,时间为MI355发布14周后

Google与Blackstone达成50亿美元合作,推动其TPU定制AI加速器突破传统云模式,为企业提供独立于NVIDIA的AI基础设施替代方案。

  • Google与Blackstone达成50亿美元TPU合作
  • 该合作旨在推动Google TPU作为NVIDIA基础设施的企业替代方案

Unsloth Studio 推出新功能,支持自动推测解码和 MTP,可将推理速度提升至 2 倍且无精度损失,并针对 Mac、GPU 和 CPU 优化了参数。

  • Unsloth Studio 新增自动推测解码和 MTP 支持
  • 推理速度提升可达 2 倍且无精度损失
  • 已针对 Mac、GPU 和 CPU 优化参数

Zibra Labs正在构建高性能计算(HPC)集群,允许量化交易公司大规模运行比以往多100倍的回测。该集群利用跨多个超大规模云和neocloud的spot实例处理并行工作负载。

  • Zibra Labs构建HPC集群使量化交易公司回测效率提升100倍
  • 集群使用跨超大规模云和neocloud的spot实例运行并行工作负载

AWS 博客介绍通过自定义 MCP 服务器扩展 Kiro CLI 的对话记忆,集成 Amazon Bedrock AgentCore Memory 托管服务,实现持久上下文存储与语义检索,支持短期工作记忆和长期智能记忆。

  • Amazon Bedrock AgentCore Memory 是托管服务,提供持久记忆和语义搜索
  • Kiro CLI 可自定义 MCP 服务器集成该记忆功能

Modal 宣布现支持 Claude AI 的托管代理,通过 Modal Sandboxes 提供运行环境。

  • Modal 支持 Claude AI 的托管代理
  • 使用 Modal Sandboxes 作为运行环境

黑石集团承诺投资50亿美元,与谷歌合作成立一家新的美国数据中心公司,专注于围绕谷歌云TPU(AI定制芯片)建设AI云基础设施。

  • 黑石承诺投资50亿美元
  • 新公司围绕谷歌云TPU建设
  • 新公司服务于AI云计算

Dell通过NativeEdge、AI Factory和PowerEdge系统推进边缘编排,旨在分布式数据中心环境中实现实时AI扩展。

  • Dell推进边缘编排技术,使用NativeEdge、AI Factory和PowerEdge系统
  • 目标是在分布式数据中心环境中实现实时AI扩展

暗光纤提供商Big Fiber获得2.5亿美元融资,将用于扩建暗光纤路由和容量。此次融资的背景是超大规模云服务商在电力丰富地区建设分布式AI园区,推动了对暗光纤的需求。

  • Big Fiber获得2.5亿美元融资
  • 融资用于增加暗光纤路由和容量
  • 超大规模云商在电力丰富地区建设分布式AI园区

陶氏推出面向液冷数据中心的新型冷却液管理服务,旨在满足AI工作负载对热可靠性的增长需求。该服务提供全面的冷却液支持,确保数据中心高效运行。

  • 陶氏推出了面向液冷数据中心的新型冷却液管理服务。
  • 该服务旨在满足AI工作负载对热可靠性的增长需求。

Vercel 创始人宣布,其平台上所有防火墙缓解措施(包括 DDoS、系统级缓解及自定义规则)现已完全免费,Vercel 将承担所有攻击或流量缓解的计算和网络成本。

  • Vercel 所有防火墙缓解措施(含 DDoS、系统级及自定义规则)现已免费
  • Vercel 承担攻击缓解的计算和网络成本

llama.cpp 新增 MTP(多令牌预测)支持,本地模型推理速度显著提升,足以作为日常驱动。Qwen3.6-27B 密集生成在 A10 GPU 上得到展示,推动本地 AI 部署实用性。

  • llama.cpp 新增 MTP 支持,加速本地模型推理。
  • 本地模型速度提升至可作为日常驱动。
  • Qwen3.6-27B 在 A10 上展示密集生成性能。

英伟达官方宣布,SpaceX及埃隆·马斯克将试用其新一代Vera CPU。该CPU为英伟达最新产品,标志着其在CPU领域的重要布局。

  • 英伟达推出Vera CPU
  • SpaceX和马斯克将试用该CPU

huggingface的hf-mem工具更新,新增将混合专家模型(MoE)内存估计分解为基础权重、路由专家和KV缓存三个部分的功能。

  • hf-mem工具新增将MoE内存估计分解为三个部分的功能

llama.cpp 新增 MTP 支持,使本地模型运行速度足够日常使用。Qwen3.6-27B 模型在 A10 GPU 上实现快速文本生成。

  • llama.cpp 增加 MTP 支持,提升本地模型推理速度。
  • Qwen3.6-27B 模型在 A10 上实现快速生成。

NVIDIA首次交付自研CPU Vera给AnthropicAI、OpenAI、SpaceX和OracleCloud等合作伙伴,面向智能体AI时代。这是NVIDIA首款定制CPU,标志着其进入CPU领域。

  • NVIDIA交付首批自研Vera CPU给AnthropicAI、OpenAI、SpaceX和OracleCloud
  • Vera是NVIDIA首款定制CPU,面向智能体AI时代

阿里未来资本开支超原计划3800亿元,数据中心规模较2022年增10倍,自研AI推理芯片已量产,60%算力服务外部客户;腾讯一季度经营性资本开支同比增84%,下半年国产算力资本开支将大幅提升。国家建设全国一体化算力网,今年六网基建投资超7万亿元,要求自立自强,利好国产芯片、服务器、IDC等全产业链。

  • 阿里未来资本开支将超原计划3800亿元,数据中心规模增10倍
  • 腾讯一季度经营性资本开支同比增84%
  • 国家建设全国一体化算力网,六网基建投资超7万亿元

llama.cpp 新增对 Qwen3.6 系列的多 Token 预测(MTP)支持,被视为本地 AI 生态的重要里程碑,带来性能提升。

  • llama.cpp 添加 MTP 支持 Qwen3.6 系列
  • 该更新被认为是本地 AI 生态的里程碑

Nebius与LangChain宣布合作,将Nebius Token Factory集成到LangChain的Deep Agents中。

  • Nebius与LangChain达成合作
  • 集成Nebius Token Factory与LangChain Deep Agents

Tether公司在iPhone 16上成功微调了一个130亿参数的AI模型,无需数据中心和企业级GPU,实现了完全隐私保护。这一技术突破展示了在移动设备上运行大模型的可行性。

  • Tether在iPhone 16上微调了13B参数的AI模型
  • 无需数据中心和企业级GPU
  • 实现了完全隐私保护

据推特消息,数据中心之都的电力费率在2019年至2024年期间出现下降,但未提供具体数据来源和地点。

  • 2019-2024年数据中心之都电力费率下降

UnslothAI发布Qwen3.6通过MTP GGUFs实现本地运行加速,速度提升约1.4-2.2倍,仅需18GB RAM。

  • Qwen3.6使用MTP GGUFs运行速度提升2倍
  • 本地运行仅需18GB RAM

推特用户ngxson宣布Qwen3.6-27B模型在WebGPU上实现100%运行,但速度并非最佳。该演示展示了AI模型在浏览器端推理的可行性。

  • Qwen3.6-27B模型在WebGPU上实现100%运行
  • 运行速度并非最佳

开发者正在将SAM模型移植到Apple silicon,并在MLX上实现1.25倍推理速度提升。

  • 正在将SAM模型移植到Apple silicon
  • 在MLX上推理速度提升1.25倍

用户ErikKaum在huggingface上发布了其首个kernel MaxSim,旨在优化延迟交互检索(ColBERT/PyLate)的瓶颈问题。

  • ErikKaum在huggingface发布了MaxSim kernel
  • MaxSim用于优化ColBERT/PyLate的交互检索瓶颈

豆包成为中国唯一日活过亿的AI产品,但近期正降低对用户规模的关注。字节计划五一开启付费订阅,引发用户质疑其能力。过去两年字节仅花17亿元投流豆包,远低于腾讯元宝的222亿。豆包延续字节方法论,但AI行业变化迅速,聊天机器人作为入口的信念动摇。

  • 豆包是中国唯一日活过亿的AI产品
  • 字节计划五一开启豆包付费订阅
  • 字节过去两年仅花17亿元投流豆包

Erik Kaum在HuggingFace上发布了首个kernel MaxSim,旨在解决延迟交互检索(ColBERT/PyLate)中材料化瓶颈问题。

  • Erik Kaum在HuggingFace上发布MaxSim kernel
  • MaxSim针对ColBERT/PyLate延迟交互检索的材料化瓶颈

三星电子高级顾问Kye-hyun Kyung预测,由于中国厂商积极扩产,全球内存产能将增至每月600万片晶圆,内存价格将从明年下半年开始下降,并警告2028年后需求可能萎缩。韩国需培育深度科技制造生态。

  • 三星电子顾问预测内存价格明年下半年开始下降
  • 全球内存产能将增至每月600万片晶圆
  • 韩国占DRAM市场近70%份额但芯片设计仅1.5%

瑞银预测2026年TPU出货总量413万块,其中博通368万块、联发科45万块;2027年出货987万块,博通676万块、联发科311万块。

  • 瑞银预测2026年TPU出货413万块
  • 博通和联发科分别为368万和45万块
  • 2027年TPU出货增至987万块

行业调查显示,用于代理AI的CPU专用服务器通常采用双插槽配置,其DDR5内存容量相比1-2插槽通用服务器提升2至4倍。

  • CPU专用服务器标准配置为双插槽
  • DDR5容量比通用服务器增加2-4倍

机械设备行业动态跟踪指出,AIDC电力短缺问题凸显,固体氧化物燃料电池(SOFC)规模化应用的临界点即将到来。文章聚焦装备新科技挖掘,分析相关技术趋势。

  • AIDC(AI数据中心)面临电力短缺困境。
  • SOFC(固体氧化物燃料电池)规模化应用临近。

台积电CPO方案COUPE on Substrate计划2026年下半年量产。AI GPU基板面积和层数大幅增加,使ABF材料消耗比常规CPU扩大5-10倍。高端ABF基板供需预计长期紧张。

  • 台积电COUPE on Substrate计划2026年下半年量产
  • AI GPU基板ABF材料消耗比CPU扩大5-10倍
  • 高端ABF基板供需预计长期紧张

NVIDIA的Rubin芯片因热设计变更(功耗高达1800-2300W,导热材料从液态金属改为石墨,顶盖从双片改为单片)导致量产和出货延迟数周。同时,2027年CoWoS封装需求预期上调。

  • Rubin芯片因热设计修改延迟数周量产
  • 功耗达1800-2300W,最终采用石墨导热材料
  • 2027年CoWoS需求预期上调

黄仁勋在斯坦福大学演讲中表示,他希望始终维持低模型浮点利用率(MFU),通过过度配置算力、网络和内存等资源来实现更高智能,并暗示xAI可能遵循此策略。

  • 黄仁勋称希望始终处于低MFU状态。
  • 原因是通过过度配置算力、网络和内存来提升智能。
  • 黄仁勋暗示xAI可能遵循此哲学。

英伟达下一代AI平台Vera Rubin量产在即:6月试产,7月首批交付头部云服务商,台积电3纳米制程已量产。台积电CoWoS产能紧缺,联发科加速AI ASIC扩张并引入英特尔EMIB技术。鸿海全光CPO交换机柜提前向英伟达出货。

  • 英伟达Vera Rubin平台6月试产,7月首批交付
  • 台积电CoWoS产能紧缺,联发科引入英特尔EMIB
  • 鸿海全光CPO交换机柜提前向英伟达出货

字节跳动和阿里巴巴均上调资本开支,Anthropic变相提高费用,反映AI领域投入增加。

  • 字节跳动和阿里巴巴均上调资本开支
  • Anthropic变相提费

行业策略指出CPO开启产业元年,微透镜和高功率CW光源等核心环节成为关注重点。

  • CPO开启产业元年
  • 关注微透镜和高功率CW光源等核心环节

AMD首次向英伟达开源项目AIPerf贡献代码,该仓库专注于LLM工作负载基准测试。此贡献被视为开源社区的重要进展,有望推动厂商无关的高质量代码发展。

  • AMD向英伟达Dynamo项目中的AIPerf子仓库提交代码
  • 这是AMD首次被接受为英伟达仓库的上游贡献者

简街(Jane Street)展示了其在德克萨斯州的AI训练数据中心内部,拥有4032个GPU、56个机架和8000公里光纤。

  • Jane Street展示了德克萨斯州AI训练数据中心内部
  • 数据中心配备4032个GPU、56个机架、8000公里光纤

Nvidia发布Nemotron 3 Super和Ultra模型,参数规模分别为120B和约500B,均预训练在NVFP4格式下,其中Super使用了25T tokens。

  • Nemotron 3 Super参数120B,预训练25T tokens,NVFP4格式。
  • Nemotron 3 Ultra参数约500B,同样预训练于NVFP4。

瑞银预测英伟达Rubin Ultra将推出2芯片和4芯片两种版本,其中4芯片版本可能采用英特尔的EMIB-T封装技术。

  • 瑞银预测英伟达Rubin Ultra有两种SKU:2芯片版和4芯片版
  • 4芯片版本可能使用英特尔EMIB-T封装技术

特种光纤因供应短缺价格飙升10倍,中国供应商订单排至2028年,客户需预付定金锁定产能。一季度光纤、光缆、光模块出口双位数增长,1.6T光模块成为海外热门产品。中国企业占据全球光模块市场70%以上、光纤市场60%以上,并在前沿领域快速扩张。

  • 特种光纤价格过去一年上涨10倍
  • 中国供应商订单已排期至2028年
  • 武汉供应商1.6T光模块成为海外最受欢迎产品

HuggingFace发布了一个30B-A3B推理模型,在物理和数学奥林匹克评估中达到金牌水平。该模型在推理能力上取得突破,引起广泛关注。

  • 发布30B-A3B推理模型
  • 物理和数学奥赛评估达金牌水平

本周围绕AI推理类型划分(答案推理与代理推理)展开讨论,指出代理推理未来市场规模更大,利好中国和太空领域但可能不利英伟达。同时报道Anthropic从xAI获取计算资源的交易,以及马斯克对OpenAI的持续诉讼。

  • AI推理分为答案推理和代理推理,代理推理未来市场规模更大
  • Anthropic已从xAI获得计算资源
  • 马斯克与OpenAI的诉讼仍在进行中

文章指出,最大化直接芯片液冷(D2C)潜力需要重新设计水暖基础设施,聚合物材料能够提升效率、可靠性和可扩展性,为数据中心液冷提供新思路。

  • D2C液冷需新型水暖设计
  • 聚合物材料可提升效率、可靠性和可扩展性

据FundaAI,高通预计2026年底向中国云服务提供商出货类似LPU的AI ASIC,约100万片,单价4000美元;通用服务器CPU预计2027年下半年出货;另与两家美国CSP合作。

  • 高通预计2026年底向中国CSP出货类似LPU的AI ASIC
  • 估计出货量约100万片,单价约4000美元
  • 通用服务器CPU预计2027年下半年开始出货

NVIDIA Vera Rubin 平台通过 NVL72 系统处理代理式 AI 推理中的非确定性轨迹,解决大规模推理工作负载的延迟问题。

  • NVIDIA Vera Rubin NVL72 处理代理式 AI 推理负载。