NVIDIA AI团队发布SANA-WM开源世界模型,参数26亿,单GPU运行,输入图像、文本和相机轨迹即可生成60秒可控视频。
deepagents v0.6版本发布,主要优化性能,通过模型层控制实现。
谷歌顶级客户每日处理超过10亿个tokens,若转向使用Gemini 3.5 Flash模型,每年可节省高达10亿美元的成本。
SemiAnalysis报告指出,AMD MI355在GLM5架构上用于单节点FP8推理时,价格比NVIDIA B200低40%,该对比发生在MI355发布14周后。
Google与Blackstone达成50亿美元合作,推动其TPU定制AI加速器突破传统云模式,为企业提供独立于NVIDIA的AI基础设施替代方案。
Unsloth Studio 推出新功能,支持自动推测解码和 MTP,可将推理速度提升至 2 倍且无精度损失,并针对 Mac、GPU 和 CPU 优化了参数。
Zibra Labs正在构建高性能计算(HPC)集群,允许量化交易公司大规模运行比以往多100倍的回测。该集群利用跨多个超大规模云和neocloud的spot实例处理并行工作负载。
AWS 博客介绍通过自定义 MCP 服务器扩展 Kiro CLI 的对话记忆,集成 Amazon Bedrock AgentCore Memory 托管服务,实现持久上下文存储与语义检索,支持短期工作记忆和长期智能记忆。
Modal 宣布现支持 Claude AI 的托管代理,通过 Modal Sandboxes 提供运行环境。
黑石集团承诺投资50亿美元,与谷歌合作成立一家新的美国数据中心公司,专注于围绕谷歌云TPU(AI定制芯片)建设AI云基础设施。
Dell通过NativeEdge、AI Factory和PowerEdge系统推进边缘编排,旨在分布式数据中心环境中实现实时AI扩展。
暗光纤提供商Big Fiber获得2.5亿美元融资,将用于扩建暗光纤路由和容量。此次融资的背景是超大规模云服务商在电力丰富地区建设分布式AI园区,推动了对暗光纤的需求。
陶氏推出面向液冷数据中心的新型冷却液管理服务,旨在满足AI工作负载对热可靠性的增长需求。该服务提供全面的冷却液支持,确保数据中心高效运行。
Vercel 创始人宣布,其平台上所有防火墙缓解措施(包括 DDoS、系统级缓解及自定义规则)现已完全免费,Vercel 将承担所有攻击或流量缓解的计算和网络成本。
llama.cpp 新增 MTP(多令牌预测)支持,本地模型推理速度显著提升,足以作为日常驱动。Qwen3.6-27B 密集生成在 A10 GPU 上得到展示,推动本地 AI 部署实用性。
英伟达官方宣布,SpaceX及埃隆·马斯克将试用其新一代Vera CPU。该CPU为英伟达最新产品,标志着其在CPU领域的重要布局。
huggingface的hf-mem工具更新,新增将混合专家模型(MoE)内存估计分解为基础权重、路由专家和KV缓存三个部分的功能。
llama.cpp 新增 MTP 支持,使本地模型运行速度足够日常使用。Qwen3.6-27B 模型在 A10 GPU 上实现快速文本生成。
NVIDIA首次交付自研CPU Vera给AnthropicAI、OpenAI、SpaceX和OracleCloud等合作伙伴,面向智能体AI时代。这是NVIDIA首款定制CPU,标志着其进入CPU领域。
阿里未来资本开支超原计划3800亿元,数据中心规模较2022年增10倍,自研AI推理芯片已量产,60%算力服务外部客户;腾讯一季度经营性资本开支同比增84%,下半年国产算力资本开支将大幅提升。国家建设全国一体化算力网,今年六网基建投资超7万亿元,要求自立自强,利好国产芯片、服务器、IDC等全产业链。
llama.cpp 新增对 Qwen3.6 系列的多 Token 预测(MTP)支持,被视为本地 AI 生态的重要里程碑,带来性能提升。
Nebius与LangChain宣布合作,将Nebius Token Factory集成到LangChain的Deep Agents中。
Tether公司在iPhone 16上成功微调了一个130亿参数的AI模型,无需数据中心和企业级GPU,实现了完全隐私保护。这一技术突破展示了在移动设备上运行大模型的可行性。
据推特消息,数据中心之都的电力费率在2019年至2024年期间出现下降,但未提供具体数据来源和地点。
UnslothAI发布Qwen3.6通过MTP GGUFs实现本地运行加速,速度提升约1.4-2.2倍,仅需18GB RAM。
推特用户ngxson宣布Qwen3.6-27B模型在WebGPU上实现100%运行,但速度并非最佳。该演示展示了AI模型在浏览器端推理的可行性。
开发者正在将SAM模型移植到Apple silicon,并在MLX上实现1.25倍推理速度提升。
用户ErikKaum在huggingface上发布了其首个kernel MaxSim,旨在优化延迟交互检索(ColBERT/PyLate)的瓶颈问题。
豆包成为中国唯一日活过亿的AI产品,但近期正降低对用户规模的关注。字节计划五一开启付费订阅,引发用户质疑其能力。过去两年字节仅花17亿元投流豆包,远低于腾讯元宝的222亿。豆包延续字节方法论,但AI行业变化迅速,聊天机器人作为入口的信念动摇。
Erik Kaum在HuggingFace上发布了首个kernel MaxSim,旨在解决延迟交互检索(ColBERT/PyLate)中材料化瓶颈问题。
三星电子高级顾问Kye-hyun Kyung预测,由于中国厂商积极扩产,全球内存产能将增至每月600万片晶圆,内存价格将从明年下半年开始下降,并警告2028年后需求可能萎缩。韩国需培育深度科技制造生态。
瑞银预测2026年TPU出货总量413万块,其中博通368万块、联发科45万块;2027年出货987万块,博通676万块、联发科311万块。
行业调查显示,用于代理AI的CPU专用服务器通常采用双插槽配置,其DDR5内存容量相比1-2插槽通用服务器提升2至4倍。
机械设备行业动态跟踪指出,AIDC电力短缺问题凸显,固体氧化物燃料电池(SOFC)规模化应用的临界点即将到来。文章聚焦装备新科技挖掘,分析相关技术趋势。
台积电CPO方案COUPE on Substrate计划2026年下半年量产。AI GPU基板面积和层数大幅增加,使ABF材料消耗比常规CPU扩大5-10倍。高端ABF基板供需预计长期紧张。
NVIDIA的Rubin芯片因热设计变更(功耗高达1800-2300W,导热材料从液态金属改为石墨,顶盖从双片改为单片)导致量产和出货延迟数周。同时,2027年CoWoS封装需求预期上调。
黄仁勋在斯坦福大学演讲中表示,他希望始终维持低模型浮点利用率(MFU),通过过度配置算力、网络和内存等资源来实现更高智能,并暗示xAI可能遵循此策略。
英伟达下一代AI平台Vera Rubin量产在即:6月试产,7月首批交付头部云服务商,台积电3纳米制程已量产。台积电CoWoS产能紧缺,联发科加速AI ASIC扩张并引入英特尔EMIB技术。鸿海全光CPO交换机柜提前向英伟达出货。
字节跳动和阿里巴巴均上调资本开支,Anthropic变相提高费用,反映AI领域投入增加。
行业策略指出CPO开启产业元年,微透镜和高功率CW光源等核心环节成为关注重点。
AMD首次向英伟达开源项目AIPerf贡献代码,该仓库专注于LLM工作负载基准测试。此贡献被视为开源社区的重要进展,有望推动厂商无关的高质量代码发展。
简街(Jane Street)展示了其在德克萨斯州的AI训练数据中心内部,拥有4032个GPU、56个机架和8000公里光纤。
Nvidia发布Nemotron 3 Super和Ultra模型,参数规模分别为120B和约500B,均预训练在NVFP4格式下,其中Super使用了25T tokens。
瑞银预测英伟达Rubin Ultra将推出2芯片和4芯片两种版本,其中4芯片版本可能采用英特尔的EMIB-T封装技术。
特种光纤因供应短缺价格飙升10倍,中国供应商订单排至2028年,客户需预付定金锁定产能。一季度光纤、光缆、光模块出口双位数增长,1.6T光模块成为海外热门产品。中国企业占据全球光模块市场70%以上、光纤市场60%以上,并在前沿领域快速扩张。
HuggingFace发布了一个30B-A3B推理模型,在物理和数学奥林匹克评估中达到金牌水平。该模型在推理能力上取得突破,引起广泛关注。
本周围绕AI推理类型划分(答案推理与代理推理)展开讨论,指出代理推理未来市场规模更大,利好中国和太空领域但可能不利英伟达。同时报道Anthropic从xAI获取计算资源的交易,以及马斯克对OpenAI的持续诉讼。
文章指出,最大化直接芯片液冷(D2C)潜力需要重新设计水暖基础设施,聚合物材料能够提升效率、可靠性和可扩展性,为数据中心液冷提供新思路。
据FundaAI,高通预计2026年底向中国云服务提供商出货类似LPU的AI ASIC,约100万片,单价4000美元;通用服务器CPU预计2027年下半年出货;另与两家美国CSP合作。
NVIDIA Vera Rubin 平台通过 NVL72 系统处理代理式 AI 推理中的非确定性轨迹,解决大规模推理工作负载的延迟问题。