华为在昇腾芯片上成功预训练了一个大语言模型,采用超节点优化训练和DSA技术,旨在证明其硬件能力。
Twitter用户评论中国超算节点制造能力,认为即使只能制造约100个SuperPODs(需82万颗Ascend 950DTs),今年仍将生产超过100万颗Hopper级芯片。
推文称有人从第一性原理复现了DeepSeek的光学上下文压缩技术,指出其令牌实际上是KV槽,磁盘空间仍大于文本和渲染图像,故该技术有效是因为多数缓存设计臃肿。
推特用户@teortaxesTex讨论了一种名为NotSuperPod的配置:1EFLOPS FP8算力、20个机柜、占地125平米,规模约为GB300 NVL72的3倍,并提到与DeepSeek此前列出的配置相似。
DeepSeek首次公开表明拥有计算基础设施而非租赁,并发布关于其数据中心的论文。这标志着DeepSeek在算力布局上的战略转变,与其他AGI实验室形成对比。
推特用户@teortaxesTex指出,某V4模型缓存占用进一步缩小至每1M上下文360 MB,相当于每token 360字节,接近原始明文限制的两个数量级。
DeepSeek首次确认目标建设从兆瓦到千兆瓦范围的基础设施,并透露正在自研系统,不打算购买华为的预制950 pods。
推文作者对HBM产能需求进行估算:CXMT HBM产能约50-60K WPM,每片晶圆产出约2TB HBM3E,每个SuperCluster需75PB,对应3.75万片晶圆,约3周产出,认为当前产能不构成瓶颈。
华为在2025年全联接大会上宣布Ascend SuperCluster计划,预计2026年第四季度实现。该系统占地64000平方米,配备524000个NPU,搭载75.5PB的HiZQ 2.0 HBM,总物料成本超过已售CloudMatrix 384系统的5倍。
讨论Cerebras WSE-3最大集群规模为2048系统(47MW),华为950超级集群可能超过500MW,2027年960集群可能超过1GW,并计划2030年实现30KW芯片。
华为计划在2030/31年部署LogicFolding Ascends芯片,密度超过400 Mtr/mm²,单芯片功耗达30KW,可能采用晶圆级引擎设计。