Unsloth 在推特上宣布正式成为 PyTorch 生态系统项目,感谢 PyTorch 的合作,并表示未来将有更多进展。
NVIDIA 与 IREN 宣布合作,计划部署高达 5GW 的 AI 基础设施,以满足全球对超大规模 AI 工厂的加速需求。该合作涉及大规模数据中心和算力建设。
Aria Networks首席执行官Mansour Karam在接受采访时表示,令牌效率和分布式推理正在将网络转变为AI基础设施的核心战场。他认为推理环节对网络的需求将重塑数据中心架构,并强调网络在AI部署中的关键作用。
谷歌正在为联发科的TPU采用英特尔的EMIB技术,需要测试兼容性,良率至关重要。SK海力士与英特尔合作自然,暗示在EMIB领域协同。
Nscale获得7.9亿美元联合融资,用于扩建其位于挪威纳尔维克的AI数据中心园区,计划增加115MW容量。
STL计划投资1亿美元扩建美国AI数据中心制造设施,以满足高密度光基础设施需求。
康宁宣布光连接产能扩产十倍;住友等厂商光芯片扩产受限,磷化铟衬底供需紧张或持续1-2年。一季度国内日均token调用量突破140万亿,智谱AI API调用量一季度增83%。字节拟投1778亿在东南亚建AIDC。预计28年液冷市场达万亿规模,25年全球光纤供需紧张,美国光纤价格涨30%-50%。
SK海力士正与英特尔合作研发2.5D封装技术,计划采用英特尔的EMIB技术集成HBM与逻辑芯片。目前处于早期测试阶段。由于台积电2.5D封装产能紧张,AI加速器封装供应链可能迎来多元化。
对冲基金买入味之素股票并推动ABF膜涨价,味之素最终将ABF膜价格提高30%,为产业内重要价格变化。
黄仁勋自GTC 2025起开始宣传最高每瓦特token数,强调能效指标。
AMD ROCm软件栈在DeepSeekv4发布后14天内性能提升超75倍,通过融合mHC操作和RoPE Hadamard变换降低CPU开销并提高HBM利用率。此外,使用TileLang和Triton编写注意力索引器和KVCache压缩器以加快开发速度。未来目标:再提升5倍以匹敌单节点B200,再提升1.5倍以匹敌PD分离式B200。
总结近期半导体动态:台积电推动CoPoS技术;苹果转向英特尔代工;英伟达Vera Rubin改变冷却架构;2D NAND短缺加剧;大型科技公司资助SK海力士建厂;台积电2026年4月营收126亿美元同比增30%;Anthropic与SpaceX合作获得算力;SKC加速玻璃基板量产;功率芯片短缺加深。
xAI将其位于孟菲斯的Colossus 1数据中心(拥有超过22万块NVIDIA GPU,包括H100、H200和GB200不同代际)完全移交给Anthropic。由于异构架构导致分布式训练中严重拖尾效应,xAI的GPU利用率仅11%,远低于Meta和Google的40%以上。
Anthropic通过子公司SpaceXAI租下Colossus 1全部空间,该资产拥有超过22万GPU和300MW电力,计划本月内上线。此前Anthropic在4月新增13.8GW累计计算容量,包括AWS、Google、Broadcom等合作。
SGL Project和Radixark团队优化了DeepSeek V4在B200和B300上的推理性能,并在GB300上实现了4倍交互吞吐量提升。
4月27-30日全A上涨1.22%,日均成交额2.6万亿元,两融余额升至2.7万亿元,资金主要流向半导体。2025年国内日均token调用量预计从超万亿升至100万亿,寒武纪一季报营收增超150%、净利增超180%。SpaceX计划6月IPO估值1.75万亿美元,美股四大科技巨头2026年资本支出预计达4250亿美元,人形机器人量产提速。
NVIDIA通过Dynamo强化harness路径,支持Claude Code、OpenClaw和OpenAI Codex等agent模式,实现稳定提示词、交错推理与工具调用、流式工具调度等改进。
Unison Energy CEO 表示,电网互联延迟推动数据中心开发商采用基于天然气的微电网作为主要电源(而非备用),这一变化正在重塑 AI 基础设施建设方式。
NVIDIA AI 宣布与 Sakana AI Labs 合作,在 ICML 2026 发表关于稀疏变换器内核和格式的论文,优化 NVIDIA GPU 执行,实现了20%以上的推理和训练加速。
根据一份报告,AI Neocloud驱动的工作负载正在改变数据中心流量模式,数据移动转向存储与AI计算之间的持续高带宽传输。
数据中心开发商越来越多地在县级非建制土地上规划项目,这并非偶然。在城市范围外,他们可以绕过市议会批准、分区投票和土地使用审查,从而重塑大型AI基础设施的布局地图。
技术团队通过Multi-Token Prediction补丁优化LLaMA.cpp,使Gemma4本地模型推理速度提升1.5倍,并进行了量化。
NVIDIA Dynamo引入流式令牌和工具支持,能够保留多轮智能体交互中的推理和工具调用结构,实现更灵活的结构化交互。
德州数据中心开发商因面临2029年并网等待和3500万美元升级费用,选择自建电力以启动一个20万平方英尺的AI园区。
Halliburton与AWS合作,利用Amazon Bedrock等生成式AI技术,为其Seismic Engine开发AI助手,将地震数据处理工作流创建从手动配置转为自然语言交互,实验显示工作流创建加速高达95%。
英伟达与康宁深化合作,共同推进光纤和光子学技术在AI数据中心基础设施中的应用,以支持超大规模部署和光网络发展。
Anthropic与SpaceXAI达成合作,使Anthropic能够使用全球最大的超级计算机之一。这标志着AI基础设施在全球范围内进一步扩展。
施耐德电气与NVIDIA合作,利用数字孪生技术模拟和验证吉瓦级数据中心,以支持AI工作负载的扩展。该技术可在实际部署前优化设计,提升效率与可靠性。
vLLM项目维护者正在优化DeepSeekv4的首日性能,并在周末合并了初始模型支持PR,强调速度是关键优势。
Rork 推出 AI Cloud,支持 150 多种模型,可一键启动几乎所有 AI 应用,包括 Higgsfield。
Nvidia与IREN计划合作部署高达5GW的AI基础设施,位于德克萨斯州Sweetwater的园区被定位为Nvidia DSX AI工厂架构的旗舰站点。
台积电先进封装收入占比将提升至12%,CoWoS产能紧缺,日月光已提价20%-40%。先进封装扩产需1.5年,供需缺口至少维持3-4个季度,净利率可达30%。
Cognition 在推特宣布推出 SWE-1.6 Fast 版本,由 Cerebras 提供支持,宣称速度达到每秒 1000 tokens。
Perplexity 确认基于 NVIDIA 平台运行,并使用 CUTLASS Python 栈优化模型,展示了双方在 AI 算力上的合作。
NVIDIA发布技术博客,介绍GB200 NVL72系统通过NVLink扩展一致性实现整机架性能,带来机架级局部性硬约束,并对Slurm调度器进行优化以提升集群效率。
NVIDIA 发布 Model Optimizer 工具,用于模型量化,可降低 VRAM 使用并提升在 GeForce RTX GPU 等消费级设备上的推理性能。
NVIDIA官方推特表示Perplexity运行在NVIDIA上,并介绍了团队使用CUTLASS Python堆栈优化推理模型的细节。
Antirez宣布推出DS4,这是一个专为DeepSeek v4 Flash设计的推理引擎。项目进展顺利。
OpenAI在API中推出GPT-Realtime-2推理模型,用于构建语音代理。该消息来自官方推特,获得较多关注。
xAI与Anthropic达成Colossus数据中心交易:Anthropic获得Colossus 1,xAI继续使用更大的Colossus 2;Colossus 1环境纪录差,xAI提前2周通知关闭一批旧模型。
Anthropic与xAI达成协议,使用其Colossus数据中心全部容量。xAI保留更大规模的Colossus 2用于自身模型开发。该数据中心曾因未获许可运行燃气轮机而面临环境争议。
NVIDIA Research发布Guess-Verify-Refine算法,一种硬件感知的稀疏注意力机制,专为Blackwell上的TensorRT LLM设计,实现Top-K注意力1.88倍加速,端到端延迟提升9.3%。
微软研究院的Tyger项目将最复杂的MRI处理迁移到云端,帮助研究人员将原始信号转化为可读图像,处理时间从数日缩短至数小时。
NVIDIA发布NCCL Inspector工具,集成Prometheus实现分布式深度学习训练的实时性能监控和调试,可加速诊断通信、计算等问题。
AWS发布EC2 Capacity Blocks for ML和SageMaker training plans,帮助用户获取短期GPU容量,以应对GPU短缺问题。这些方案适用于负载测试、模型验证等短期工作负载。
AWS在SageMaker AI上推出基于可验证奖励的强化学习方法(RLVR),结合GRPO算法,使用GSM8K数据集提升大语言模型的数学推理能力,该方法适用于输出可客观验证的任务如代码生成和符号操作。
Anthropic与SpaceX签署计算合作协议,Anthropic将租赁SpaceX的Colossus 1超级集群,该集群功率超300MW,配备超22万张Nvidia GPU。此举解决了Anthropic的算力问题,并可能削弱OpenAI的竞争优势。
Anthropic在年度开发者活动上宣布与xAI达成协议,接管Colossus 1数据中心,预计年交易额约50亿美元。同时发布Claude Managed Agents三项新功能,Anthropic CEO预测2026年将出现一人十亿美元公司。
五位AI供应链核心人士在米尔肯全球会议上讨论了芯片短缺、轨道数据中心等话题,并质疑现有AI技术架构的合理性。