SemiAnalysis研究指出,在ERCOT地区,AI运营商的数据中心互连请求与电网实际核准能力之间存在巨大差距,反映了电力危机中供需不匹配。
推特消息称,用户 @nasch 在消费级 AMD 显卡上运行 Qwen3.6 27B 模型,推理速度达到 87 tok/s,展示了 AI 本地推理的性能进展。
llama.cpp 项目宣布推出官方网站,目标让本地 AI 易于访问,推动本地 AI 普及。
字节跳动正与一家量产RRAM的中国内存公司合作,开发类似Groq LPU的AI芯片。该合作旨在构建LPU-like架构,涉及新型存储技术。
TrendForce预测,受代理式AI驱动,全球DRAM市场2026年收入将同比增长303%,2027年增长46%;NAND闪存市场2026年增长208.7%,2027年增长40.2%。
SemiAnalysis发推称,在Cerebras上运行深度编码模型需24个系统(2400万美元资本支出)仅支持256并发用户,而同等资金下标准GB300机架能提供更多内存带宽。
VikParuchuri 宣布发布 Surya OCR 2 模型,拥有 6.5 亿参数,在 olmocr 基准测试中得分 83.3%,在内部 91 语言基准测试中得分 87%,在其他多项基准测试中表现领先。
Gradio推文宣布一场名为Build Small的黑客马拉松,要求参赛模型参数不超过32B并能在笔记本电脑上运行,赞助商包括OpenAI、NVIDIA和OpenBMB。
SemiAnalysis发布深度报告,预计到2030年800VDC供电技术将推动约39GW的新增数据中心容量,并分析了该技术的渗透率、市场机会及挑战。
NVIDIA宣布Step 3.7 Flash模型正式发布,该模型为198B参数MoE架构,11B活跃参数,支持256K上下文以及原生图像和视频处理。即日起可通过NVIDIA NIM推理微服务和NeMo框架在GPU加速端点部署。
StepFun 发布 Step 3.7 Flash 多模态 AI 模型,拥有 198B 参数,可在 NVIDIA GPU 上运行,支持图像、文档、视频和语言的实时感知与推理,专为企业级生产环境设计。
Mythos的安全问题已解决,同时Anthropic获得了数百亿规模的推理计算资源。
NVIDIA的GLM5.1-NVFP4模型被发现在Hugging Face平台上,该模型由NVIDIA AI官方发布,表明技术进展。
Azercell与AWS合作,在Amazon SageMaker AI上训练阿塞拜疆语大语言模型。通过内核级优化,训练吞吐量提升23%,峰值GPU内存降低58%;自定义分词器使每词token数提升2倍,有效增加上下文窗口中的阿塞拜疆文本量。
国金证券发布算电融合专题,指出1192号文支持绿电直连输配电价优惠,电力企业可联合参与数据中心建设重构商业模式,3月公用事业成交额占比约1.5%启动行情,当前行情正从区域向全国扩散。
AWS、Cloudflare等云服务商正在重新设计云基础设施,以适应AI代理从实验转向生产带来的机器生成互联网流量增长,而非人类用户流量。
Snowflake与AWS签署60亿美元合作协议,推动企业AI工作负载从试点转向持久运营基础设施,重塑超大规模计算需求。
美光执行副总裁兼首席商务官Sumit Sadana表示,即使有新投资,有意义的存储芯片供应要到2027年底才开始,2028年才会增加。
据极客湾TEM分析,三星2026年SF2先进制程在几何尺寸上仍略微落后于英特尔2025年18A工艺,反映了两家公司在半导体制造技术上的竞争态势。
NVIDIA的GLM5.1-NVFP4模型在Hugging Face平台上被发现,标志着NVIDIA在AI模型生态中的新动作。
开源数据集发布:含1.04亿图像-文本对,是目前最大的开放许可图像数据集之一,托管在Hugging Face上。
Hugging Face 科学团队宣布异步强化学习权重同步在带宽成本上降低约100倍,无需共享集群即可实现。
Hugging Face科学团队推出异步强化学习权重同步优化,仅同步变化的权重,带宽成本降低约100倍,在Qwen3-0.6B上验证,payload从1.2GB降至20-35MB,无需共享集群即可实现完全解耦的训练。
CoreWeave 推出新平台,结合推理、强化学习和可观测性,利用实时生产数据持续优化 AI 代理。
行业信息显示2025至2030年磷化铟激光器产能扩张规划已明确。初始目标为提升约20倍,但供应商采取保守策略,最终各方达成约12倍的产能增长共识。该数据体现光通信核心器件供应链对未来需求的预期及产能落地节奏。
亚马逊AWS发表新网络架构RNG,采用准随机拓扑和无源光组件ShuffleBox,实现扁平化数据中心网络。相比传统胖树结构,减少69%路由器,性能提升33%,已作为全球新建设计的默认方案。
该社交媒体信息援引卖方观点称,英伟达目前正在测试GPU与GPU之间的混合键合技术,并推测该技术最可能的应用载体为N1或N1X产品。该消息目前仅为市场传闻,尚未获得公司官方证实,属于半导体先进封装技术领域的潜在产业动态,具体进展及商业化时间表仍待进一步验证。
英特尔计划明年起在自研的EMIB 2.5D先进封装中引入硅电容以提升性能。谷歌下一代AI芯片“v8e”预计明年下半年推出,将率先采用该封装方案。亚马逊等科技巨头亦在推进应用,叠加台积电2.5D封装产能紧缺,产业链对先进封装及硅电容需求预期上升。
据SemiAnalysis统计,AI agent使用中63%的会话不使用子代理,25.9%使用1-5个并发子代理,9.8%使用5个以上并行子代理。并行子代理可在不增加HBM带宽需求的情况下加速任务完成。
NVIDIA发布Dynamo Snapshot技术,用于加速Kubernetes上推理工作负载的冷启动,减少GPU空闲时间,避免SLA违规。
AWS发布Amazon Bedrock Data Automation服务,用于自动化处理金融文档(如银行对账单、税务表格、合同),通过基础模型实现上下文理解、数据提取和验证,提供自定义提取和视觉定位功能。
MiMo API进行价格下调,最高降幅达99%针对Input (Cache Hit),核心原因是推理效率提升。
NVIDIA可持续发展负责人Josh Parker参加Shift Key播客,讨论加速计算如何提高效率并帮助降低全球排放。
Snowflake与亚马逊AWS签署了一项为期五年、总价值60亿美元的合作协议,旨在为AI应用获取CPU芯片供应。该协议将强化AWS在云计算市场的竞争力,并对英伟达等AI芯片供应商形成竞争压力。
NVIDIA AI转发消息:@haoailab团队将生成5秒视频的耗时从8块Blackwell GPU的25秒优化至单块Blackwell GPU的4.2秒,并将技术开源。
NVIDIA 的 Blackwell 平台在 STAC-AI 金融基准测试中,针对大语言模型推理性能创下新纪录,展示了在金融交易中处理非结构化数据的能力。
Alex Rives在BioHub宣布推出ESMFold2,这是一个开放的科学引擎,用于蛋白质预测、设计和发现。该模型基于Cryo-EM数据,在蛋白质相互作用特别是抗体方面达到最先进性能,并在癌症和免疫学的五个靶点上展现推理时间缩放能力。同时发布了包含68亿蛋白质和11亿预测结构的图谱。
LangChain宣布Fleet agents新增安全编写和运行代码功能,结合LangSmith Fleet的计算机使用能力,提供隔离执行环境。
Perplexity AI宣布开源其重建的Unigram分词器,声称可将CPU利用率降低5-6倍,同时提及小模型相关技术。
SEMI与Global Net Corp.发布玻璃基板市场报告,指出AI和高性能计算推动先进封装需求,预测2028-2040年玻璃基板市场复合年增长率为67.2%。
MiniMax M2技术报告发布,总结了多项技术发现:选择全注意力机制而非混合滑动窗口;线性/稀疏注意力在生产系统中部署困难且前缀缓存支持差;细粒度MoE(128专家top-8)在2B参数规模下推理和代码能力显著提升;训练流程中增加了软件工程agent行为训练。
TeraWulf与施耐德电气合作,将纽约州布法罗的一座燃煤电厂改建为500兆瓦的AI数据中心园区。该园区旨在提供高性能计算基础设施,支持人工智能应用。Data Center Knowledge团队实地探访该园区,了解其电力与冷却解决方案。
犹他州提议建设9吉瓦的Stratos AI园区,反映了AI基础设施向专用能源系统、加速许可和直接控制电力的演变趋势。
华为Fellow透露,公司将于今年秋季量产采用3D堆叠技术的麒麟手机芯片,该技术领先台积电同类方案3年,且散热问题已通过设计解决。此外,华为计划在2026-2027年将XPU功耗效率分别提升40%-80%和80%-120%,7nm与5nm封装可实现等效3nm性能,成本与2D工艺相当。
Nebius在萨里郡Ark的Longcross园区扩建AI基础设施,填充LP01机房以满足高密度GPU就绪容量的增长需求。
华为提出τ定律,可在成熟制程通过压缩时延、逻辑折叠实现性能突破,无需依赖EUV。该技术利好光互联、液冷及国产AI算力,光模块需求上调,CPO产业加速;液冷进入放量元年,未来算力中心将标配;国产AI算力绕过先进制程封锁,昇腾950/990基于成熟制程,2027年国产算力需求大幅增长。
PC和服务器CPU市场中x86份额占主导但ARM逐年提升。3纳米产能紧缺导致代工价格上涨10%-15%,CPU从25Q4开始涨价,26Q2高端服务器CPU供需缺口放大。AI Agent和机柜方案推动CPU需求增长,国产CPU有望在开放市场获增量。
美国联邦政府对量子计算上下游企业进行股权投资,覆盖IBM、Rigetti等不同技术路线厂商;国内国资背景基金也布局相关初创企业。
Semianalysis发布LLM推理延迟分析:端到端延迟中prefill占48%,decode占52%;prefill又分为prefill extend(缓写入)和cache read(缓存读取)。
NVIDIA 发布 CompileIQ 自动调优工具,可自动搜索最佳编译器选项以提升特定工作负载的性能,如 LLM 推理管线。该工具解决性能工程中编译器选项优化难题,帮助开发者在已优化的基础上进一步榨取性能。