Sourcing — Feed

3 @NVIDIAAI: Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support is live on https...

2026-05-29T00:37

NVIDIA宣布Step 3.7 Flash模型正式发布，该模型为198B参数MoE架构，11B活跃参数，支持256K上下文以及原生图像和视频处理。即日起可通过NVIDIA NIM推理微服务和NeMo框架在GPU加速端点部署。

Step 3.7 Flash为198B MoE模型，11B活跃参数，支持256K上下文
模型支持原生图像和视频处理，即日起可通过NVIDIA NIM和NeMo部署

@NVIDIAAI ↗ X AI 算力

3 @NVIDIAAI: You should read this thread. It used to take about 25 seconds to generate a 5-second video on 8 Blackwell GPUs. The legends at @haoailab br...

2026-05-27T19:23

NVIDIA AI转发消息：@haoailab团队将生成5秒视频的耗时从8块Blackwell GPU的25秒优化至单块Blackwell GPU的4.2秒，并将技术开源。

原需8块Blackwell GPU耗时25秒生成5秒视频
现单块Blackwell GPU仅需4.2秒
技术已开源

@NVIDIAAI ↗ X AI 算力

3 @NVIDIAAI: (2x DGX Sparks) + MiniMax M2.7 NVFP4 = 16 local AI agents running simultaneously 👀

2026-05-25T14:42

NVIDIA发布推文称，使用2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型，可同时运行16个本地AI智能体。该配置展示了多智能体协同运行的可行性。

2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型可同时运行16个本地AI智能体
该配置由NVIDIA官方账号发布并展示

@NVIDIAAI ↗ X AI 算力行业动态

3 @NVIDIAAI: Say hello to open source deep research for your favorite agent harness. Our AI-Q agent skill packages the work of building a research pipel...

2026-05-22T16:06

NVIDIA 发布 AI-Q agent skill 开源深度研究工具，可将研究管道打包成便携技能，集成到 agent harness 中，委托本地或托管 AI-Q 服务器执行任务并返回带引用的详细报告。

NVIDIA 发布开源深度研究工具 AI-Q agent skill
该工具可将研究管道打包成便携技能，集成到 agent harness
代理可委托 AI-Q 服务器执行任务并返回带引用报告

@NVIDIAAI ↗ X AI 算力动态

3 @NVIDIAAI: Most language models only generate one token at a time. We just released Nemotron-Labs-Diffusion, a family of diffusion language models tha...

2026-05-19T23:58

NVIDIA发布Nemotron-Labs-Diffusion系列扩散语言模型，参数规模3B至14B，支持并行生成多个token并在生成过程中进行修订，提升推理速度，还包括视觉语言变体。

NVIDIA发布Nemotron-Labs-Diffusion扩散语言模型家族
模型可并行生成多个token并支持修订
模型参数范围3B至14B，含视觉语言变体

@NVIDIAAI ↗ X AI 算力动态

3 @NVIDIAAI: One image + text + camera trajectory = controllable worlds. All on a single GPU. Our research team just released SANA-WM, a 2.6B open sour...

2026-05-19T18:37

NVIDIA AI团队发布SANA-WM开源世界模型，参数26亿，单GPU运行，输入图像、文本和相机轨迹即可生成60秒可控视频。

NVIDIA发布SANA-WM开源世界模型
模型参数26亿，单GPU运行
支持60秒视频生成与精准相机控制

@NVIDIAAI ↗ X AI 算力行业

3 @NVIDIAAI: RT @perplexity_ai: We published new research on how we serve post-trained Qwen3 235B models on NVIDIA GB200 NVL72 Blackwell racks. GB200 i…

2026-05-12T15:44

Perplexity AI 发布新研究，详述如何在 NVIDIA GB200 NVL72 Blackwell 机架上服务后训练的 Qwen3 235B 模型，展示了高性能推理部署方案。

Perplexity AI 发布新研究
研究涉及服务 Qwen3 235B 模型
使用 NVIDIA GB200 NVL72 Blackwell 机架

@NVIDIAAI ↗ X AI 算力云计算行业

3 @NVIDIAAI: Most agentic stacks run into the same problems pretty quickly: reasoning and tool parsing drift across turns, KV cache reuse falls apart, or...

2026-05-08T19:36

NVIDIA通过Dynamo强化harness路径，支持Claude Code、OpenClaw和OpenAI Codex等agent模式，实现稳定提示词、交错推理与工具调用、流式工具调度等改进。

NVIDIA Dynamo强化harness路径以支持agent模式
改进包括流式工具调度和交错推理
针对Claude Code、OpenClaw、OpenAI Codex等工具

@NVIDIAAI ↗ X AI 算力云计算行业

3 @NVIDIAAI: Great collab with @SakanaAILabs on an #ICML26 paper about sparse transformer kernels + formats optimized for modern NVIDIA GPU execution. •...

2026-05-08T17:24

NVIDIA AI 宣布与 Sakana AI Labs 合作，在 ICML 2026 发表关于稀疏变换器内核和格式的论文，优化 NVIDIA GPU 执行，实现了20%以上的推理和训练加速。

NVIDIA AI 与 Sakana AI Labs 合作发表 ICML 2026 论文
论文涉及稀疏变换器内核和格式优化
实现推理/训练速度提升20%以上

@NVIDIAAI ↗ X AI 算力研究

2 @NVIDIAAI: Perplexity runs on NVIDIA. Nice breakdown from the team on how they’re using the CUTLASS Python stack to optimize their models for inferen...

2026-05-07T21:08

NVIDIA官方推特表示Perplexity运行在NVIDIA上，并介绍了团队使用CUTLASS Python堆栈优化推理模型的细节。

Perplexity使用NVIDIA CUTLASS优化推理模型

@NVIDIAAI ↗ X AI 算力

3 @NVIDIAAI: What if every decode step gave the next one a head start? Meet Guess-Verify-Refine — a new hardware-aware sparse-attention algorithm from N...

2026-05-07T17:00

NVIDIA Research发布Guess-Verify-Refine算法，一种硬件感知的稀疏注意力机制，专为Blackwell上的TensorRT LLM设计，实现Top-K注意力1.88倍加速，端到端延迟提升9.3%。

NVIDIA Research发布Guess-Verify-Refine稀疏注意力算法
该算法专为Blackwell上的TensorRT LLM设计
实现Top-K注意力1.88倍加速，端到端延迟提升9.3%

@NVIDIAAI ↗ X AI 算力行业

3 @NVIDIAAI: TokenSpeed is a brand new inference engine purpose built for speed-of-light agentic workloads. Read their blog to learn more about its ad...

2026-05-06T16:21

NVIDIA AI宣布推出TokenSpeed推理引擎，专为高速智能体工作负载设计。该引擎具备高级KV缓存管理、安全高效调度器、可插拔分层内核系统，支持多芯片，并在NVIDIA Blackwell上实现最快的MLA注意力内核。

TokenSpeed是NVIDIA发布的全新推理引擎
TokenSpeed在NVIDIA Blackwell上拥有最快的MLA注意力内核
该引擎支持多芯片，采用可插拔分层内核系统

@NVIDIAAI ↗ X AI 算力行业

3 @NVIDIAAI: What does it actually take to run agentic workloads at scale? ⚡Agents push token consumption, context length, and latency into extremely de...

2026-05-05T16:00

NVIDIA AI发文称，运行规模化agentic工作负载对token消耗、上下文长度和延迟要求极高。Vera Rubin平台通过极致协同设计，针对此类复杂工作负载，可在万亿参数MoE模型上实现每用户每秒400+ tokens。

NVIDIA推出Vera Rubin平台，用于运行agentic工作负载
该平台在万亿参数MoE模型上实现每用户每秒400+ tokens

@NVIDIAAI ↗ X AI 算力数据中心

3 @NVIDIAAI: Internally at NVIDIA, we use cuOpt based agentic workflows with agent skills to optimize our supply chains. Since it’s open source, you can ...

2026-05-04T22:30

NVIDIA内部使用基于cuOpt的智能工作流优化供应链，该工具已开源，支持多智能体编排和GPU加速求解器，可在几分钟内完成优化，并提供预配置GPU环境供开发者试用。

NVIDIA内部使用cuOpt优化供应链
cuOpt已开源，支持多智能体编排
提供预配置GPU环境供开发者试用

@NVIDIAAI ↗ X AI 算力行业

3 @NVIDIAAI: Training Kimi K2 and Qwen3 30B-scale models efficiently requires more than standard data-parallel tricks. NVIDIA Megatron Core now provides...

2026-05-04T21:00

NVIDIA Megatron Core 新增对 Muon、MOP 和 REKLS 等优化器的支持，旨在提升 GB300 GPU 和 NVL72 系统上训练 Kimi K2、Qwen3 30B 等大模型的效率。

NVIDIA Megatron Core 支持 Muon 等高阶优化器
针对 GB300 GPU 和 NVL72 系统优化训练效率
用于训练 Kimi K2 和 Qwen3 30B 规模模型

@NVIDIAAI ↗ X AI 算力行业动态

3 @NVIDIAAI: RT @sudoingX: nemotron 3 omni q8 on dgx spark 128gb vram cranking via hermes agent at 56 tok/s. first night of real local agentic on this b…

2026-05-02T13:27

NVIDIA AI转发用户测试：在DGX Spark（128GB显存）上以q8量化运行nemotron 3 omni模型，通过Hermes Agent实现56 tok/s的推理速度。

在DGX Spark上运行nemotron 3 omni模型，q8量化
通过Hermes Agent达到56 tok/s推理速度

@NVIDIAAI ↗ X AI 算力

3 @NVIDIAAI: We created OpenShell to make AI agents safe for enterprises. Built in open source so any company can adopt and trust it, this secure sandbo...

2026-05-01T22:07

NVIDIA发布开源安全沙盒OpenShell，旨在为企业AI代理提供安全控制，限制代理的访问、共享和发送权限，保护企业数据安全。

NVIDIA发布开源安全沙盒OpenShell，用于企业AI代理安全控制。

@NVIDIAAI ↗ X AI 行业算力

3 @NVIDIAAI: RL post-training is hitting a rollout bottleneck. This new paper from #NVIDIAResearch shows how speculative decoding in NeMo-RL + @vllm_pr...

2026-05-01T20:00

NVIDIA Research发布新论文，提出在NeMo-RL结合vLLM中使用推测解码加速强化学习后训练，实现8B模型吞吐量提升1.8倍，235B模型端到端加速2.5倍。

NVIDIA Research提出推测解码加速RL后训练
NeMo-RL+vLLM实现1.8倍吞吐量提升（8B模型）
235B模型端到端加速达2.5倍

@NVIDIAAI ↗ X AI 算力研究

3 @NVIDIAAI: SGLang is hitting 180 tok/s/GPU on DeepSeek-V4 decode with ~1M context on Blackwell. Good to see fast progress in open source DeepSeek-V4 ...

2026-04-30T21:31

英伟达AI宣布，SGLang在Blackwell硬件上对DeepSeek-V4推理达到180 tok/s/GPU，支持约1M上下文，该优化来自lmsysorg利用模型混合稀疏注意力的Blackwell特定优化。

SGLang在Blackwell上对DeepSeek-V4推理速度达180 tok/s/GPU
支持约1M上下文长度
优化来自lmsysorg的Blackwell特定混合稀疏注意力利用

@NVIDIAAI ↗ X AI 算力行业