NVIDIA宣布Step 3.7 Flash模型正式发布,该模型为198B参数MoE架构,11B活跃参数,支持256K上下文以及原生图像和视频处理。即日起可通过NVIDIA NIM推理微服务和NeMo框架在GPU加速端点部署。
NVIDIA AI研究团队在CVPR2026发表论文LocateAnything,一种视觉语言检测模型,采用并行解码边界框方式,在138M高质量样本上训练,显著提升定位精度和吞吐量,目前在HuggingFace上排名第一。
英伟达宣布在其开放模型系列中采用Linux基金会的OpenMDW框架,旨在简化开源许可,实现跨模型、代码、文档和数据的统一法律框架,减少开发者和企业构建开源软件的摩擦。
NVIDIA 推出 Dynamo Snapshot 技术,用于 Kubernetes 上的推理工作负载快速启动,将启动时间从分钟级降至5秒以内。该技术利用 GMS 实现并发权重恢复,并加速 CRIU 恢复性能,旨在应对生产环境中推理部署的波动需求。
NVIDIA AI转发消息:@haoailab团队将生成5秒视频的耗时从8块Blackwell GPU的25秒优化至单块Blackwell GPU的4.2秒,并将技术开源。
NVIDIA AI实验室发布了关于文本扩散和弹性推理的技术文章,介绍相关研究成果。
NVIDIA发布推文称,使用2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型,可同时运行16个本地AI智能体。该配置展示了多智能体协同运行的可行性。
英伟达研究院发布LongLive-2.0系统,用于长视频生成的端到端NVFP4训练和推理,通过对齐训练与推理,提升速度与内存效率。
NVIDIA 发布 AI-Q agent skill 开源深度研究工具,可将研究管道打包成便携技能,集成到 agent harness 中,委托本地或托管 AI-Q 服务器执行任务并返回带引用的详细报告。
NVIDIA转发推文,宣布与MistralAI及Nemotron Coalition合作,共同推进开放AI技术。
NVIDIA发布了NVIDIA-Verified Agent Skills,为AI代理技能提供认证和透明度,包括技能卡展示功能和风险。该技能基于开放规范构建,可兼容ClaudeAI Code、OpenAI Codex和Cursor AI。
NVIDIA发布Nemotron-Labs-Diffusion系列扩散语言模型,参数规模3B至14B,支持并行生成多个token并在生成过程中进行修订,提升推理速度,还包括视觉语言变体。
NVIDIA AI团队发布SANA-WM开源世界模型,参数26亿,单GPU运行,输入图像、文本和相机轨迹即可生成60秒可控视频。
NVIDIA AI 在 Nemotron Labs 发布文章,介绍如何在执行前验证代理技能的方法,涉及技术细节。
OpenShell 发布 v0.0.41 版本,新增 agent-driven policy management、CLI 中的沙箱资源标志、OIDC TLS 验证的自定义 CA 支持、带工作区边界检查的沙箱下载,以及多项错误修复和稳定性改进。
Perplexity AI 发布新研究,详述如何在 NVIDIA GB200 NVL72 Blackwell 机架上服务后训练的 Qwen3 235B 模型,展示了高性能推理部署方案。
NVIDIA通过Dynamo强化harness路径,支持Claude Code、OpenClaw和OpenAI Codex等agent模式,实现稳定提示词、交错推理与工具调用、流式工具调度等改进。
NVIDIA AI 宣布与 Sakana AI Labs 合作,在 ICML 2026 发表关于稀疏变换器内核和格式的论文,优化 NVIDIA GPU 执行,实现了20%以上的推理和训练加速。
NVIDIA官方推特表示Perplexity运行在NVIDIA上,并介绍了团队使用CUTLASS Python堆栈优化推理模型的细节。
NVIDIA Research发布Guess-Verify-Refine算法,一种硬件感知的稀疏注意力机制,专为Blackwell上的TensorRT LLM设计,实现Top-K注意力1.88倍加速,端到端延迟提升9.3%。
NVIDIA AI宣布推出TokenSpeed推理引擎,专为高速智能体工作负载设计。该引擎具备高级KV缓存管理、安全高效调度器、可插拔分层内核系统,支持多芯片,并在NVIDIA Blackwell上实现最快的MLA注意力内核。
NVIDIA AI发文称,运行规模化agentic工作负载对token消耗、上下文长度和延迟要求极高。Vera Rubin平台通过极致协同设计,针对此类复杂工作负载,可在万亿参数MoE模型上实现每用户每秒400+ tokens。
NVIDIA内部使用基于cuOpt的智能工作流优化供应链,该工具已开源,支持多智能体编排和GPU加速求解器,可在几分钟内完成优化,并提供预配置GPU环境供开发者试用。
NVIDIA Megatron Core 新增对 Muon、MOP 和 REKLS 等优化器的支持,旨在提升 GB300 GPU 和 NVL72 系统上训练 Kimi K2、Qwen3 30B 等大模型的效率。
NVIDIA宣布其Nemotron 3 Super模型在EnterpriseOps-Gym排行榜开源类别中排名第一。该排行榜通过1150项任务和512个功能工具评估企业级AI代理性能。
NVIDIA AI转发用户测试:在DGX Spark(128GB显存)上以q8量化运行nemotron 3 omni模型,通过Hermes Agent实现56 tok/s的推理速度。
NVIDIA发布开源安全沙盒OpenShell,旨在为企业AI代理提供安全控制,限制代理的访问、共享和发送权限,保护企业数据安全。
NVIDIA Research发布新论文,提出在NeMo-RL结合vLLM中使用推测解码加速强化学习后训练,实现8B模型吞吐量提升1.8倍,235B模型端到端加速2.5倍。
英伟达AI宣布,SGLang在Blackwell硬件上对DeepSeek-V4推理达到180 tok/s/GPU,支持约1M上下文,该优化来自lmsysorg利用模型混合稀疏注意力的Blackwell特定优化。
NVIDIA 宣布面向学生、教授和研究者的系列虚拟学习活动,使用 NemoClaw 和 OpenShell 软件栈。活动包括四场线上课程(5月12日至22日),主题涵盖学术规划、研究助手、协作研究和AI助教,旨在提升研究生产力和课堂教学。
英伟达AI官方推特发文,招聘世界模型研究员加入Ming-Yu领导的Cosmos团队,提供了研究岗位信息。
NVIDIA AI官方祝贺MistralAI发布Mistral Medium 3.5模型,该模型为128B参数稠密文本-视觉模型,在SWE-Bench Verified上得分77.6%,并可在NVIDIA平台运行或通过NIM微服务部署。