NVIDIA发布Metropolis Blueprint视频搜索与摘要的agent技能和模块化架构,可部署于兼容编码agent,将视频转化为可搜索、可行动的情报,用户通过自然语言提问获得剪辑、摘要和答案,无需手动配置多个微服务。
NVIDIA AI转发消息,Harvey和Trajectory Labs对Nemotron 3 Super模型进行后训练应用于复杂法律任务,取得初步印象深刻结果,模型具有可审计权重、安全性和清晰来源。
NVIDIA宣布Step 3.7 Flash模型正式发布,该模型为198B参数MoE架构,11B活跃参数,支持256K上下文以及原生图像和视频处理。即日起可通过NVIDIA NIM推理微服务和NeMo框架在GPU加速端点部署。
NVIDIA AI研究团队在CVPR2026发表论文LocateAnything,一种视觉语言检测模型,采用并行解码边界框方式,在138M高质量样本上训练,显著提升定位精度和吞吐量,目前在HuggingFace上排名第一。
英伟达宣布在其开放模型系列中采用Linux基金会的OpenMDW框架,旨在简化开源许可,实现跨模型、代码、文档和数据的统一法律框架,减少开发者和企业构建开源软件的摩擦。
NVIDIA 推出 Dynamo Snapshot 技术,用于 Kubernetes 上的推理工作负载快速启动,将启动时间从分钟级降至5秒以内。该技术利用 GMS 实现并发权重恢复,并加速 CRIU 恢复性能,旨在应对生产环境中推理部署的波动需求。
NVIDIA AI转发消息:@haoailab团队将生成5秒视频的耗时从8块Blackwell GPU的25秒优化至单块Blackwell GPU的4.2秒,并将技术开源。
NVIDIA AI实验室发布了关于文本扩散和弹性推理的技术文章,介绍相关研究成果。
NVIDIA发布推文称,使用2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型,可同时运行16个本地AI智能体。该配置展示了多智能体协同运行的可行性。
NVIDIA CEO黄仁勋在GTC Taipei活动期间意外现身Meet-a-Claw活动,与参与者互动。这是一条活动动态新闻。
英伟达研究院发布LongLive-2.0系统,用于长视频生成的端到端NVFP4训练和推理,通过对齐训练与推理,提升速度与内存效率。
NVIDIA 发布 AI-Q agent skill 开源深度研究工具,可将研究管道打包成便携技能,集成到 agent harness 中,委托本地或托管 AI-Q 服务器执行任务并返回带引用的详细报告。
NVIDIA转发推文,宣布与MistralAI及Nemotron Coalition合作,共同推进开放AI技术。
NVIDIA发布了NVIDIA-Verified Agent Skills,为AI代理技能提供认证和透明度,包括技能卡展示功能和风险。该技能基于开放规范构建,可兼容ClaudeAI Code、OpenAI Codex和Cursor AI。
NVIDIA发布Nemotron-Labs-Diffusion系列扩散语言模型,参数规模3B至14B,支持并行生成多个token并在生成过程中进行修订,提升推理速度,还包括视觉语言变体。
NVIDIA AI团队发布SANA-WM开源世界模型,参数26亿,单GPU运行,输入图像、文本和相机轨迹即可生成60秒可控视频。
NVIDIA AI 在 Nemotron Labs 发布文章,介绍如何在执行前验证代理技能的方法,涉及技术细节。
OpenShell 发布 v0.0.43 版本,新增双向 TTY 流、OIDC 认证、HTTPS 与 mTLS 解耦、TOML 网关配置,沙箱从 ext4 磁盘启动,并移除 DNS 以防止数据泄露,改进了认证、流和沙箱隔离。
OpenShell 发布 v0.0.41 版本,新增 agent-driven policy management、CLI 中的沙箱资源标志、OIDC TLS 验证的自定义 CA 支持、带工作区边界检查的沙箱下载,以及多项错误修复和稳定性改进。
OpenShell 发布 v0.0.40 版本,新增本地域服务路由和 Kubernetes 节点调度与容忍功能,CLI 的 TLS 改用操作系统信任存储,并修复两个安全漏洞,SecretResolver 调试不再泄漏密钥。
Perplexity AI 发布新研究,详述如何在 NVIDIA GB200 NVL72 Blackwell 机架上服务后训练的 Qwen3 235B 模型,展示了高性能推理部署方案。
OpenShell发布v0.0.37版本,新增可插拔计算驱动(Docker、Podman、Kubernetes、MicroVM)、OIDC+RBAC网关认证、Helm chart及Kubernetes用户命名空间支持,并提供Debian、RPM和Homebrew包。升级前需重建网关。
NVIDIA通过Dynamo强化harness路径,支持Claude Code、OpenClaw和OpenAI Codex等agent模式,实现稳定提示词、交错推理与工具调用、流式工具调度等改进。
NVIDIA AI 宣布与 Sakana AI Labs 合作,在 ICML 2026 发表关于稀疏变换器内核和格式的论文,优化 NVIDIA GPU 执行,实现了20%以上的推理和训练加速。
NVIDIA官方推特表示Perplexity运行在NVIDIA上,并介绍了团队使用CUTLASS Python堆栈优化推理模型的细节。
NVIDIA Research发布Guess-Verify-Refine算法,一种硬件感知的稀疏注意力机制,专为Blackwell上的TensorRT LLM设计,实现Top-K注意力1.88倍加速,端到端延迟提升9.3%。
NVIDIA AI宣布推出TokenSpeed推理引擎,专为高速智能体工作负载设计。该引擎具备高级KV缓存管理、安全高效调度器、可插拔分层内核系统,支持多芯片,并在NVIDIA Blackwell上实现最快的MLA注意力内核。
NVIDIA AI发文称,运行规模化agentic工作负载对token消耗、上下文长度和延迟要求极高。Vera Rubin平台通过极致协同设计,针对此类复杂工作负载,可在万亿参数MoE模型上实现每用户每秒400+ tokens。
NVIDIA内部使用基于cuOpt的智能工作流优化供应链,该工具已开源,支持多智能体编排和GPU加速求解器,可在几分钟内完成优化,并提供预配置GPU环境供开发者试用。
NVIDIA Megatron Core 新增对 Muon、MOP 和 REKLS 等优化器的支持,旨在提升 GB300 GPU 和 NVL72 系统上训练 Kimi K2、Qwen3 30B 等大模型的效率。
NVIDIA宣布其Nemotron 3 Super模型在EnterpriseOps-Gym排行榜开源类别中排名第一。该排行榜通过1150项任务和512个功能工具评估企业级AI代理性能。
NVIDIA AI转发用户测试:在DGX Spark(128GB显存)上以q8量化运行nemotron 3 omni模型,通过Hermes Agent实现56 tok/s的推理速度。
NVIDIA发布开源安全沙盒OpenShell,旨在为企业AI代理提供安全控制,限制代理的访问、共享和发送权限,保护企业数据安全。
NVIDIA Research发布新论文,提出在NeMo-RL结合vLLM中使用推测解码加速强化学习后训练,实现8B模型吞吐量提升1.8倍,235B模型端到端加速2.5倍。
英伟达AI宣布,SGLang在Blackwell硬件上对DeepSeek-V4推理达到180 tok/s/GPU,支持约1M上下文,该优化来自lmsysorg利用模型混合稀疏注意力的Blackwell特定优化。
NVIDIA 宣布面向学生、教授和研究者的系列虚拟学习活动,使用 NemoClaw 和 OpenShell 软件栈。活动包括四场线上课程(5月12日至22日),主题涵盖学术规划、研究助手、协作研究和AI助教,旨在提升研究生产力和课堂教学。
英伟达AI官方推特发文,招聘世界模型研究员加入Ming-Yu领导的Cosmos团队,提供了研究岗位信息。
NVIDIA AI官方祝贺MistralAI发布Mistral Medium 3.5模型,该模型为128B参数稠密文本-视觉模型,在SWE-Bench Verified上得分77.6%,并可在NVIDIA平台运行或通过NIM微服务部署。