NVIDIA 发布 MCG 工具包,用于自动化 AI 模型文档(模型卡片)的生成。该工具旨在应对加州 AB-2013 和 EU AI Act 等监管框架对模型文档的合规要求,简化复杂 AI 模型的文档编写流程。
StepFun 发布 Step 3.7 Flash 多模态 AI 模型,拥有 198B 参数,可在 NVIDIA GPU 上运行,支持图像、文档、视频和语言的实时感知与推理,专为企业级生产环境设计。
NVIDIA发布Dynamo Snapshot技术,用于加速Kubernetes上推理工作负载的冷启动,减少GPU空闲时间,避免SLA违规。
NVIDIA 的 Blackwell 平台在 STAC-AI 金融基准测试中,针对大语言模型推理性能创下新纪录,展示了在金融交易中处理非结构化数据的能力。
NVIDIA RTX更新:DLSS 4.5以Unreal Engine插件形式发布,NVIDIA ACE扩展多语言AI角色能力,支持游戏开发者实现AI驱动角色、帧生成和光线追踪渲染。
NVIDIA 发布 CompileIQ 自动调优工具,可自动搜索最佳编译器选项以提升特定工作负载的性能,如 LLM 推理管线。该工具解决性能工程中编译器选项优化难题,帮助开发者在已优化的基础上进一步榨取性能。
NVIDIA CUDA 13.3 发布,引入 Tile Programming in C++,支持 Compute Capability 9.0,并带来编译器自动调优和 Python 更新,提升 GPU 开发效率。
NVIDIA发布CUDA Tile编程技术,允许开发者在现有C++ GPU代码库中使用基于块的编程开发高性能GPU内核。
NVIDIA发布RTX PRO 4500 Blackwell GPU,旨在加速基因组学和蛋白质折叠工作负载,为精准医疗提供全栈计算平台。该产品结合硬件与软件优化,提升医疗健康领域的计算效率。
NVIDIA在技术博客中介绍了一种大规模合成高质量三维医学影像数据的方法,用于预训练模型,以解决真实数据稀缺、隐私限制和标注成本高的问题,从而提升模型的鲁棒性和泛化能力。
NVIDIA发布技术博客,介绍使用Slurm拓扑感知作业调度,以充分发挥GB200 NVL72机架的Exascale计算性能,支持实时万亿参数模型。
全球电信公司正基于NVIDIA Cloud Partner参考架构建设主权AI工厂,为政府、企业和初创公司提供国内AI基础设施,并探讨如何构建按token计费的生产级企业AI服务。
NVIDIA技术博客提出为Agent harnesses(如Claude Code、Codex、LangChain Deep Agents)添加专门深度研究技能,以克服其在多文档合成、企业数据决策简报和长周期分析等任务中的局限性,提升复杂研究能力。
NVIDIA 发布验证代理技能功能,为 AI 代理提供能力治理,旨在增强透明度和信任,确保代理使用的技能可信。
英伟达技术博客区分了AI模型评估与AI代理评估的不同:模型评估测试基础模型能力,代理评估测试端到端系统行为如规划、工具调用和处理不确定性。
NVIDIA Vera Rubin 平台通过 NVL72 系统处理代理式 AI 推理中的非确定性轨迹,解决大规模推理工作负载的延迟问题。
英伟达技术博客介绍使用X射线自由电子激光(XFEL)加速纳米材料成像,可追踪聚变材料、半导体、电池和催化等系统中的原子和电子动力学。
NVIDIA发布Metropolis Blueprint for视频搜索与摘要(VSS),可将数百万实时视频流或数小时录像转化为可搜索、可操作的情报。
NVIDIA 发布全新产品 Fleet Intelligence,旨在实现大规模 GPU 集群的实时可见性和优化,解决异构硬件、软件栈更新、功耗限制和多租户工作负载等挑战。
NVIDIA AI红队发表技术博客,研究通过语法约束解码提升小型语言模型生成Bash命令的能力,使模型能生成可执行命令以读取文件、网络连接等,提高命令准确性。
NVIDIA Dynamo引入流式令牌和工具支持,能够保留多轮智能体交互中的推理和工具调用结构,实现更灵活的结构化交互。
NVIDIA发布技术博客,介绍GB200 NVL72系统通过NVLink扩展一致性实现整机架性能,带来机架级局部性硬约束,并对Slurm调度器进行优化以提升集群效率。
NVIDIA 发布 Model Optimizer 工具,用于模型量化,可降低 VRAM 使用并提升在 GeForce RTX GPU 等消费级设备上的推理性能。
NVIDIA发布NCCL Inspector工具,集成Prometheus实现分布式深度学习训练的实时性能监控和调试,可加速诊断通信、计算等问题。
NVIDIA技术博客介绍了车载AI代理的构建方法,强调车载系统从规则驱动向具备推理、规划和行动能力的多模态AI系统转变。
NVIDIA技术博客指出生成式AI正从人类请求-模型响应模式转向代理系统。代理系统不遵循预定序列,而是调用工具、生成子代理、管理记忆和上下文窗口,并自主决定完成时机。文章介绍了应对这种复杂性的极简协同设计方法。
英伟达发布cuOpt Agent Skills,用于优化供应链决策系统,能够加速将业务问题转化为数学模型,应对需求波动和成本压力。
NVIDIA技术博客介绍了Agentic AI在地下工程中的应用,能够自动化24/7模拟循环,解决手动工作流瓶颈,提升效率。文章指出,地下行业面临数据复杂性增长与人力带宽不足的挑战,Agentic AI可加速数字演进。
2026年3月,三个LLM代理生成超60万行代码,运行850次实验,借助GPU加速赢得Kaggle playground竞赛第一名。
NVIDIA发布技术博客,介绍其FLARE平台如何在不进行大量重构的情况下实现联邦学习,以应对数据移动性限制和数据主权规则。
DeepSeek发布第四代旗舰模型V4-Pro和V4-Flash。V4-Pro总参数1.6T、活跃参数49B,V4-Flash总参数284B、活跃参数13B,均支持百万token上下文推理,并部署于NVIDIA Blackwell和GPU加速端点。
NVIDIA发布Nemotron 3 Nano Omni模型,该模型能统一处理屏幕、文档、音频、视频和文本,实现单模型多模态感知到动作的循环,旨在降低推理复杂度和成本。
NVIDIA 在其 BioNeMo 框架中引入上下文并行技术,允许跨多个 GPU 训练大型生物分子模型,突破单 GPU 内存限制。该技术通过分布式计算实现更大蛋白质复合物的零样本折叠,提升生物分子建模能力。
NVIDIA发布企业参考架构,旨在支持AI工厂的部署。该架构为智能系统的推理、自动化和实时决策提供可扩展、可预测的基础设施。
NVIDIA 发布 cuTile.jl,将 tile 编程模型引入 Julia,并利用 AI 代理自动将 cuTile Python 代码翻译为 cuTile.jl,简化 GPU 内核开发。
NVIDIA发布技术方案,通过TensorRT for RTX运行时加速Unreal Engine 5中的神经网络推理,提升超分辨率、去噪和神经渲染等图形任务的效率。
NVIDIA发布DLSS 4.5,集成动态多帧生成、多帧生成6X和第二代变压器模型,面向游戏开发者开放,提升AI驱动图形性能。