清除 当前 19 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 19 小时前 微信公众号 · 42章经 · 4 天 14 小时前 微信公众号 · DeepTech深科技 · 4 天 14 小时前 微信公众号 · Founder Park · 4 天 14 小时前 微信公众号 · FundaAI · 4 天 14 小时前 微信公众号 · 九章智驾 · 4 天 14 小时前 微信公众号 · 晚点LatePost · 4 天 14 小时前 微信公众号 · 琢磨事 · 4 天 14 小时前 微信公众号 · 甲子光年 · 4 天 14 小时前

NVIDIA宣布Step 3.7 Flash模型正式发布,该模型为198B参数MoE架构,11B活跃参数,支持256K上下文以及原生图像和视频处理。即日起可通过NVIDIA NIM推理微服务和NeMo框架在GPU加速端点部署。

  • Step 3.7 Flash为198B MoE模型,11B活跃参数,支持256K上下文
  • 模型支持原生图像和视频处理,即日起可通过NVIDIA NIM和NeMo部署

NVIDIA AI转发消息:@haoailab团队将生成5秒视频的耗时从8块Blackwell GPU的25秒优化至单块Blackwell GPU的4.2秒,并将技术开源。

  • 原需8块Blackwell GPU耗时25秒生成5秒视频
  • 现单块Blackwell GPU仅需4.2秒
  • 技术已开源

NVIDIA发布推文称,使用2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型,可同时运行16个本地AI智能体。该配置展示了多智能体协同运行的可行性。

  • 2台DGX Sparks服务器和MiniMax M2.7 NVFP4模型可同时运行16个本地AI智能体
  • 该配置由NVIDIA官方账号发布并展示

NVIDIA 发布 AI-Q agent skill 开源深度研究工具,可将研究管道打包成便携技能,集成到 agent harness 中,委托本地或托管 AI-Q 服务器执行任务并返回带引用的详细报告。

  • NVIDIA 发布开源深度研究工具 AI-Q agent skill
  • 该工具可将研究管道打包成便携技能,集成到 agent harness
  • 代理可委托 AI-Q 服务器执行任务并返回带引用报告

NVIDIA发布Nemotron-Labs-Diffusion系列扩散语言模型,参数规模3B至14B,支持并行生成多个token并在生成过程中进行修订,提升推理速度,还包括视觉语言变体。

  • NVIDIA发布Nemotron-Labs-Diffusion扩散语言模型家族
  • 模型可并行生成多个token并支持修订
  • 模型参数范围3B至14B,含视觉语言变体

NVIDIA AI团队发布SANA-WM开源世界模型,参数26亿,单GPU运行,输入图像、文本和相机轨迹即可生成60秒可控视频。

  • NVIDIA发布SANA-WM开源世界模型
  • 模型参数26亿,单GPU运行
  • 支持60秒视频生成与精准相机控制

Perplexity AI 发布新研究,详述如何在 NVIDIA GB200 NVL72 Blackwell 机架上服务后训练的 Qwen3 235B 模型,展示了高性能推理部署方案。

  • Perplexity AI 发布新研究
  • 研究涉及服务 Qwen3 235B 模型
  • 使用 NVIDIA GB200 NVL72 Blackwell 机架

NVIDIA通过Dynamo强化harness路径,支持Claude Code、OpenClaw和OpenAI Codex等agent模式,实现稳定提示词、交错推理与工具调用、流式工具调度等改进。

  • NVIDIA Dynamo强化harness路径以支持agent模式
  • 改进包括流式工具调度和交错推理
  • 针对Claude Code、OpenClaw、OpenAI Codex等工具

NVIDIA AI 宣布与 Sakana AI Labs 合作,在 ICML 2026 发表关于稀疏变换器内核和格式的论文,优化 NVIDIA GPU 执行,实现了20%以上的推理和训练加速。

  • NVIDIA AI 与 Sakana AI Labs 合作发表 ICML 2026 论文
  • 论文涉及稀疏变换器内核和格式优化
  • 实现推理/训练速度提升20%以上

NVIDIA官方推特表示Perplexity运行在NVIDIA上,并介绍了团队使用CUTLASS Python堆栈优化推理模型的细节。

  • Perplexity使用NVIDIA CUTLASS优化推理模型

NVIDIA Research发布Guess-Verify-Refine算法,一种硬件感知的稀疏注意力机制,专为Blackwell上的TensorRT LLM设计,实现Top-K注意力1.88倍加速,端到端延迟提升9.3%。

  • NVIDIA Research发布Guess-Verify-Refine稀疏注意力算法
  • 该算法专为Blackwell上的TensorRT LLM设计
  • 实现Top-K注意力1.88倍加速,端到端延迟提升9.3%

NVIDIA AI宣布推出TokenSpeed推理引擎,专为高速智能体工作负载设计。该引擎具备高级KV缓存管理、安全高效调度器、可插拔分层内核系统,支持多芯片,并在NVIDIA Blackwell上实现最快的MLA注意力内核。

  • TokenSpeed是NVIDIA发布的全新推理引擎
  • TokenSpeed在NVIDIA Blackwell上拥有最快的MLA注意力内核
  • 该引擎支持多芯片,采用可插拔分层内核系统

NVIDIA AI发文称,运行规模化agentic工作负载对token消耗、上下文长度和延迟要求极高。Vera Rubin平台通过极致协同设计,针对此类复杂工作负载,可在万亿参数MoE模型上实现每用户每秒400+ tokens。

  • NVIDIA推出Vera Rubin平台,用于运行agentic工作负载
  • 该平台在万亿参数MoE模型上实现每用户每秒400+ tokens

NVIDIA内部使用基于cuOpt的智能工作流优化供应链,该工具已开源,支持多智能体编排和GPU加速求解器,可在几分钟内完成优化,并提供预配置GPU环境供开发者试用。

  • NVIDIA内部使用cuOpt优化供应链
  • cuOpt已开源,支持多智能体编排
  • 提供预配置GPU环境供开发者试用

NVIDIA Megatron Core 新增对 Muon、MOP 和 REKLS 等优化器的支持,旨在提升 GB300 GPU 和 NVL72 系统上训练 Kimi K2、Qwen3 30B 等大模型的效率。

  • NVIDIA Megatron Core 支持 Muon 等高阶优化器
  • 针对 GB300 GPU 和 NVL72 系统优化训练效率
  • 用于训练 Kimi K2 和 Qwen3 30B 规模模型

NVIDIA AI转发用户测试:在DGX Spark(128GB显存)上以q8量化运行nemotron 3 omni模型,通过Hermes Agent实现56 tok/s的推理速度。

  • 在DGX Spark上运行nemotron 3 omni模型,q8量化
  • 通过Hermes Agent达到56 tok/s推理速度

NVIDIA发布开源安全沙盒OpenShell,旨在为企业AI代理提供安全控制,限制代理的访问、共享和发送权限,保护企业数据安全。

  • NVIDIA发布开源安全沙盒OpenShell,用于企业AI代理安全控制。

NVIDIA Research发布新论文,提出在NeMo-RL结合vLLM中使用推测解码加速强化学习后训练,实现8B模型吞吐量提升1.8倍,235B模型端到端加速2.5倍。

  • NVIDIA Research提出推测解码加速RL后训练
  • NeMo-RL+vLLM实现1.8倍吞吐量提升(8B模型)
  • 235B模型端到端加速达2.5倍

英伟达AI宣布,SGLang在Blackwell硬件上对DeepSeek-V4推理达到180 tok/s/GPU,支持约1M上下文,该优化来自lmsysorg利用模型混合稀疏注意力的Blackwell特定优化。

  • SGLang在Blackwell上对DeepSeek-V4推理速度达180 tok/s/GPU
  • 支持约1M上下文长度
  • 优化来自lmsysorg的Blackwell特定混合稀疏注意力利用