清除 当前 6 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 20 小时前 微信公众号 · 42章经 · 4 天 15 小时前 微信公众号 · DeepTech深科技 · 4 天 15 小时前 微信公众号 · Founder Park · 4 天 15 小时前 微信公众号 · FundaAI · 4 天 15 小时前 微信公众号 · 九章智驾 · 4 天 15 小时前 微信公众号 · 晚点LatePost · 4 天 15 小时前 微信公众号 · 琢磨事 · 4 天 15 小时前 微信公众号 · 甲子光年 · 4 天 15 小时前

Perplexity AI宣布开源其重建的Unigram分词器,声称可将CPU利用率降低5-6倍,同时提及小模型相关技术。

  • Perplexity AI开源Unigram分词器
  • 分词器降低CPU利用率5-6倍

NVIDIA GB200芯片改变了服务大型MoE模型(如Qwen)时的prefill和decode分离方式,相比Hopper芯片有吞吐量优势,团队已发表量化对比结果。

  • GB200改变了大型MoE模型的prefill和decode分离方式
  • 与Hopper相比,GB200在服务Qwen时吞吐量有提升

Perplexity AI发布新研究,展示在NVIDIA GB200 NVL72 Blackwell机架系统上部署后训练Qwen3 235B模型的成果,涉及硬件与模型推理优化。

  • Perplexity AI发布在NVIDIA GB200 NVL72上的模型部署研究
  • 研究涉及后训练的Qwen3 235B模型
  • 部署基于Blackwell架构的GB200系统

Perplexity 确认基于 NVIDIA 平台运行,并使用 CUTLASS Python 栈优化模型,展示了双方在 AI 算力上的合作。

  • Perplexity 运行在 NVIDIA 平台上。
  • Perplexity 使用 CUTLASS Python 栈优化模型。

该公司自研推理引擎ROSE,用于处理从嵌入到万亿参数MoE的生产及API流量。ROSE集成了CuTeDSL,以加速内核部署并在Hoppers和Blackwells GPU上实现峰值性能。

  • 公司自研推理引擎ROSE覆盖嵌入到万亿参数MoE的生产和API流量
  • ROSE集成CuTeDSL以加速内核部署
  • ROSE在Hoppers和Blackwells上实现峰值性能

Perplexity AI宣布自研推理引擎ROSE,用于服务从嵌入模型到各种规模的模型,提升运行时优化。

  • Perplexity AI开发了自研推理引擎ROSE。
  • ROSE用于服务从嵌入模型到多种规模的模型。