清除 当前 13 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 20 小时前 微信公众号 · 42章经 · 4 天 15 小时前 微信公众号 · DeepTech深科技 · 4 天 15 小时前 微信公众号 · Founder Park · 4 天 15 小时前 微信公众号 · FundaAI · 4 天 15 小时前 微信公众号 · 九章智驾 · 4 天 15 小时前 微信公众号 · 晚点LatePost · 4 天 15 小时前 微信公众号 · 琢磨事 · 4 天 15 小时前 微信公众号 · 甲子光年 · 4 天 15 小时前

llama.cpp 项目宣布推出官方网站,目标让本地 AI 易于访问,推动本地 AI 普及。

  • llama.cpp 推出官方网站

NVIDIA的GLM5.1-NVFP4模型被发现在Hugging Face平台上,该模型由NVIDIA AI官方发布,表明技术进展。

  • NVIDIA的GLM5.1-NVFP4模型出现在Hugging Face平台
  • 该模型由NVIDIA AI官方发布

Hugging Face科学团队推出异步强化学习权重同步优化,仅同步变化的权重,带宽成本降低约100倍,在Qwen3-0.6B上验证,payload从1.2GB降至20-35MB,无需共享集群即可实现完全解耦的训练。

  • HF团队使异步RL权重同步带宽成本降低约100倍
  • 新方法在TRL中实现,只传输变化的权重元素
  • 在Qwen3-0.6B上,每步payload从1.2GB降至20-35MB

开发者发布MiMo V2.5-Coder模型,需128GB RAM即可本地运行,速度较快。该模型为最新版本。

  • MiMo V2.5-Coder模型发布
  • 需128GB RAM可本地运行

llama.cpp 新增 MTP 支持,使本地模型运行速度显著提升。在 A10G 上,Qwen3.6-27B 密集生成速度从 25 tok/s 提升至 45 tok/s,增幅达 78%。

  • llama.cpp 增加 MTP 支持
  • Qwen3.6-27B 在 A10G 上速度提升 78%

llama.cpp/ggml 宣布推出全新 WebGPU 后端,支持浏览器端运行大模型,提升推理性能。该项目已开始全面集成 WebGPU 支持。

  • llama.cpp/ggml 推出新 WebGPU 后端
  • 该项目开始全面支持 WebGPU

llama.cpp 新增 MTP(多令牌预测)支持,本地模型推理速度显著提升,足以作为日常驱动。Qwen3.6-27B 密集生成在 A10 GPU 上得到展示,推动本地 AI 部署实用性。

  • llama.cpp 新增 MTP 支持,加速本地模型推理。
  • 本地模型速度提升至可作为日常驱动。
  • Qwen3.6-27B 在 A10 上展示密集生成性能。

Tether公司在iPhone 16上成功微调了一个130亿参数的AI模型,无需数据中心和企业级GPU,实现了完全隐私保护。这一技术突破展示了在移动设备上运行大模型的可行性。

  • Tether在iPhone 16上微调了13B参数的AI模型
  • 无需数据中心和企业级GPU
  • 实现了完全隐私保护

Erik Kaum在HuggingFace上发布了首个kernel MaxSim,旨在解决延迟交互检索(ColBERT/PyLate)中材料化瓶颈问题。

  • Erik Kaum在HuggingFace上发布MaxSim kernel
  • MaxSim针对ColBERT/PyLate延迟交互检索的材料化瓶颈

Hugging Face 公开数据集数量突破100万个,过去8个月数量翻倍(从50万到100万),加速原因与AI Agents能力提升相关。数据被视为AI构建的下一个瓶颈。

  • Hugging Face 公开数据集达到100万个
  • 过去8个月数据集数量翻倍
  • 数据被认为是AI构建的下一个瓶颈

技术团队通过Multi-Token Prediction补丁优化LLaMA.cpp,使Gemma4本地模型推理速度提升1.5倍,并进行了量化。

  • Multi-Token Prediction技术使Gemma4本地模型速度提升1.5倍
  • 该补丁已应用于LLaMA.cpp并量化

ZyphraAI发布推理MoE模型ZAYA1-8B,训练于AMD平台,活跃参数小于1B,优化智能密度。

  • ZyphraAI发布ZAYA1-8B推理MoE模型
  • 模型在AMD上训练,活跃参数小于1B

ClementDelangue转发Gabriel的推文,称本地AI语音模型在苹果M4 Max笔记本上运行速度比M2 Max快4倍,显示了Apple Silicon的迭代性能提升。

  • 本地AI语音模型在M4 Max上比M2 Max快4倍