llama.cpp 项目宣布推出官方网站,目标让本地 AI 易于访问,推动本地 AI 普及。
NVIDIA的GLM5.1-NVFP4模型被发现在Hugging Face平台上,该模型由NVIDIA AI官方发布,表明技术进展。
Hugging Face科学团队推出异步强化学习权重同步优化,仅同步变化的权重,带宽成本降低约100倍,在Qwen3-0.6B上验证,payload从1.2GB降至20-35MB,无需共享集群即可实现完全解耦的训练。
开发者发布MiMo V2.5-Coder模型,需128GB RAM即可本地运行,速度较快。该模型为最新版本。
llama.cpp 新增 MTP 支持,使本地模型运行速度显著提升。在 A10G 上,Qwen3.6-27B 密集生成速度从 25 tok/s 提升至 45 tok/s,增幅达 78%。
llama.cpp/ggml 宣布推出全新 WebGPU 后端,支持浏览器端运行大模型,提升推理性能。该项目已开始全面集成 WebGPU 支持。
llama.cpp 新增 MTP(多令牌预测)支持,本地模型推理速度显著提升,足以作为日常驱动。Qwen3.6-27B 密集生成在 A10 GPU 上得到展示,推动本地 AI 部署实用性。
Tether公司在iPhone 16上成功微调了一个130亿参数的AI模型,无需数据中心和企业级GPU,实现了完全隐私保护。这一技术突破展示了在移动设备上运行大模型的可行性。
Erik Kaum在HuggingFace上发布了首个kernel MaxSim,旨在解决延迟交互检索(ColBERT/PyLate)中材料化瓶颈问题。
Hugging Face 公开数据集数量突破100万个,过去8个月数量翻倍(从50万到100万),加速原因与AI Agents能力提升相关。数据被视为AI构建的下一个瓶颈。
技术团队通过Multi-Token Prediction补丁优化LLaMA.cpp,使Gemma4本地模型推理速度提升1.5倍,并进行了量化。
ZyphraAI发布推理MoE模型ZAYA1-8B,训练于AMD平台,活跃参数小于1B,优化智能密度。
ClementDelangue转发Gabriel的推文,称本地AI语音模型在苹果M4 Max笔记本上运行速度比M2 Max快4倍,显示了Apple Silicon的迭代性能提升。