Sourcing — Feed

3 @ClementDelangue: RT @ggerganov: llama.cpp now has an official website: https://t.co/9akc1jm8jV Our goal is to make local AI accessible to everyone, and imp…

2026-05-29T16:22

llama.cpp 项目宣布推出官方网站，目标让本地 AI 易于访问，推动本地 AI 普及。

llama.cpp 推出官方网站

@ClementDelangue ↗ X AI 算力

3 @ClementDelangue: RT @mr_r0b0t: Official @NVIDIAAI GLM5.1-NVFP4 spotted on @huggingface 🤩 https://t.co/A2ycGBIpDq

2026-05-28T22:47

NVIDIA的GLM5.1-NVFP4模型被发现在Hugging Face平台上，该模型由NVIDIA AI官方发布，表明技术进展。

NVIDIA的GLM5.1-NVFP4模型出现在Hugging Face平台
该模型由NVIDIA AI官方发布

@ClementDelangue ↗ X AI 算力行业

4 @ClementDelangue: The HF science team just made async RL weight sync ~100x cheaper on bandwidth, and you don't need a shared cluster anymore. The problem: ev...

2026-05-28T13:23

Hugging Face科学团队推出异步强化学习权重同步优化，仅同步变化的权重，带宽成本降低约100倍，在Qwen3-0.6B上验证，payload从1.2GB降至20-35MB，无需共享集群即可实现完全解耦的训练。

HF团队使异步RL权重同步带宽成本降低约100倍
新方法在TRL中实现，只传输变化的权重元素
在Qwen3-0.6B上，每步payload从1.2GB降至20-35MB

@ClementDelangue ↗ X AI 算力研究

3 @ClementDelangue: RT @jedisct1: I’ve just released MiMo V2.5-Coder. If you have 128 GB of RAM, this is one of the best models you can run locally. It’s fast,…

2026-05-25T15:02

开发者发布MiMo V2.5-Coder模型，需128GB RAM即可本地运行，速度较快。该模型为最新版本。

MiMo V2.5-Coder模型发布
需128GB RAM可本地运行

@ClementDelangue ↗ X AI 算力

3 @ClementDelangue: llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 Qwen3.6-27B dense generation below on A10G: From 25 t...

2026-05-24T22:12

llama.cpp 新增 MTP 支持，使本地模型运行速度显著提升。在 A10G 上，Qwen3.6-27B 密集生成速度从 25 tok/s 提升至 45 tok/s，增幅达 78%。

llama.cpp 增加 MTP 支持
Qwen3.6-27B 在 A10G 上速度提升 78%

@ClementDelangue ↗ X AI 算力行业

3 @ClementDelangue: RT @ggerganov: Highlighting the new WebGPU backend in llama.cpp/ggml The work to bring full-fledged WebGPU support in llama.cpp started ab…

2026-05-22T15:10

llama.cpp/ggml 宣布推出全新 WebGPU 后端，支持浏览器端运行大模型，提升推理性能。该项目已开始全面集成 WebGPU 支持。

llama.cpp/ggml 推出新 WebGPU 后端
该项目开始全面支持 WebGPU

@ClementDelangue ↗ X AI 算力行业

3 @ClementDelangue: RT @victormustar: llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 Qwen3.6-27B dense generation (on A10…

2026-05-19T00:52

llama.cpp 新增 MTP（多令牌预测）支持，本地模型推理速度显著提升，足以作为日常驱动。Qwen3.6-27B 密集生成在 A10 GPU 上得到展示，推动本地 AI 部署实用性。

llama.cpp 新增 MTP 支持，加速本地模型推理。
本地模型速度提升至可作为日常驱动。
Qwen3.6-27B 在 A10 上展示密集生成性能。

@ClementDelangue ↗ X AI 算力

3 @ClementDelangue: RT @TechCrunch: Tether just fine-tuned a 13B AI model on an iPhone 16. No data center. No enterprise GPU. Full privacy.

2026-05-18T14:47

Tether公司在iPhone 16上成功微调了一个130亿参数的AI模型，无需数据中心和企业级GPU，实现了完全隐私保护。这一技术突破展示了在移动设备上运行大模型的可行性。

Tether在iPhone 16上微调了13B参数的AI模型
无需数据中心和企业级GPU
实现了完全隐私保护

@ClementDelangue ↗ X AI 算力

2 @ClementDelangue: RT @ErikKaum: Releasing my first kernel on @huggingface: MaxSim Late-interaction retrieval (ColBERT / PyLate) bottlenecks on materializing…

2026-05-18T12:18

Erik Kaum在HuggingFace上发布了首个kernel MaxSim，旨在解决延迟交互检索（ColBERT/PyLate）中材料化瓶颈问题。

Erik Kaum在HuggingFace上发布MaxSim kernel
MaxSim针对ColBERT/PyLate延迟交互检索的材料化瓶颈

@ClementDelangue ↗ X AI 算力

3 @ClementDelangue: We just crossed 1,000,000 public datasets on Hugging Face! That's petabytes of data available that millions of AI builders are downloading, ...

2026-05-12T15:16

Hugging Face 公开数据集数量突破100万个，过去8个月数量翻倍（从50万到100万），加速原因与AI Agents能力提升相关。数据被视为AI构建的下一个瓶颈。

Hugging Face 公开数据集达到100万个
过去8个月数据集数量翻倍
数据被认为是AI构建的下一个瓶颈

@ClementDelangue ↗ X AI 行业动态算力

3 @ClementDelangue: RT @atomic_chat_hq: Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized G…

2026-05-08T16:57

技术团队通过Multi-Token Prediction补丁优化LLaMA.cpp，使Gemma4本地模型推理速度提升1.5倍，并进行了量化。

Multi-Token Prediction技术使Gemma4本地模型速度提升1.5倍
该补丁已应用于LLaMA.cpp并量化

@ClementDelangue ↗ X AI 算力

3 @ClementDelangue: RT @ZyphraAI: Today we're releasing ZAYA1-8B, a reasoning MoE trained on @AMD and optimized for intelligence density. With <1B active pa...

2026-05-06T19:39

ZyphraAI发布推理MoE模型ZAYA1-8B，训练于AMD平台，活跃参数小于1B，优化智能密度。

ZyphraAI发布ZAYA1-8B推理MoE模型
模型在AMD上训练，活跃参数小于1B

@ClementDelangue ↗ X AI 算力行业

3 @ClementDelangue: RT @gabriel1: i thought on device ai was stupid but now my local voice model turns 4x faster on my corporate m4 max laptop than my m2 max p…

2026-05-05T01:35

ClementDelangue转发Gabriel的推文，称本地AI语音模型在苹果M4 Max笔记本上运行速度比M2 Max快4倍，显示了Apple Silicon的迭代性能提升。

本地AI语音模型在M4 Max上比M2 Max快4倍

@ClementDelangue ↗ X AI 算力