abidlabs 在推特上分享,本周成功将 GitHub Actions 的工作流从默认 CI runners 迁移至 HuggingFace Jobs,运行速度显著提升。
推特消息称,用户 @nasch 在消费级 AMD 显卡上运行 Qwen3.6 27B 模型,推理速度达到 87 tok/s,展示了 AI 本地推理的性能进展。
VikParuchuri 宣布发布 Surya OCR 2 模型,拥有 6.5 亿参数,在 olmocr 基准测试中得分 83.3%,在内部 91 语言基准测试中得分 87%,在其他多项基准测试中表现领先。
Gradio推文宣布一场名为Build Small的黑客马拉松,要求参赛模型参数不超过32B并能在笔记本电脑上运行,赞助商包括OpenAI、NVIDIA和OpenBMB。
NVIDIA的GLM5.1-NVFP4模型在Hugging Face平台上被发现,标志着NVIDIA在AI模型生态中的新动作。
开源数据集发布:含1.04亿图像-文本对,是目前最大的开放许可图像数据集之一,托管在Hugging Face上。
Hugging Face 科学团队宣布异步强化学习权重同步在带宽成本上降低约100倍,无需共享集群即可实现。
英伟达发布PiD超分辨率技术,可在像素空间直接从模型潜在变量实现4倍分辨率提升,适用于任何生成图像。
HuggingFace转发推文称,llama.cpp增加MTP支持后,Qwen3.6-27B密集生成模型在本地运行速度足够作为日常使用。推文获122点赞、12转发、11回复、9051次浏览。
llama.cpp 项目宣布新增 WebGPU 后端支持,该项目是 ggml 库的一部分,旨在提升在浏览器中的推理性能。
llama.cpp 发布 b9235 版本,新增推理加速功能,并在 RTX 5090 上对 Qwen3.6 27B 模型进行了基准测试,展示了性能提升。
huggingface的hf-mem工具更新,新增将混合专家模型(MoE)内存估计分解为基础权重、路由专家和KV缓存三个部分的功能。
llama.cpp 新增 MTP 支持,使本地模型运行速度足够日常使用。Qwen3.6-27B 模型在 A10 GPU 上实现快速文本生成。
llama.cpp 新增对 Qwen3.6 系列的多 Token 预测(MTP)支持,被视为本地 AI 生态的重要里程碑,带来性能提升。
推特用户ngxson宣布Qwen3.6-27B模型在WebGPU上实现100%运行,但速度并非最佳。该演示展示了AI模型在浏览器端推理的可行性。
开发者正在将SAM模型移植到Apple silicon,并在MLX上实现1.25倍推理速度提升。
用户ErikKaum在huggingface上发布了其首个kernel MaxSim,旨在优化延迟交互检索(ColBERT/PyLate)的瓶颈问题。
HuggingFace发布了一个30B-A3B推理模型,在物理和数学奥林匹克评估中达到金牌水平。该模型在推理能力上取得突破,引起广泛关注。
Unsloth发布了支持MTP的量化GGUF格式,适用于Qwen3.6-35B-A3B模型。
Meta上周悄然发布Sapiens2模型家族,这是一组高分辨率模型,基于10亿张人类图像训练,主要用于姿态估计等任务。
用户sudoingX发布更新,称Qwen 3.6 27B dense q4模型在单张NVIDIA RTX 3090上一次性完成了Octopus Invaders游戏,由Hermes代理驱动整个过程。
Gemma 4 通过 MTP drafters 实现投机解码,速度提升高达 3 倍 tokens/sec。