清除 当前 22 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 19 小时前 微信公众号 · 42章经 · 4 天 13 小时前 微信公众号 · DeepTech深科技 · 4 天 13 小时前 微信公众号 · Founder Park · 4 天 13 小时前 微信公众号 · FundaAI · 4 天 13 小时前 微信公众号 · 九章智驾 · 4 天 13 小时前 微信公众号 · 晚点LatePost · 4 天 13 小时前 微信公众号 · 琢磨事 · 4 天 13 小时前 微信公众号 · 甲子光年 · 4 天 13 小时前

abidlabs 在推特上分享,本周成功将 GitHub Actions 的工作流从默认 CI runners 迁移至 HuggingFace Jobs,运行速度显著提升。

  • abidlabs 将 GitHub Actions 切换到 HuggingFace Jobs
  • 工作流运行速度得到提升

推特消息称,用户 @nasch 在消费级 AMD 显卡上运行 Qwen3.6 27B 模型,推理速度达到 87 tok/s,展示了 AI 本地推理的性能进展。

  • 在消费级 AMD 显卡上,Qwen3.6 27B 模型推理速度达 87 tok/s

VikParuchuri 宣布发布 Surya OCR 2 模型,拥有 6.5 亿参数,在 olmocr 基准测试中得分 83.3%,在内部 91 语言基准测试中得分 87%,在其他多项基准测试中表现领先。

  • Surya OCR 2 模型参数规模为 650M。
  • olmocr 基准得分 83.3%,在 3B 以下排名第一。
  • 内部 91 语言基准得分 87%。

Gradio推文宣布一场名为Build Small的黑客马拉松,要求参赛模型参数不超过32B并能在笔记本电脑上运行,赞助商包括OpenAI、NVIDIA和OpenBMB。

  • Build Small黑客马拉松限制模型参数不超过32B
  • 活动要求模型可运行在笔记本电脑上
  • 赞助商包括OpenAI、NVIDIA和OpenBMB

NVIDIA的GLM5.1-NVFP4模型在Hugging Face平台上被发现,标志着NVIDIA在AI模型生态中的新动作。

  • NVIDIA GLM5.1-NVFP4模型出现在Hugging Face上

开源数据集发布:含1.04亿图像-文本对,是目前最大的开放许可图像数据集之一,托管在Hugging Face上。

  • 1.04亿图像-文本对数据集发布
  • 该数据集是最大开放许可图像数据集之一
  • 托管于Hugging Face平台

Hugging Face 科学团队宣布异步强化学习权重同步在带宽成本上降低约100倍,无需共享集群即可实现。

  • Hugging Face 科学团队实现异步RL权重同步带宽成本降低约100倍
  • 该技术不需要共享集群

英伟达发布PiD超分辨率技术,可在像素空间直接从模型潜在变量实现4倍分辨率提升,适用于任何生成图像。

  • 英伟达发布PiD超分辨率技术
  • PiD技术可实现4倍分辨率提升

HuggingFace转发推文称,llama.cpp增加MTP支持后,Qwen3.6-27B密集生成模型在本地运行速度足够作为日常使用。推文获122点赞、12转发、11回复、9051次浏览。

  • llama.cpp新增MTP支持
  • Qwen3.6-27B模型本地生成速度提升
  • 模型可日常使用

llama.cpp 项目宣布新增 WebGPU 后端支持,该项目是 ggml 库的一部分,旨在提升在浏览器中的推理性能。

  • llama.cpp 新增 WebGPU 后端支持
  • 该工作基于 ggml 库实现
  • 旨在实现完整的 WebGPU 支持

llama.cpp 发布 b9235 版本,新增推理加速功能,并在 RTX 5090 上对 Qwen3.6 27B 模型进行了基准测试,展示了性能提升。

  • llama.cpp b9235 版本发布,新增推理加速功能
  • 在 RTX 5090 上对 Qwen3.6 27B 进行了基准测试

huggingface的hf-mem工具更新,新增将混合专家模型(MoE)内存估计分解为基础权重、路由专家和KV缓存三个部分的功能。

  • hf-mem工具新增将MoE内存估计分解为三个部分的功能

llama.cpp 新增 MTP 支持,使本地模型运行速度足够日常使用。Qwen3.6-27B 模型在 A10 GPU 上实现快速文本生成。

  • llama.cpp 增加 MTP 支持,提升本地模型推理速度。
  • Qwen3.6-27B 模型在 A10 上实现快速生成。

llama.cpp 新增对 Qwen3.6 系列的多 Token 预测(MTP)支持,被视为本地 AI 生态的重要里程碑,带来性能提升。

  • llama.cpp 添加 MTP 支持 Qwen3.6 系列
  • 该更新被认为是本地 AI 生态的里程碑

推特用户ngxson宣布Qwen3.6-27B模型在WebGPU上实现100%运行,但速度并非最佳。该演示展示了AI模型在浏览器端推理的可行性。

  • Qwen3.6-27B模型在WebGPU上实现100%运行
  • 运行速度并非最佳

开发者正在将SAM模型移植到Apple silicon,并在MLX上实现1.25倍推理速度提升。

  • 正在将SAM模型移植到Apple silicon
  • 在MLX上推理速度提升1.25倍

用户ErikKaum在huggingface上发布了其首个kernel MaxSim,旨在优化延迟交互检索(ColBERT/PyLate)的瓶颈问题。

  • ErikKaum在huggingface发布了MaxSim kernel
  • MaxSim用于优化ColBERT/PyLate的交互检索瓶颈

HuggingFace发布了一个30B-A3B推理模型,在物理和数学奥林匹克评估中达到金牌水平。该模型在推理能力上取得突破,引起广泛关注。

  • 发布30B-A3B推理模型
  • 物理和数学奥赛评估达金牌水平

Unsloth发布了支持MTP的量化GGUF格式,适用于Qwen3.6-35B-A3B模型。

  • Unsloth发布了MTP-enabled的量化GGUF文件
  • 针对Qwen3.6-35B-A3B模型

Meta上周悄然发布Sapiens2模型家族,这是一组高分辨率模型,基于10亿张人类图像训练,主要用于姿态估计等任务。

  • Meta发布Sapiens2模型家族
  • 模型训练使用10亿张人类图像
  • 模型用于姿态估计等任务

用户sudoingX发布更新,称Qwen 3.6 27B dense q4模型在单张NVIDIA RTX 3090上一次性完成了Octopus Invaders游戏,由Hermes代理驱动整个过程。

  • Qwen 3.6 27B dense q4模型在单张3090上运行
  • 模型一次性完成了Octopus Invaders游戏

Gemma 4 通过 MTP drafters 实现投机解码,速度提升高达 3 倍 tokens/sec。

  • Gemma 4 使用 MTP drafters 进行投机解码
  • 速度提升高达 3 倍 tokens/sec