清除 当前 15 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 21 小时前 微信公众号 · 42章经 · 4 天 15 小时前 微信公众号 · DeepTech深科技 · 4 天 15 小时前 微信公众号 · Founder Park · 4 天 15 小时前 微信公众号 · FundaAI · 4 天 15 小时前 微信公众号 · 九章智驾 · 4 天 15 小时前 微信公众号 · 晚点LatePost · 4 天 15 小时前 微信公众号 · 琢磨事 · 4 天 15 小时前 微信公众号 · 甲子光年 · 4 天 15 小时前

Hugging Face转发Bidhan消息:将选择性发布巴黎2.0模型权重,并与对扩散视频感兴趣的研究人员和团队合作。

  • 选择性发布巴黎2.0权重
  • 与研究人员和团队合作扩散视频

Adithya S K 发布了 Repo2RLEnv,一个能将任何代码仓库转化为可运行、可验证的编码环境的工具,基于真实的 GitHub PR 和提交构建。

  • Repo2RLEnv 工具发布,可将仓库转化为可运行、可验证的编码环境

研究人员在Hugging Face上发布了最大的蛋白质数据集合,该数据集经过长时间整理,供社区使用。

  • 发布了最大的蛋白质数据集合在Hugging Face上
  • 团队为此工作了较长时间

Allen AI发布ArtifactLinker新系统,用于预测模型应该评估哪些基准,旨在解决当前模型只在部分基准上评估的问题。

  • Allen AI发布ArtifactLinker系统
  • ArtifactLinker预测模型评估基准

Cohere 的 Command A+ 模型在 Hugging Face 上线,支持 W4A4 量化,可大幅降低服务占用且几乎无性能损失。

  • Command A+ 上线 Hugging Face
  • 支持 W4A4 量化,降低服务占用

Hugging Face 发布 physics-intern 科学问题测试框架,该框架使 Gemini 3.1 Pro 模型在科学问题上的性能从 17.7 提升至 31。

  • Hugging Face 发布了 physics-intern 科学问题测试框架。
  • 该框架使 Gemini 3.1 Pro 模型性能从 17.7 提升至 31。

开源Marlin-2B视觉语言模型,用于从视频中提取结构化信息。该模型专注于两个问题的微调。

  • Marlin-2B模型开源
  • Marlin针对视频结构化信息提取微调

Hugging Face 发布了名为 Carbon 的 DNA 模型,速度比次优模型快 275 倍,能够高效处理 DNA 数据。

  • Hugging Face 发布 Carbon DNA 模型
  • Carbon 速度比次优模型快 275 倍

在推特上,LoubnaBenAllal1宣布推出开源生成式DNA基础模型系列Carbon,其中Carbon-3B性能与Evo2-7B相当,但运行速度快250倍。

  • 发布Carbon系列开源生成式DNA基础模型
  • Carbon-3B性能匹配Evo2-7B
  • Carbon-3B运行速度快250倍

Hugging Face 与 tomaarsen 联合发布 Ettin Reranker 家族,包含六种新的 CrossEncoder 重排序模型,参数规模从 17M 到 1B,声称在同规模下达到最先进性能。

  • 发布 Ettin Reranker 家族,含六种新模型
  • CrossEncoder 重排序器参数 17M 至 1B
  • 宣称达到同规模最先进水平

HuggingFace发布了一个30B-A3B推理模型,在物理和数学奥林匹克评估中达到金牌水平。该模型在推理能力上取得突破,引起广泛关注。

  • 发布30B-A3B推理模型
  • 物理和数学奥赛评估达金牌水平

介绍physics-intern框架,这是一个用于理论物理的智能体框架。该框架使Gemini 3.1 Pro在CritP基准上的正确率从17.7%提升至31.4%。

  • physics-intern是一个用于理论物理的智能体框架
  • 该框架将Gemini 3.1 Pro在CritP上的正确率从17.7%提升至31.4%

Meta上周悄然发布Sapiens2模型家族,这是一组高分辨率模型,基于10亿张人类图像训练,主要用于姿态估计等任务。

  • Meta发布Sapiens2模型家族
  • 模型训练使用10亿张人类图像
  • 模型用于姿态估计等任务

Qwen发布WebWorld系列开放世界模型,专为Web代理设计,包含8B、14B、32B参数版本及数据集,采用Apache2.0许可,在MiniWob++任务上提升9.9%,在WebArena上提升10%。

  • Qwen发布WebWorld开放世界模型系列
  • 模型参数包括8B、14B、32B及配套数据集
  • 采用Apache2.0许可,性能提升9.9%至10%

Hugging Face的TRL库发布v1.4版本,新增chunked NLL损失用于监督微调,使用更少显存且速度更快,并提及Qwen3模型。

  • TRL v1.4版本发布
  • 新增chunked NLL损失用于SFT
  • 显存更少,损失相同,速度更快