清除 当前 3 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 20 小时前 微信公众号 · 42章经 · 4 天 15 小时前 微信公众号 · DeepTech深科技 · 4 天 15 小时前 微信公众号 · Founder Park · 4 天 15 小时前 微信公众号 · FundaAI · 4 天 15 小时前 微信公众号 · 九章智驾 · 4 天 15 小时前 微信公众号 · 晚点LatePost · 4 天 15 小时前 微信公众号 · 琢磨事 · 4 天 15 小时前 微信公众号 · 甲子光年 · 4 天 15 小时前

新论文Gated DeltaNet-2发布,提出在线性注意力中解耦擦除和写入操作,是一项AI研究进展。

  • Gated DeltaNet-2论文正式发布
  • 论文主题是解耦线性注意力中的擦除与写入

伊利诺伊大学香槟分校研究人员发表论文,证明旋转位置编码(RoPE)在长上下文任务中既不能区分位置也不能区分token,对LLM长上下文理解提出挑战。

  • 新论文证明RoPE在长上下文中无法区分位置和token

NousResearch 发布 Token Superposition Training (TST),一种对标准大语言模型预训练循环的修改,旨在提升训练效果。该发布受到广泛关注,推文获得 2600 点赞、283 次转发。

  • NousResearch 发布 Token Superposition Training (TST)
  • TST 是一种对标准 LLM 预训练循环的修改
  • 推文获得 2600 点赞、283 次转发