新论文Gated DeltaNet-2发布,提出在线性注意力中解耦擦除和写入操作,是一项AI研究进展。
伊利诺伊大学香槟分校研究人员发表论文,证明旋转位置编码(RoPE)在长上下文任务中既不能区分位置也不能区分token,对LLM长上下文理解提出挑战。
NousResearch 发布 Token Superposition Training (TST),一种对标准大语言模型预训练循环的修改,旨在提升训练效果。该发布受到广泛关注,推文获得 2600 点赞、283 次转发。