Mythos的安全问题已解决,同时Anthropic获得了数百亿规模的推理计算资源。
MiMo API进行价格下调,最高降幅达99%针对Input (Cache Hit),核心原因是推理效率提升。
RWKV-7 G1g模型发布,声称是世界最好的纯RNN大语言模型,在一般LLM中具有竞争力。
推文指出LLM训练依赖快速矩阵乘法,但许多周围操作仍受内存限制。CODA方法对这些内核进行重新参数化优化。
新论文Gated DeltaNet-2发布,提出在线性注意力中解耦擦除和写入操作,是一项AI研究进展。
谷歌将Gemini CLI替换为Agy(antigravity cli),但Agy并非开源且不再支持ACP。该消息来自Twitter,引起社区关注。
开发者宣布Chrome开发者工具将支持llms.txt验证功能,该消息来自推特,引起少量讨论。
伊利诺伊大学香槟分校研究人员发表论文,证明旋转位置编码(RoPE)在长上下文任务中既不能区分位置也不能区分token,对LLM长上下文理解提出挑战。
推文指出,Gemini 3.5 Flash定价9美元,较15个月前发布的Gemini 2.0 Flash的0.4美元上涨22.5倍。
据推特消息,文学期刊正在发表并奖励AI创作的故事,包括知名杂志Granta。这反映了AI在文学领域的渗透趋势。
SolveIt产品现在支持通过实时语音对话编辑消息,并可选择跟踪差异编辑。该功能由@dgwyer发布,提升了编辑效率。
Nvidia发布Nemotron 3 Super和Ultra模型,参数规模分别为120B和约500B,均预训练在NVFP4格式下,其中Super使用了25T tokens。
来源:twitter
发布时间:2026-05-15T21:53:59+00:00
RT @mitchellh: I strongly believe there are entire companies right now under heavy AI psychosis and its impossible to have rational convers…
likes: 7823 | retweets: 860 | replies: 277 | views: 464797
NousResearch 发布 Token Superposition Training (TST),一种对标准大语言模型预训练循环的修改,旨在提升训练效果。该发布受到广泛关注,推文获得 2600 点赞、283 次转发。
Anthropic更新政策,重新定义“交互式”为使用其前端,导致通过claude -p或Agent SDK的交互操作消耗积分而非订阅限制。
推特称模型具备同步语音能力,使Horace最近更易用。
ERNIE 5.1模型发布,显著降低预训练成本,总参数压缩至约三分之一。
Antirez宣布推出DS4,这是一个专为DeepSeek v4 Flash设计的推理引擎。项目进展顺利。
据曝光细节,xAI与Anthropic就Colossus数据中心达成协议:Anthropic获得Colossus 1,而xAI保留使用更大的Colossus数据中心。该交易涉及两大AI公司的基础设施分配,影响算力资源格局。
腾讯混元Hy3预览版发布两周后,在OpenRouter周排行榜上排名第一,处理3.66T tokens,周环比增长298%。
vLLM项目宣布即日起支持Gemma4的MTP(多令牌预测),提供即用Docker镜像,解码速度可提升至3倍。
MiniMax-M2.7模型现已通过六个推理提供商上线,包括Artificial Analysis平台,标志着AI模型部署的扩展。
介绍Gemma 4多标记预测起草者,可加速推理最高3倍。
Deepseek V4 模型能够比其他开源模型更彻底地工作,包括自行编写测试并进行广泛验证。