Mythos的安全问题已解决,同时Anthropic获得了数百亿规模的推理计算资源。
MiMo API进行价格下调,最高降幅达99%针对Input (Cache Hit),核心原因是推理效率提升。
推文指出LLM训练依赖快速矩阵乘法,但许多周围操作仍受内存限制。CODA方法对这些内核进行重新参数化优化。
Nvidia发布Nemotron 3 Super和Ultra模型,参数规模分别为120B和约500B,均预训练在NVFP4格式下,其中Super使用了25T tokens。
Anthropic更新政策,重新定义“交互式”为使用其前端,导致通过claude -p或Agent SDK的交互操作消耗积分而非订阅限制。
Antirez宣布推出DS4,这是一个专为DeepSeek v4 Flash设计的推理引擎。项目进展顺利。
vLLM项目宣布即日起支持Gemma4的MTP(多令牌预测),提供即用Docker镜像,解码速度可提升至3倍。