MiniMax M2技术报告发布,总结了多项技术发现:选择全注意力机制而非混合滑动窗口;线性/稀疏注意力在生产系统中部署困难且前缀缓存支持差;细粒度MoE(128专家top-8)在2B参数规模下推理和代码能力显著提升;训练流程中增加了软件工程agent行为训练。
在 LLMs-from-scratch 仓库中新增了 DeepSeek Sparse Attention (DSA) 的从头实现,包含动机、概述和 GPT 风格模型参考实现,作为独立示例代码。
Twitter用户@rasbt发布一篇关于近期大型语言模型架构进展的图文文章,涵盖从Gemma 4到DeepSeek V4的模型,重点介绍长上下文效率优化技术,如KV共享、逐层嵌入、分层注意力预算、压缩注意力及mHC等。
2026年4月第二波AI模型架构发布,包括蚂蚁Ant Ling 2.6 1T、Minimax M2.7、小米MiMo V2.5、Poolside Laguna XS.2、腾讯Hy3-preview、IBM Granite 4.1等。