Twitter用户@rasbt发布一篇关于近期大型语言模型架构进展的图文文章,涵盖从Gemma 4到DeepSeek V4的模型,重点介绍长上下文效率优化技术,如KV共享、逐层嵌入、分层注意力预算、压缩注意力及mHC等。
2026年4月第二波AI模型架构发布,包括蚂蚁Ant Ling 2.6 1T、Minimax M2.7、小米MiMo V2.5、Poolside Laguna XS.2、腾讯Hy3-preview、IBM Granite 4.1等。