清除 当前 2 条 / 共 3563 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 22 小时前 微信公众号 · 42章经 · 4 天 16 小时前 微信公众号 · DeepTech深科技 · 4 天 16 小时前 微信公众号 · Founder Park · 4 天 16 小时前 微信公众号 · FundaAI · 4 天 16 小时前 微信公众号 · 九章智驾 · 4 天 16 小时前 微信公众号 · 晚点LatePost · 4 天 16 小时前 微信公众号 · 琢磨事 · 4 天 16 小时前 微信公众号 · 甲子光年 · 4 天 16 小时前

Twitter用户@rasbt发布一篇关于近期大型语言模型架构进展的图文文章,涵盖从Gemma 4到DeepSeek V4的模型,重点介绍长上下文效率优化技术,如KV共享、逐层嵌入、分层注意力预算、压缩注意力及mHC等。

  • 文章回顾从Gemma 4到DeepSeek V4的LLM架构进展
  • 重点介绍长上下文效率优化技术,包括KV共享和压缩注意力
  • 文章以可视化方式呈现,并附有链接

2026年4月第二波AI模型架构发布,包括蚂蚁Ant Ling 2.6 1T、Minimax M2.7、小米MiMo V2.5、Poolside Laguna XS.2、腾讯Hy3-preview、IBM Granite 4.1等。

  • 蚂蚁发布Ant Ling 2.6 1T模型
  • Minimax发布M2.7模型
  • 小米、腾讯、IBM等发布新模型