本月多家开源前沿实验室发布新模型,包括DeepSeek V4。AI标准与创新中心(CAISI)对DeepSeek V4进行评估,认为开源模型落后于美国前沿模型,且差距随时间扩大。CAISI基于项目反应理论计算Elo分数,使用了九个不同基准。DeepSeek V4在CTF-Archive-Diamond、PortBench和ARC-AGI-2等基准上得分较低,导致整体Elo差距显著。