华为研究人员测试了自研的4位精度训练格式HiFloat4,与开放计算项目的MXFP4格式相比,在HiFloat4在昇腾NPU上训练多种模型时,相对于BF16基线的损失误差更低(约1.0%对1.5%)。测试模型包括OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B。
METR和Epoch机构发布MirrorCode基准测试,用于评估AI自主重实现软件的能力。测试包含20多个目标程序,涵盖Unix工具、加密等领域。结果显示,Claude Opus 4.5成功重实现了约1.6万行Go代码的生物信息学工具,完成该任务所需时间远少于人类工程师。