Opus 4.8版本发布,针对企业文档的复杂知识工作者任务进行测试。新版本在报告起草、法律NDA审查、金融数据分析等任务上表现优于Opus 4.7,具体性能提升数据包括工业品报告87% vs 77%,消费品评估90% vs 84%等。
作者指出AI从廉价聊天工具转向高成本AI代理,上下文窗口更大,推理成本高一个数量级。AI能力持续提升,高端用例继续使用前沿模型,低端任务转向低成本模型。成本分层扩大,企业需管理AI成本。
@levie 在推特分享与多家财富500强企业CIO晚餐后的观察,指出Token成本将成为企业应用AI的主导话题。CIO们尝试多种成本管理策略,但尚未找到完美方案。
谷歌发布Gemini 3.5 Flash模型,在Box AI复杂文档任务评估中性能显著提升,较Gemini 3 Flash平均提升12个百分点。各行业测试结果均有所增长,其中医疗和生命科学领域提升超20个百分点。模型即将在Box AI Studio和API中可用,Box MCP服务器也将集成。
Claude推出面向法律行业的最新插件和技能,包括与Box的集成,允许企业合同和文档以无头方式在Claude中安全处理。这标志着AI在行业特定工作流中的应用进展。
Box CEO Aaron Levie表示,随着高级AI代理从编码扩展到知识工作,需要专业技术和知识来确保其正确运行。Box正在招聘AI自动化工程岗位,这是一个技术角色,将与业务部门直接合作,提升工作效率和员工及客户体验。
Anthropic 和 OpenAI 分别推出新举措,帮助企业在其组织内部署 AI 代理。该趋势尚处早期但预计将迅速扩大,涉及升级 IT 系统、调整工作流程以及管理人与代理的关系。