Amazon Bedrock AgentCore Browser 新增支持 Chrome 企业策略和自定义根 CA 证书,允许组织对 AI 浏览器代理进行细粒度控制,包括 URL 过滤、下载限制和密码管理器配置,并可连接内部服务。
谷歌在Google Cloud Next大会上发布新型推理专用TPU,采用名为Broadfly的新型网络拓扑。利用高基数设计,单pod最多可扩展到1152个TPU,相比Ironwood,pod大小提升4.5倍,网络直径减小,任意两个芯片间最多7跳。
Nvidia Nemotron 获得 Deep Agents 0.6 版本的原生支持,该消息由 William Markito 在 Twitter 上发布。这标志着 AI 开发框架与 Nvidia AI 工具进一步集成。
据推特消息,英伟达H100芯片在中国已开始正式销售,但未提供具体细节和官方确认,需后续验证。
LangChain 在 Interrupt 大会上发布了底层数据库 SmithDB 和自动化排障引擎 LangSmith Engine,解决 Agent 运行海量 trace 导致的数据库瓶颈。
美国参议员桑德斯和AOC提出法案,暂停所有AI数据中心建设。全美已有300多项地方法案,导致2026年计划建设的数据中心中一半面临延迟或取消。这些数据中心每个都会为当地经济带来数十亿美元投资。
Soluna CEO John Belizaire 指出,数据中心行业当前的核心挑战是确保能源获取,而非计算能力。公司正重新思考数据中心电力供应策略。
AIDC板块景气度上行,金盘科技2025年海外订单31.6亿元,2026年一季度海外订单22亿元。美国变压器价格持续上涨,加急费达30%-50%。
TELUS将在加拿大不列颠哥伦比亚省建设一个由三个站点组成的AI数据中心集群,旨在支持加拿大在境内保留AI基础设施和数据的主权需求。
LangChain宣布推出Managed Deep Agents,旨在加速生产级深度代理的部署,具备上下文处理和代码执行等功能。
Anthropic更新政策,重新定义“交互式”为使用其前端,导致通过claude -p或Agent SDK的交互操作消耗积分而非订阅限制。
Pulse AI 在 AWS ML Blog 发布新文章,介绍如何使用 AWS Inferentia 和 Jamba 1.5 mini 进行部署。
文章介绍基于Amazon Nova Sonic和Amazon Kinesis Video Streams WebRTC构建实时语音流应用的解决方案,解决网络带宽、语言障碍和跨浏览器兼容性挑战,提供低延迟、可扩展的语音交互能力。
本文介绍如何集成Databricks Unity Catalog与Amazon SageMaker AI,构建安全的LLM微调工作流。使用Amazon EMR Serverless进行预处理,微调Ministral-3-3B-Instruct模型,并将训练产物注册回Unity Catalog,确保数据治理和血缘追踪。
新市场数据显示,AI计算租赁定价正变得透明、碎片化且波动,随着Neocloud容量扩张,早期价格压缩迹象出现。
文章指出随着AI计算密度增加,数据移动、冷却和光学互连成为影响性能和扩展的关键瓶颈。
英伟达宣布与IneffableLabs合作,共同设计用于大规模强化学习代理的基础设施,旨在加速科学和产业领域的发现。双方工程师正在探索构建训练流程,以实现跨知识领域的突破。
Unsloth发布实验性Qwen3.6 MTP GGUF版本,27B模型在单GPU上达到140 tokens/s,35B-A3B模型达到220 tokens/s,相比原始GGUF速度提升1.4倍,且精度不变。建议最大草稿token数为2。
Nebius财报表现强劲,重申2026年ARR达70-90亿美元,调整后EBITDA利润率40%,已签约4 GW容量,并通过英伟达支持的融资结构获得6.3亿美元资金。
OpenAI宣布在Windows上为Codex构建安全沙箱,提供受控文件访问和网络限制,实现安全高效的编码代理。
古河电工股价上涨15%,受康宁与英伟达交易提振,光纤供应商普遍上涨。古河电工还生产覆铜板用铜箔,并发布强劲指引。
Coherent Lite是相干下沉光模块,适配OCS场景可节省端口,2.4T产品单价约3000美元,价值量高于普通FR模块。谷歌有望率先落地相关应用,国内光模块厂商旭创、新易盛、光迅、德科立等均有技术储备。
该推文指出,随着TPU v8、Rubin和Trainium3于2026年第四季度开始量产,PCB/互连瓶颈问题将受到更多关注。
台媒报道,富士康已在越南工厂生产全光CPO交换机机架,并开始向英伟达提前出货。出货预测从此前2026年1万台以上上调至2026-2027年5万台以上。供应极为紧张,甚至演示样机也被调拨给英伟达。
LangGraph 1.2版本发布,新增delta channels功能,针对长上下文场景优化全状态检查点,减少完整状态存储开销。
Soumith Chintala在Twitter发布招聘信息,正在寻找超算工程师,负责构建实时交互模型和大规模训练基础设施,包括调度、存储、网络、可靠性及分布式系统,工作地点在纽约和旧金山。
一篇推文介绍通过组合多个B200 8-GPU机器,使用RoCEv2 CX-7以太网和Tomahawk交换机,并应用PD分解推理优化,使每GPU token吞吐量提升高达7倍,每百万token成本降低7倍。
NVIDIA与科罗拉多州立大学合作,利用Earth-2和PhysicsNeMo,结合生成式AI与高分辨率雷达数据,将冰雹预警提前时间从分钟级延长至小时级,实现实时可扩展的天气预报。
Madrone公司开发数据中心冷却系统,采用新型露点冷却技术,在得克萨斯州可节省30%的电力和水。
文章探讨开源AI生态系统的成本优势,引用Ai2和Epoch AI的研究指出,前沿模型研发算力占总算力的约80%。中国开源生态通过避免重复研发,可降低算力成本,形成持续发展优势。
EU AI Act要求LLM微调跟踪FLOPs以确定合规义务,AWS推出开源Fine-Tuning FLOPs Meter工具,集成到SageMaker AI,帮助用户通过配置标志生成审计文档。
Perplexity AI 发布新研究,详述如何在 NVIDIA GB200 NVL72 Blackwell 机架上服务后训练的 Qwen3 235B 模型,展示了高性能推理部署方案。
Hugging Face 公开数据集数量突破100万个,过去8个月数量翻倍(从50万到100万),加速原因与AI Agents能力提升相关。数据被视为AI构建的下一个瓶颈。
Unsloth发布了支持MTP的量化GGUF格式,适用于Qwen3.6-35B-A3B模型。
芝加哥商品交易所(CME)宣布将创建用于支持人工智能的计算能力期货市场,这是金融工具创新,旨在为AI算力提供定价和风险管理工具。
NVIDIA GB200芯片改变了服务大型MoE模型(如Qwen)时的prefill和decode分离方式,相比Hopper芯片有吞吐量优势,团队已发表量化对比结果。
Perplexity AI发布新研究,展示在NVIDIA GB200 NVL72 Blackwell机架系统上部署后训练Qwen3 235B模型的成果,涉及硬件与模型推理优化。
Meta上周悄然发布Sapiens2模型家族,这是一组高分辨率模型,基于10亿张人类图像训练,主要用于姿态估计等任务。
Nscale为挪威AI数据中心园区获得7.9亿美元融资,该交易采用公用事业风格,凸显AI基础设施正加剧对能源容量、工业资本和电网接入的竞争。
超大规模云服务商正在从多样化加速器供应商扩展到多样化加速器设计供应商,反映了其对计算加速器供应链的进一步多元化策略。
推特消息称,AWS可能通过联发科在低端版Trainium中使用EMIB技术,类似TPU v9项目;下一代Trainium可能同时使用EMIB和CoWoS。
PingCAP 联合创始人黄东旭复盘了 TiDB Cloud 成为 Kimi Agent 服务商的合作细节。Kimi K2.6 Agent 为大众用户提供端到端在线应用构建服务,TiDB Cloud 为其提供动态大规模数据库支持,实现了 Agent Infrastructure 的规模化落地。
MD将2030年CPU市场规模预期上调至超1200亿美元,年复合增速35%,CPU均价预计涨20%-25%,供应紧缺。小米Q1净利润59亿超预期,全年汽车交付55万台目标信心提升。微软Q1 Azure增速40%,AI年化收入超370亿美元,全年capex指引1900亿美元。Uber Q1订单额537.2亿美元同比增25%。存储行业长期供应协议落地,供需紧缺超预期。
国金证券AI算力电话会议指出,PCB行业半导体化,头部公司产能领先,板块Q1净利增50.8%,预计Q2环增30%+;存储供不应求涨价持续,Q3价环涨10%-20%,长协最长5年;CPO进度提前至Q3放量;AIDC储能订单验证,Fluence在手订单56亿美元。
LangChain 发布了 Deep Agents CLI 工具,支持用户切换模型并查看模型能力。该工具通过提供的链接可以试用。
AWS 与 Exa 合作,将 Exa 的 AI 原生搜索和检索层集成到 Strands Agents SDK 中,使智能体能够直接获取结构化内容,无需后处理。该集成提供 exa_search 和 exa_get_contents 两个工具,支持新闻、论文、代码库等多种类别搜索,并可在模型驱动的工作流中实时调用网络知识。
NVIDIA 发布全新产品 Fleet Intelligence,旨在实现大规模 GPU 集群的实时可见性和优化,解决异构硬件、软件栈更新、功耗限制和多租户工作负载等挑战。
英伟达CEO黄仁勋与戴尔CEO迈克尔·戴尔将在Dell TechWorld上发表联合主题演讲,探讨合作利用AI加速企业解决方案。
用户sudoingX发布更新,称Qwen 3.6 27B dense q4模型在单张NVIDIA RTX 3090上一次性完成了Octopus Invaders游戏,由Hermes代理驱动整个过程。
据推文,DeepSeek V4 Flash的价格比GPT 5.4 Mini便宜约90%,比Gemini 3.1 Flash Lite便宜约70%,为开发者提供显著成本优势。