清除 当前 781 条 / 共 3560 条
筛选已选
筛选
数据源
投研/平台
官方/公司
资讯/RSS
Twitter/X
微信公众号
时间
信息等级
标签
异常/暂停数据源 9
AI 基建 · 26 天 20 小时前 微信公众号 · 42章经 · 4 天 15 小时前 微信公众号 · DeepTech深科技 · 4 天 15 小时前 微信公众号 · Founder Park · 4 天 15 小时前 微信公众号 · FundaAI · 4 天 15 小时前 微信公众号 · 九章智驾 · 4 天 15 小时前 微信公众号 · 晚点LatePost · 4 天 15 小时前 微信公众号 · 琢磨事 · 4 天 15 小时前 微信公众号 · 甲子光年 · 4 天 15 小时前

Amazon Bedrock AgentCore Browser 新增支持 Chrome 企业策略和自定义根 CA 证书,允许组织对 AI 浏览器代理进行细粒度控制,包括 URL 过滤、下载限制和密码管理器配置,并可连接内部服务。

  • Amazon Bedrock AgentCore Browser 支持 Chrome 企业策略。
  • 支持自定义根 CA 证书以连接内部服务和 SSL 代理。
  • 可配置超过 450 种浏览器设置。

谷歌在Google Cloud Next大会上发布新型推理专用TPU,采用名为Broadfly的新型网络拓扑。利用高基数设计,单pod最多可扩展到1152个TPU,相比Ironwood,pod大小提升4.5倍,网络直径减小,任意两个芯片间最多7跳。

  • 谷歌发布新型推理专用TPU,采用Broadfly网络拓扑
  • 新TPU单pod可扩展至1152个芯片
  • 相比Ironwood,pod大小提升4.5倍,最大7跳

Nvidia Nemotron 获得 Deep Agents 0.6 版本的原生支持,该消息由 William Markito 在 Twitter 上发布。这标志着 AI 开发框架与 Nvidia AI 工具进一步集成。

  • Deep Agents 0.6 版本原生支持 Nvidia Nemotron

据推特消息,英伟达H100芯片在中国已开始正式销售,但未提供具体细节和官方确认,需后续验证。

  • H100在中国已开始正式销售

LangChain 在 Interrupt 大会上发布了底层数据库 SmithDB 和自动化排障引擎 LangSmith Engine,解决 Agent 运行海量 trace 导致的数据库瓶颈。

  • LangChain 发布底层数据库 SmithDB 和自动化排障引擎 LangSmith Engine。
  • SmithDB 旨在解决 Agent 运行海量 trace 的数据库瓶颈。

美国参议员桑德斯和AOC提出法案,暂停所有AI数据中心建设。全美已有300多项地方法案,导致2026年计划建设的数据中心中一半面临延迟或取消。这些数据中心每个都会为当地经济带来数十亿美元投资。

  • 桑德斯和AOC提出暂停AI数据中心建设的法案
  • 超过300项地方法案已提交
  • 2026年计划的数据中心中一半面临延迟或取消

Soluna CEO John Belizaire 指出,数据中心行业当前的核心挑战是确保能源获取,而非计算能力。公司正重新思考数据中心电力供应策略。

  • Soluna CEO 认为能源获取是数据中心行业当前最大挑战
  • Soluna 正在调整战略,优先解决数据中心电力问题

AIDC板块景气度上行,金盘科技2025年海外订单31.6亿元,2026年一季度海外订单22亿元。美国变压器价格持续上涨,加急费达30%-50%。

  • 金盘科技2025年海外订单31.6亿元,2026年一季度海外订单22亿元
  • 美国变压器价格持续上涨,加急费达30%-50%

TELUS将在加拿大不列颠哥伦比亚省建设一个由三个站点组成的AI数据中心集群,旨在支持加拿大在境内保留AI基础设施和数据的主权需求。

  • TELUS将建设一个三站点的AI数据中心集群
  • 集群位于加拿大不列颠哥伦比亚省
  • 目的是支持加拿大主权AI基础设施和数据安全

LangChain宣布推出Managed Deep Agents,旨在加速生产级深度代理的部署,具备上下文处理和代码执行等功能。

  • LangChain推出Managed Deep Agents产品

Anthropic更新政策,重新定义“交互式”为使用其前端,导致通过claude -p或Agent SDK的交互操作消耗积分而非订阅限制。

  • Anthropic重新定义“交互式”为使用其前端。
  • 使用claude -p或Agent SDK消耗积分而非订阅。

Pulse AI 在 AWS ML Blog 发布新文章,介绍如何使用 AWS Inferentia 和 Jamba 1.5 mini 进行部署。

  • Pulse AI 在 AWS ML Blog 发布新文章
  • 文章介绍使用 AWS Inferentia 和 Jamba 1.5 mini

文章介绍基于Amazon Nova Sonic和Amazon Kinesis Video Streams WebRTC构建实时语音流应用的解决方案,解决网络带宽、语言障碍和跨浏览器兼容性挑战,提供低延迟、可扩展的语音交互能力。

  • Amazon Nova Sonic提供统一语音到语音架构,支持实时对话
  • 方案结合WebRTC动态调整比特率以维持音频质量
  • AWS提供开源示例作为应用起点

本文介绍如何集成Databricks Unity Catalog与Amazon SageMaker AI,构建安全的LLM微调工作流。使用Amazon EMR Serverless进行预处理,微调Ministral-3-3B-Instruct模型,并将训练产物注册回Unity Catalog,确保数据治理和血缘追踪。

  • 使用Amazon EMR Serverless预处理Unity Catalog中的训练数据
  • 在SageMaker AI上微调Ministral-3-3B-Instruct模型
  • 训练后模型注册回Unity Catalog以维护数据血缘

新市场数据显示,AI计算租赁定价正变得透明、碎片化且波动,随着Neocloud容量扩张,早期价格压缩迹象出现。

  • AI计算定价日益透明、碎片化和波动
  • 新市场数据表明GPU租赁价格出现压缩迹象
  • Neocloud容量扩张推动定价变化

文章指出随着AI计算密度增加,数据移动、冷却和光学互连成为影响性能和扩展的关键瓶颈。

  • AI计算密度增加导致数据移动成为瓶颈
  • 冷却和光学互连对性能和规模至关重要

英伟达宣布与IneffableLabs合作,共同设计用于大规模强化学习代理的基础设施,旨在加速科学和产业领域的发现。双方工程师正在探索构建训练流程,以实现跨知识领域的突破。

  • 英伟达与IneffableLabs合作设计大规模RL代理基础设施
  • 合作目标为加速科学和产业领域的发现
  • 双方工程师正探索构建训练流程以驱动突破

Unsloth发布实验性Qwen3.6 MTP GGUF版本,27B模型在单GPU上达到140 tokens/s,35B-A3B模型达到220 tokens/s,相比原始GGUF速度提升1.4倍,且精度不变。建议最大草稿token数为2。

  • 发布Qwen3.6 MTP GGUF版本,支持推测解码
  • 27B模型单GPU推理速度140 tokens/s
  • 35B-A3B模型速度220 tokens/s,提升1.4倍

Nebius财报表现强劲,重申2026年ARR达70-90亿美元,调整后EBITDA利润率40%,已签约4 GW容量,并通过英伟达支持的融资结构获得6.3亿美元资金。

  • 重申2026年ARR70-90亿美元
  • 预计调整后EBITDA利润率40%
  • 签约4GW容量,获英伟达支持融资6.3亿美元

OpenAI宣布在Windows上为Codex构建安全沙箱,提供受控文件访问和网络限制,实现安全高效的编码代理。

  • OpenAI在Windows上为Codex构建安全沙箱
  • 沙箱提供受控文件访问和网络限制

古河电工股价上涨15%,受康宁与英伟达交易提振,光纤供应商普遍上涨。古河电工还生产覆铜板用铜箔,并发布强劲指引。

  • 古河电工股价上涨15%
  • 康宁与英伟达成交易
  • 古河电工生产覆铜板用铜箔

Coherent Lite是相干下沉光模块,适配OCS场景可节省端口,2.4T产品单价约3000美元,价值量高于普通FR模块。谷歌有望率先落地相关应用,国内光模块厂商旭创、新易盛、光迅、德科立等均有技术储备。

  • Coherent Lite是相干下沉光模块,适配OCS场景可节省端口。
  • 2.4T产品单价约3000美金,价值量高于普通FR模块。
  • 谷歌有望率先落地,国内光模块厂商有技术储备。

该推文指出,随着TPU v8、Rubin和Trainium3于2026年第四季度开始量产,PCB/互连瓶颈问题将受到更多关注。

  • 预计TPU v8、Rubin和Trainium3将在2026年Q4开始量产
  • 该量产将引发PCB/互连瓶颈的更多讨论

台媒报道,富士康已在越南工厂生产全光CPO交换机机架,并开始向英伟达提前出货。出货预测从此前2026年1万台以上上调至2026-2027年5万台以上。供应极为紧张,甚至演示样机也被调拨给英伟达。

  • 富士康开始向英伟达提前出货全光CPO交换机机架
  • 出货预测从2026年1万+上调至2026-2027年5万+台
  • 供应紧张,演示样机也被占用

LangGraph 1.2版本发布,新增delta channels功能,针对长上下文场景优化全状态检查点,减少完整状态存储开销。

  • LangGraph 1.2发布delta channels功能
  • 该功能优化长上下文场景的全状态检查点

Soumith Chintala在Twitter发布招聘信息,正在寻找超算工程师,负责构建实时交互模型和大规模训练基础设施,包括调度、存储、网络、可靠性及分布式系统,工作地点在纽约和旧金山。

  • 正在招聘超算工程师
  • 工作地点在纽约和旧金山
  • 涉及实时交互模型和大型训练基础设施

一篇推文介绍通过组合多个B200 8-GPU机器,使用RoCEv2 CX-7以太网和Tomahawk交换机,并应用PD分解推理优化,使每GPU token吞吐量提升高达7倍,每百万token成本降低7倍。

  • 通过RoCEv2和Tomahawk交换机组合B200机器实现PD分解优化
  • 每GPU token吞吐量提升高达7倍
  • 每百万token成本降低7倍

NVIDIA与科罗拉多州立大学合作,利用Earth-2和PhysicsNeMo,结合生成式AI与高分辨率雷达数据,将冰雹预警提前时间从分钟级延长至小时级,实现实时可扩展的天气预报。

  • NVIDIA与科罗拉多州立大学合作改进天气预报
  • 使用Earth-2和PhysicsNeMo结合生成式AI与雷达数据
  • 冰雹预警时间从分钟级延长到小时级

Madrone公司开发数据中心冷却系统,采用新型露点冷却技术,在得克萨斯州可节省30%的电力和水。

  • Madrone开发数据中心冷却系统
  • 采用露点冷却技术
  • 在Texas可节省30%电力与水

文章探讨开源AI生态系统的成本优势,引用Ai2和Epoch AI的研究指出,前沿模型研发算力占总算力的约80%。中国开源生态通过避免重复研发,可降低算力成本,形成持续发展优势。

  • 前沿模型研发算力占总算力的约80%
  • 中国开源生态可避免重复研发算力支出
  • Ai2和Epoch AI的研究支持该估计

EU AI Act要求LLM微调跟踪FLOPs以确定合规义务,AWS推出开源Fine-Tuning FLOPs Meter工具,集成到SageMaker AI,帮助用户通过配置标志生成审计文档。

  • EU AI Act要求LLM微调跟踪FLOPs
  • AWS推出Fine-Tuning FLOPs Meter工具
  • 工具集成到SageMaker AI管道

Perplexity AI 发布新研究,详述如何在 NVIDIA GB200 NVL72 Blackwell 机架上服务后训练的 Qwen3 235B 模型,展示了高性能推理部署方案。

  • Perplexity AI 发布新研究
  • 研究涉及服务 Qwen3 235B 模型
  • 使用 NVIDIA GB200 NVL72 Blackwell 机架

Hugging Face 公开数据集数量突破100万个,过去8个月数量翻倍(从50万到100万),加速原因与AI Agents能力提升相关。数据被视为AI构建的下一个瓶颈。

  • Hugging Face 公开数据集达到100万个
  • 过去8个月数据集数量翻倍
  • 数据被认为是AI构建的下一个瓶颈

Unsloth发布了支持MTP的量化GGUF格式,适用于Qwen3.6-35B-A3B模型。

  • Unsloth发布了MTP-enabled的量化GGUF文件
  • 针对Qwen3.6-35B-A3B模型

芝加哥商品交易所(CME)宣布将创建用于支持人工智能的计算能力期货市场,这是金融工具创新,旨在为AI算力提供定价和风险管理工具。

  • CME计划推出算力期货市场

NVIDIA GB200芯片改变了服务大型MoE模型(如Qwen)时的prefill和decode分离方式,相比Hopper芯片有吞吐量优势,团队已发表量化对比结果。

  • GB200改变了大型MoE模型的prefill和decode分离方式
  • 与Hopper相比,GB200在服务Qwen时吞吐量有提升

Perplexity AI发布新研究,展示在NVIDIA GB200 NVL72 Blackwell机架系统上部署后训练Qwen3 235B模型的成果,涉及硬件与模型推理优化。

  • Perplexity AI发布在NVIDIA GB200 NVL72上的模型部署研究
  • 研究涉及后训练的Qwen3 235B模型
  • 部署基于Blackwell架构的GB200系统

Meta上周悄然发布Sapiens2模型家族,这是一组高分辨率模型,基于10亿张人类图像训练,主要用于姿态估计等任务。

  • Meta发布Sapiens2模型家族
  • 模型训练使用10亿张人类图像
  • 模型用于姿态估计等任务

Nscale为挪威AI数据中心园区获得7.9亿美元融资,该交易采用公用事业风格,凸显AI基础设施正加剧对能源容量、工业资本和电网接入的竞争。

  • Nscale获得7.9亿美元融资用于挪威AI数据中心园区
  • 该融资采用公用事业式交易结构
  • 交易显示AI基础设施正竞争能源容量、资本和电网接入

超大规模云服务商正在从多样化加速器供应商扩展到多样化加速器设计供应商,反映了其对计算加速器供应链的进一步多元化策略。

  • 超大规模云服务商开始多样化加速器设计供应商
  • 此前已多样化加速器供应商

推特消息称,AWS可能通过联发科在低端版Trainium中使用EMIB技术,类似TPU v9项目;下一代Trainium可能同时使用EMIB和CoWoS。

  • AWS可能通过联发科使用EMIB技术于低端版Trainium
  • 下一代Trainium可能同时使用EMIB和CoWoS

PingCAP 联合创始人黄东旭复盘了 TiDB Cloud 成为 Kimi Agent 服务商的合作细节。Kimi K2.6 Agent 为大众用户提供端到端在线应用构建服务,TiDB Cloud 为其提供动态大规模数据库支持,实现了 Agent Infrastructure 的规模化落地。

  • TiDB Cloud 正式成为 Kimi Agent 的数据库服务商
  • Kimi K2.6 Agent 面向非技术用户提供全托管建站服务
  • 合作降低了 Agent 应用 hosting 成本,用户无需技术背景

MD将2030年CPU市场规模预期上调至超1200亿美元,年复合增速35%,CPU均价预计涨20%-25%,供应紧缺。小米Q1净利润59亿超预期,全年汽车交付55万台目标信心提升。微软Q1 Azure增速40%,AI年化收入超370亿美元,全年capex指引1900亿美元。Uber Q1订单额537.2亿美元同比增25%。存储行业长期供应协议落地,供需紧缺超预期。

  • MD上调2030年CPU市场规模预期至超1200亿美元,年复合增速35%。
  • 小米26Q1经调整净利润59亿超预期,全年汽车交付55万台目标置信度提升。
  • 微软26Q1 Azure增速40%,AI年化收入超370亿美元,全年capex指引1900亿美元。

国金证券AI算力电话会议指出,PCB行业半导体化,头部公司产能领先,板块Q1净利增50.8%,预计Q2环增30%+;存储供不应求涨价持续,Q3价环涨10%-20%,长协最长5年;CPO进度提前至Q3放量;AIDC储能订单验证,Fluence在手订单56亿美元。

  • PCB板块Q1净利增50.8%,预计Q2环增30%+
  • 存储供不应求涨价,Q3价环涨10%-20%,长协最长5年
  • CPO进度提前至Q3放量

LangChain 发布了 Deep Agents CLI 工具,支持用户切换模型并查看模型能力。该工具通过提供的链接可以试用。

  • LangChain 发布 Deep Agents CLI 工具
  • 该工具支持切换模型并查看模型能力

AWS 与 Exa 合作,将 Exa 的 AI 原生搜索和检索层集成到 Strands Agents SDK 中,使智能体能够直接获取结构化内容,无需后处理。该集成提供 exa_search 和 exa_get_contents 两个工具,支持新闻、论文、代码库等多种类别搜索,并可在模型驱动的工作流中实时调用网络知识。

  • Exa 集成 Strands Agents SDK,提供 AI 原生搜索和检索层
  • 集成提供 exa_search 和 exa_get_contents 两个工具
  • Strands Agents SDK 采用模型驱动架构,模型决定工具调用时机

NVIDIA 发布全新产品 Fleet Intelligence,旨在实现大规模 GPU 集群的实时可见性和优化,解决异构硬件、软件栈更新、功耗限制和多租户工作负载等挑战。

  • NVIDIA 推出 Fleet Intelligence 产品
  • 该产品提供实时 GPU 集群可见性和优化功能
  • 产品针对大规模 GPU 集群管理中的多项挑战

英伟达CEO黄仁勋与戴尔CEO迈克尔·戴尔将在Dell TechWorld上发表联合主题演讲,探讨合作利用AI加速企业解决方案。

  • 英伟达CEO黄仁勋和戴尔CEO迈克尔·戴尔将出席Dell TechWorld主题演讲
  • 演讲主题为利用AI加速企业解决方案

用户sudoingX发布更新,称Qwen 3.6 27B dense q4模型在单张NVIDIA RTX 3090上一次性完成了Octopus Invaders游戏,由Hermes代理驱动整个过程。

  • Qwen 3.6 27B dense q4模型在单张3090上运行
  • 模型一次性完成了Octopus Invaders游戏

据推文,DeepSeek V4 Flash的价格比GPT 5.4 Mini便宜约90%,比Gemini 3.1 Flash Lite便宜约70%,为开发者提供显著成本优势。

  • DeepSeek V4 Flash 价格比 GPT 5.4 Mini 便宜约90%
  • DeepSeek V4 Flash 价格比 Gemini 3.1 Flash Lite 便宜约70%