从算力到执行,谁在卡位大模型时代的基础设施?
Little Jeff Brother · 2026-06-02
本报告梳理了公开市场上 10 家 AI Infra 软件公司,按 LLM 技术栈从底到顶分成五层:算力云 → 数据管道 → 检索与搜索 → 可观测性 → 执行与边缘。每家分析围绕三个核心问题展开:(1)它到底卖什么产品?(2)它和大模型的关系是什么?(3)它的护城河和风险在哪?
核心发现:真正"纯"的 AI Infra 软件标的,私有市场上更多(Databricks、Hugging Face、Fireworks 等),公开市场能买的集中在数据层和观测层。其中 Elastic 被严重低估——它的 Elasticsearch 是 RAG(检索增强生成)的事实标准底座,但市场至今按"日志搜索公司"在定价。Confluent 的 Kafka 是 AI Agent 实时数据流的默认答案,定价同样不充分。这两家是公开市场里最具 alpha 潜力的 AI Infra 标的。
如果把大模型当成"大脑",AI Infra 就是让大脑能感知、能记忆、能行动的身体系统。按技术栈从底到顶,公开市场上的公司可以分成五层(本文不讨论芯片/硬件层,如 NVIDIA、Broadcom):
| 层级 | 做什么 | 代表公司 | 简单比喻 |
|---|---|---|---|
| 算力云 | GPU 出租 + 推理端点 | Nebius、CoreWeave | 电厂的发电机 |
| 数据管道 | 数据存储 + 实时流转 | Snowflake、Confluent | 储油罐 + 输油管 |
| 检索与搜索 | RAG 底座 + 向量检索 | Elastic、MongoDB | 图书管理员 + 索引卡 |
| 可观测性 | 监控 LLM 应用的运行状态 | Datadog、Dynatrace | 整栋楼的电表 + 火警 |
| 执行与边缘 | Agent 把活干完 + 边缘路由 | ServiceNow、Cloudflare | 双手 + 高速公路收费口 |
做什么:出租 GPU 裸金属 + 托管推理端点。你租 H200/B200/GB200,它帮你装好机柜、配好 InfiniBand 高速网络、搭好 Kubernetes/Slurm 集群管理。在做的一层推理产品叫 Token Factory——托管 Llama、Mistral、Qwen 等开源模型的推理端点,按 token 吞吐和延迟给 SLA,号称比对手快约 4.5 倍、便宜约 50%。
和大模型的关系:最直接——没有 GPU 你一行模型都跑不动。但 GPU 是同质化商品:你用 AWS 还是 Nebius 还是 CoreWeave,底层都是 H200,切换成本主要在工程上,不在能力上。它真正的差异化来自三点:全栈自建数据中心(不是转租别人的机柜)、NVIDIA 本身投了它 20 亿美元、以及它瞄准的是「训练→推理」切换这个窗口——推理的经济学是每 token 的边际成本游戏,Token Factory 就是为这个设计的。
风险:2026 年 capex 指引 200-250 亿美元,但全年营收指引才 30-34 亿美元——烧钱远超营收,高度依赖融资。另外它还是一个"集团",藏着 Avride(自动驾驶)和 ClickHouse/Toloka 股权,业务不纯粹。
做什么:纯 GPU 云龙头,和 Nebius 做同一件事但规模更大——2025 年营收 51 亿美元,2026 年指引 120-130 亿美元(约 140% 增长),合同 backlog 超过 660 亿美元。商业模式简单粗暴:借钱买卡、租出去、再用合同去借更多钱买更多卡。
和大模型的关系:一样——算力是最底层、最同质化的稀缺资源。它的核心客户微软贡献了很大比例的收入,这是一个双刃剑:锚定客户给了确定性,但也意味着微软一旦自建或换供应商,影响会极大。
做什么:云数据仓库。企业把所有业务数据倒进去,用 SQL 查询分析。按计算消耗量计费——跑一个 query 烧了多少算力,就付多少钱。
和大模型的关系:你用大模型做企业应用,模型是公共的(GPT、Claude 谁都能调),但企业自己的私有数据是独家的。这些数据大概率就存在 Snowflake 里。Snowflake 的逻辑是"数据重力"——数据在哪,算力就吸到哪。它推 Cortex AI,就是让你直接在数据仓库里跑 embedding、做检索、调模型,不用把数据导到外部平台。
看点:NRR 回升到 126%(老客户花钱越来越多),Cortex AI 账户环比翻倍,加签了 AWS 60 亿美元五年大单。风险是消费模式——收入直接挂钩客户用了多少算力,如果企业下半年砍 AI 预算,就算客户数不变收入也可能不及预期。另外私募市场的 Databricks(估值 1340 亿、增速 65%+)对它构成了持续叙事压力。
做什么:Kafka 的商业化公司。Kafka 是一个分布式消息流平台——简单理解,任何系统产生的数据事件(用户点击、交易记录、传感器读数)都实时流进 Kafka,任何下游系统从 Kafka 实时消费。
和大模型的关系:这个关系比 Snowflake 更隐蔽,但更性感。你做 AI Agent,Agent 要的不是"数据库里有什么"(静态 RAG),而是"此刻正在发生什么"(实时上下文)。比如一个金融风控 Agent,它需要看到实时交易流,而不是昨天 batch 跑出来的报表。Kafka 就是这个实时神经系统的标准答案。
把它和 Snowflake 的关系记住一句话:Snowflake 管历史数据,Confluent 管实时事件流。RAG 管静态检索,Kafka 给 Agent 喂"现在"。
看点:111 亿市值,在数据层里 AI 叙事最干净但市场定价最不充分。它的 AI 故事不是"我也能做 RAG",而是"Agent 要实时决策就必须有实时数据流"——这个逻辑还没被 Wall Street 充分定价。
做什么:Elasticsearch——全文搜索 + 向量搜索的混合引擎,开源起家,企业版托管在 Elastic Cloud 上。你大概率用过:日志分析、站内搜索、APM(应用性能监控),很多团队用 ELK(Elasticsearch + Logstash + Kibana)搭。
和大模型的关系:这是整个板块里最直接的一家。 RAG 是大模型落地企业的第一范式——模型回答问题前,先去知识库检索相关文档,塞进 context window,再生成答案。这个"检索"动作,Elasticsearch 是工业标准。
它做的是混合搜索:BM25(传统关键词匹配)+ dense vector(语义向量)+ 稀疏向量(ELearner 自研),一条查询同时跑三种检索方式,再融合排序。和 Pinecone、Weaviate 这些纯向量库不同,ES 的杀手锏是"可组合性"——你可以在同一条查询里写「全文匹配 + 语义检索 + SQL 范围过滤」,这对生产环境是硬需求。企业本来就用 ES 管日志和搜索,现在加一个向量维度就能做 RAG,不需要另起一套基础设施。
做什么:文档数据库。不用传统 SQL 的表格结构,用 JSON 格式存数据,schema 灵活——开发者喜欢它因为不需要提前定义表结构,改需求直接改 JSON 字段就行。Atlas 是托管云版。
和大模型的关系:它在 AI 时代有两层角色。第一,AI 应用产生的数据(聊天记录、Agent 状态、对话记忆)是非结构化的 JSON,天然适合 MongoDB。第二,Atlas Vector Search 可以直接在已有数据上做向量检索,不用把数据搬到 Pinecone/Weaviate。
但有个硬伤:Postgres + pgvector(加上 pgvectorscale 插件)已经在性能上逼近甚至超过它。在 5000 万向量、768 维的测试中,pgvectorscale 做到 471 QPS @ 99% 召回——而你可以用一条 SQL 同时做向量检索 + JOIN + 过滤。很多团队因此直接选择 Postgres,不搞单独的 MongoDB 集群。
看多逻辑:四家里估值最低(FY1 EV/S 9.9x),自由现金流 5 亿+、几乎零负债,基本面扎实。看空逻辑:在五家公司里"AI 是我的结构性顺风"这个故事最弱——Postgres 是又强又便宜的默认替代。
做什么:基础设施 + 应用性能监控。你部署的服务——CPU、内存、延迟、错误率、日志、链路追踪——全收进 Datadog,仪表盘可视化。按监控的数据量和使用的主机数计费。
和大模型的关系:这可能是对你作为 LLM 从业者最有启发的一家。以前你监控一个微服务,看延迟、错误率、吞吐就够了。现在你监控一个 LLM 应用,你要看的是:token 消耗量、幻觉率、推理延迟 P50/P95/P99、RAG 检索的相关性分数、从 prompt 到 response 的全链路追踪。
Datadog 的 LLM Observability 产品就是干这个的——在 LangChain、LlamaIndex 里插桩,把一次 LLM 调用拆解成 embedding → 检索 → prompt 组装 → 模型调用 → 输出的完整 trace。对做大模型应用的团队来说,"我的应用为什么这么慢/这么贵/老胡说"这三个问题,Datadog 是标准答案。
护城河:产品密度。它有 20+ 个集成的监控产品(基础设施、APM、日志、RUM、安全、LLM),一个平台全搞定。AWS、Azure 自带的监控工具更便宜,但多云企业需要一个厂商中立的统一观测层——Datadog 就是这个位置。OpenAI 是它最大客户,前 20 大 AI 公司里有 14 家在用它。
风险:用量计费是双刃剑——客户在 AI 上烧得多,DDOG 收得多;客户优化 AI 成本、砍用量,收入立刻反映。另外它自己跑 LLM Observability 也要烧推理算力,如果推理成本上得比账单快,会压缩现金流。
做什么:和 Datadog 同一个赛道——应用性能监控 + 基础设施监控。区别是 DT 更偏企业 APM、更多自动化(用因果 AI 自动定位根因),产品广度不如 DDOG,但在大型传统企业里渗透很深。
和大模型的关系:逻辑和 Datadog 一样——AI 系统更复杂、更容易崩,"看得见"不是可选项。DT 也有自己的 AI 观测产品,但品牌和产品厚度弱于 DDOG。
做什么:企业 IT 工作流自动化平台。员工请假、报销、入职开通账号、IT 故障工单——这些流程跑在 ServiceNow 上。它每年自动处理超过 1000 亿个工作流、7 万亿笔交易。服务 8400+ 客户,覆盖 85% 的财富 500 强。
和大模型的关系,记住一句话:LLM 是大脑,ServiceNow 是双手。
LLM 能理解"帮我重置密码"这句话,但它不会真的去改 AD 域控、更新 CMDB 配置库、发邮件通知。ServiceNow 的流程引擎 + 权限系统 + 企业专有数据接到 LLM 后面,AI Agent 才能把活"做完"而不是"说完"。
市场上曾有一个流行观点叫"SaaSpocalypse"(SaaS 末日论)——认为 AI Agent 会绕过所有 SaaS 软件直接干活,ServiceNow 首当其冲。但现在越来越多人反过来:Agent 越强,越需要一个能执行、有权限、有上下文的工作流引擎兜底。复杂的不是"提出需求",而是"交付需求"背后跨部门、跨系统的执行流程——这本身就是一道护城河。
数据说话:旗舰 AI 产品 Now Assist 年化收入已达 10 亿美元(年底目标 15 亿),cRPO(未来 12 个月的已签约收入)连续 5 个季度跑赢 20%——backlog 可见性极强。Rule of 55+(增速 + 利润率超过 55%),是四家软件里护城河最深、盈利最确定的一家。
做什么:CDN + 边缘计算 + 网络安全。在全球 330+ 城市有机房,客户的网站和 API 放在它后面,它负责加速、防 DDoS、挡爬虫攻击。
和大模型的关系:它在做一个非常巧妙的事——边缘 AI 编排。逻辑是这样的:
风险:估值贵——FY1 EV/S 32.7x。它的 AI 故事很完整(边缘推理 + 模型网关 + 向量库),但需要高增长持续兑现才能撑住这个估值。capex 也重(需要持续在全球加机房),自由现金流转化率偏低。
表:AI Infra 软件层核心财务指标(截至 2026-06-02,数据来源 FMP)
| 公司 | 市值 | TTM增速 | FY1 EV/S | FY2 EV/S | FCF收益率 | GAAP盈利 |
|---|---|---|---|---|---|---|
| ServiceNow | ~1,400亿 | ~22% | 8.5x | 7.1x | 3.3% | 是 |
| Datadog | ~985亿 | ~32% | 21.9x | 18.2x | 1.1% | 刚转正 |
| Snowflake | ~965亿 | ~34% | 15.8x | 12.6x | 1.2% | 否 |
| Cloudflare | ~926亿 | ~30% | 32.7x | 25.6x | 0.4% | 否 |
| CoreWeave | ~681亿 | ~140% | 6.6x | 3.3x | 负 | 否 |
| Nebius | ~647亿 | ~3x+ | 19.1x | 5.7x | 负 | 否 |
| MongoDB | ~317亿 | ~25% | 9.9x | 8.4x | 1.9% | 否 |
| Dynatrace | ~128亿 | ~15% | 5.1x | 4.4x | 4.1% | 是 |
| Confluent | ~111亿 | ~20% | 7.4x | 6.4x | 0.5% | 否 |
| Elastic | ~69亿 | ~18% | 3.1x | 2.7x | 4.7% | 是 |
从 LLM 从业者视角看这 10 家,可以把它们分成三个阵营:
第一阵营:确定性 AI 收税人(适合底仓)。ServiceNow 和 Datadog——前者卡住 Agent 执行层(AI 越强越需要它),后者卡住观测层(AI 烧得越多它收得越多)。护城河深、盈利好、AI 故事已被业绩验证。缺点是贵,但好货不打折。
第二阵营:被低估的 AI Infra 基础设施(最有 alpha)。Elastic 和 Confluent。前者是 RAG 的事实标准检索层,市场至今按"日志公司"在定价;后者是 AI Agent 实时数据流的标准答案,"数据管道 = AI 神经系统"的叙事还没被定价。两家共同的逻辑:技术栈已经是 AI Infra,但估值还是传统软件的倍数——一旦市场重新分类,弹性最大。Dynatrace 作为便宜版 Datadog 也在这个阵营。
第三阵营:高弹性 AI 押注(需要钢铁胃)。Nebius 和 CoreWeave——增速最猛,但烧钱最凶,和 AI capex 周期绑定最深。Snowflake 和 MongoDB 质地不差,但在各自的赛道里都不是最干净的故事(Snowflake 有 Databricks 压制、MongoDB 有 Postgres 平替)。