AI Infra 软件层深度梳理

从算力到执行，谁在卡位大模型时代的基础设施？

Little Jeff Brother · 2026-06-02

摘要

本报告梳理了公开市场上 10 家 AI Infra 软件公司，按 LLM 技术栈从底到顶分成五层：算力云 → 数据管道 → 检索与搜索 → 可观测性 → 执行与边缘。每家分析围绕三个核心问题展开：（1）它到底卖什么产品？（2）它和大模型的关系是什么？（3）它的护城河和风险在哪？

核心发现：真正"纯"的 AI Infra 软件标的，私有市场上更多（Databricks、Hugging Face、Fireworks 等），公开市场能买的集中在数据层和观测层。其中 Elastic 被严重低估——它的 Elasticsearch 是 RAG（检索增强生成）的事实标准底座，但市场至今按"日志搜索公司"在定价。Confluent 的 Kafka 是 AI Agent 实时数据流的默认答案，定价同样不充分。这两家是公开市场里最具 alpha 潜力的 AI Infra 标的。

一、全景：AI Infra 软件层的五层架构

如果把大模型当成"大脑"，AI Infra 就是让大脑能感知、能记忆、能行动的身体系统。按技术栈从底到顶，公开市场上的公司可以分成五层（本文不讨论芯片/硬件层，如 NVIDIA、Broadcom）：

二、算力云：GPU 出租 + 推理托管

Nebius（NBIS）

层级	做什么	代表公司	简单比喻
算力云	GPU 出租 + 推理端点	Nebius、CoreWeave	电厂的发电机
数据管道	数据存储 + 实时流转	Snowflake、Confluent	储油罐 + 输油管
检索与搜索	RAG 底座 + 向量检索	Elastic、MongoDB	图书管理员 + 索引卡
可观测性	监控 LLM 应用的运行状态	Datadog、Dynatrace	整栋楼的电表 + 火警
执行与边缘	Agent 把活干完 + 边缘路由	ServiceNow、Cloudflare	双手 + 高速公路收费口

做什么：出租 GPU 裸金属 + 托管推理端点。你租 H200/B200/GB200，它帮你装好机柜、配好 InfiniBand 高速网络、搭好 Kubernetes/Slurm 集群管理。在做的一层推理产品叫 Token Factory——托管 Llama、Mistral、Qwen 等开源模型的推理端点，按 token 吞吐和延迟给 SLA，号称比对手快约 4.5 倍、便宜约 50%。

和大模型的关系：最直接——没有 GPU 你一行模型都跑不动。但 GPU 是同质化商品：你用 AWS 还是 Nebius 还是 CoreWeave，底层都是 H200，切换成本主要在工程上，不在能力上。它真正的差异化来自三点：全栈自建数据中心（不是转租别人的机柜）、NVIDIA 本身投了它 20 亿美元、以及它瞄准的是「训练→推理」切换这个窗口——推理的经济学是每 token 的边际成本游戏，Token Factory 就是为这个设计的。

风险：2026 年 capex 指引 200-250 亿美元，但全年营收指引才 30-34 亿美元——烧钱远超营收，高度依赖融资。另外它还是一个"集团"，藏着 Avride（自动驾驶）和 ClickHouse/Toloka 股权，业务不纯粹。

CoreWeave（CRWV）

做什么：纯 GPU 云龙头，和 Nebius 做同一件事但规模更大——2025 年营收 51 亿美元，2026 年指引 120-130 亿美元（约 140% 增长），合同 backlog 超过 660 亿美元。商业模式简单粗暴：借钱买卡、租出去、再用合同去借更多钱买更多卡。

和大模型的关系：一样——算力是最底层、最同质化的稀缺资源。它的核心客户微软贡献了很大比例的收入，这是一个双刃剑：锚定客户给了确定性，但也意味着微软一旦自建或换供应商，影响会极大。

关键判断：Nebius 和 CoreWeave 是纯 AI capex 周期的押注。如果 AI 算力供不应求持续，它们弹性最大；如果需求降温或 GPU 更新换代导致老卡贬值，它们回撤最猛。不是底仓标的。

三、数据管道：模型吃进去的燃料

Snowflake（SNOW）——数据重力

做什么：云数据仓库。企业把所有业务数据倒进去，用 SQL 查询分析。按计算消耗量计费——跑一个 query 烧了多少算力，就付多少钱。

和大模型的关系：你用大模型做企业应用，模型是公共的（GPT、Claude 谁都能调），但企业自己的私有数据是独家的。这些数据大概率就存在 Snowflake 里。Snowflake 的逻辑是"数据重力"——数据在哪，算力就吸到哪。它推 Cortex AI，就是让你直接在数据仓库里跑 embedding、做检索、调模型，不用把数据导到外部平台。

看点：NRR 回升到 126%（老客户花钱越来越多），Cortex AI 账户环比翻倍，加签了 AWS 60 亿美元五年大单。风险是消费模式——收入直接挂钩客户用了多少算力，如果企业下半年砍 AI 预算，就算客户数不变收入也可能不及预期。另外私募市场的 Databricks（估值 1340 亿、增速 65%+）对它构成了持续叙事压力。

Confluent（CFLT）——实时神经系统

做什么：Kafka 的商业化公司。Kafka 是一个分布式消息流平台——简单理解，任何系统产生的数据事件（用户点击、交易记录、传感器读数）都实时流进 Kafka，任何下游系统从 Kafka 实时消费。

和大模型的关系：这个关系比 Snowflake 更隐蔽，但更性感。你做 AI Agent，Agent 要的不是"数据库里有什么"（静态 RAG），而是"此刻正在发生什么"（实时上下文）。比如一个金融风控 Agent，它需要看到实时交易流，而不是昨天 batch 跑出来的报表。Kafka 就是这个实时神经系统的标准答案。

把它和 Snowflake 的关系记住一句话：Snowflake 管历史数据，Confluent 管实时事件流。RAG 管静态检索，Kafka 给 Agent 喂"现在"。

看点：111 亿市值，在数据层里 AI 叙事最干净但市场定价最不充分。它的 AI 故事不是"我也能做 RAG"，而是"Agent 要实时决策就必须有实时数据流"——这个逻辑还没被 Wall Street 充分定价。

四、检索与搜索：RAG 的底座

Elastic（ESTC）——最被低估的 AI Infra

做什么：Elasticsearch——全文搜索 + 向量搜索的混合引擎，开源起家，企业版托管在 Elastic Cloud 上。你大概率用过：日志分析、站内搜索、APM（应用性能监控），很多团队用 ELK（Elasticsearch + Logstash + Kibana）搭。

和大模型的关系：这是整个板块里最直接的一家。 RAG 是大模型落地企业的第一范式——模型回答问题前，先去知识库检索相关文档，塞进 context window，再生成答案。这个"检索"动作，Elasticsearch 是工业标准。

它做的是混合搜索：BM25（传统关键词匹配）+ dense vector（语义向量）+ 稀疏向量（ELearner 自研），一条查询同时跑三种检索方式，再融合排序。和 Pinecone、Weaviate 这些纯向量库不同，ES 的杀手锏是"可组合性"——你可以在同一条查询里写「全文匹配 + 语义检索 + SQL 范围过滤」，这对生产环境是硬需求。企业本来就用 ES 管日志和搜索，现在加一个向量维度就能做 RAG，不需要另起一套基础设施。

定价错位：市场至今把 Elastic 按"日志搜索公司"在定价——FY1 EV/S 仅 3.1x、FY2 仅 2.7x，GAAP 盈利、FCF 收益率 4.7%，PE 才 21x。但它的技术栈本质上是 RAG 底座。一旦市场重新把它归类为 AI Infra，估值会从传统软件倍数向 AI 倍数重估。69 亿市值是整个板块里最小的，弹性巨大。

MongoDB（MDB）——AI 应用的数据库

做什么：文档数据库。不用传统 SQL 的表格结构，用 JSON 格式存数据，schema 灵活——开发者喜欢它因为不需要提前定义表结构，改需求直接改 JSON 字段就行。Atlas 是托管云版。

和大模型的关系：它在 AI 时代有两层角色。第一，AI 应用产生的数据（聊天记录、Agent 状态、对话记忆）是非结构化的 JSON，天然适合 MongoDB。第二，Atlas Vector Search 可以直接在已有数据上做向量检索，不用把数据搬到 Pinecone/Weaviate。

但有个硬伤：Postgres + pgvector（加上 pgvectorscale 插件）已经在性能上逼近甚至超过它。在 5000 万向量、768 维的测试中，pgvectorscale 做到 471 QPS @ 99% 召回——而你可以用一条 SQL 同时做向量检索 + JOIN + 过滤。很多团队因此直接选择 Postgres，不搞单独的 MongoDB 集群。

看多逻辑：四家里估值最低（FY1 EV/S 9.9x），自由现金流 5 亿+、几乎零负债，基本面扎实。看空逻辑：在五家公司里"AI 是我的结构性顺风"这个故事最弱——Postgres 是又强又便宜的默认替代。

五、可观测性：AI 算力的"电表"

Datadog（DDOG）——观测性赛道的领跑者

做什么：基础设施 + 应用性能监控。你部署的服务——CPU、内存、延迟、错误率、日志、链路追踪——全收进 Datadog，仪表盘可视化。按监控的数据量和使用的主机数计费。

和大模型的关系：这可能是对你作为 LLM 从业者最有启发的一家。以前你监控一个微服务，看延迟、错误率、吞吐就够了。现在你监控一个 LLM 应用，你要看的是：token 消耗量、幻觉率、推理延迟 P50/P95/P99、RAG 检索的相关性分数、从 prompt 到 response 的全链路追踪。

Datadog 的 LLM Observability 产品就是干这个的——在 LangChain、LlamaIndex 里插桩，把一次 LLM 调用拆解成 embedding → 检索 → prompt 组装 → 模型调用 → 输出的完整 trace。对做大模型应用的团队来说，"我的应用为什么这么慢/这么贵/老胡说"这三个问题，Datadog 是标准答案。

护城河：产品密度。它有 20+ 个集成的监控产品（基础设施、APM、日志、RUM、安全、LLM），一个平台全搞定。AWS、Azure 自带的监控工具更便宜，但多云企业需要一个厂商中立的统一观测层——Datadog 就是这个位置。OpenAI 是它最大客户，前 20 大 AI 公司里有 14 家在用它。

风险：用量计费是双刃剑——客户在 AI 上烧得多，DDOG 收得多；客户优化 AI 成本、砍用量，收入立刻反映。另外它自己跑 LLM Observability 也要烧推理算力，如果推理成本上得比账单快，会压缩现金流。

Dynatrace（DT）——便宜版的观测性收税人

做什么：和 Datadog 同一个赛道——应用性能监控 + 基础设施监控。区别是 DT 更偏企业 APM、更多自动化（用因果 AI 自动定位根因），产品广度不如 DDOG，但在大型传统企业里渗透很深。

和大模型的关系：逻辑和 Datadog 一样——AI 系统更复杂、更容易崩，"看得见"不是可选项。DT 也有自己的 AI 观测产品，但品牌和产品厚度弱于 DDOG。

估值折叠：Dynatrace FY1 EV/S 仅 5.1x、PE 22.6x，比 Datadog 便宜了 4 倍。这个折价有道理（产品不如 DDOG 广、增速更低），但幅度太大——如果"观测性 = AI 基础设施层"的逻辑成立，DT 是公开市场里最被明显低估的观测性标的。

六、执行与边缘：Agent 把活干完

ServiceNow（NOW）——大模型的"双手"

做什么：企业 IT 工作流自动化平台。员工请假、报销、入职开通账号、IT 故障工单——这些流程跑在 ServiceNow 上。它每年自动处理超过 1000 亿个工作流、7 万亿笔交易。服务 8400+ 客户，覆盖 85% 的财富 500 强。

和大模型的关系，记住一句话：LLM 是大脑，ServiceNow 是双手。

LLM 能理解"帮我重置密码"这句话，但它不会真的去改 AD 域控、更新 CMDB 配置库、发邮件通知。ServiceNow 的流程引擎 + 权限系统 + 企业专有数据接到 LLM 后面，AI Agent 才能把活"做完"而不是"说完"。

市场上曾有一个流行观点叫"SaaSpocalypse"（SaaS 末日论）——认为 AI Agent 会绕过所有 SaaS 软件直接干活，ServiceNow 首当其冲。但现在越来越多人反过来：Agent 越强，越需要一个能执行、有权限、有上下文的工作流引擎兜底。复杂的不是"提出需求"，而是"交付需求"背后跨部门、跨系统的执行流程——这本身就是一道护城河。

数据说话：旗舰 AI 产品 Now Assist 年化收入已达 10 亿美元（年底目标 15 亿），cRPO（未来 12 个月的已签约收入）连续 5 个季度跑赢 20%——backlog 可见性极强。Rule of 55+（增速 + 利润率超过 55%），是四家软件里护城河最深、盈利最确定的一家。

Cloudflare（NET）——AI 流量的"路由器"

做什么：CDN + 边缘计算 + 网络安全。在全球 330+ 城市有机房，客户的网站和 API 放在它后面，它负责加速、防 DDoS、挡爬虫攻击。

和大模型的关系：它在做一个非常巧妙的事——边缘 AI 编排。逻辑是这样的：

风险：估值贵——FY1 EV/S 32.7x。它的 AI 故事很完整（边缘推理 + 模型网关 + 向量库），但需要高增长持续兑现才能撑住这个估值。capex 也重（需要持续在全球加机房），自由现金流转化率偏低。

七、财务指标横向对比

表：AI Infra 软件层核心财务指标（截至 2026-06-02，数据来源 FMP）

八、总结：怎么选？

公司	市值	TTM增速	FY1 EV/S	FY2 EV/S	FCF收益率	GAAP盈利
ServiceNow	~1,400亿	~22%	8.5x	7.1x	3.3%	是
Datadog	~985亿	~32%	21.9x	18.2x	1.1%	刚转正
Snowflake	~965亿	~34%	15.8x	12.6x	1.2%	否
Cloudflare	~926亿	~30%	32.7x	25.6x	0.4%	否
CoreWeave	~681亿	~140%	6.6x	3.3x	负	否
Nebius	~647亿	~3x+	19.1x	5.7x	负	否
MongoDB	~317亿	~25%	9.9x	8.4x	1.9%	否
Dynatrace	~128亿	~15%	5.1x	4.4x	4.1%	是
Confluent	~111亿	~20%	7.4x	6.4x	0.5%	否
Elastic	~69亿	~18%	3.1x	2.7x	4.7%	是

第一阵营：确定性 AI 收税人（适合底仓）。ServiceNow 和 Datadog——前者卡住 Agent 执行层（AI 越强越需要它），后者卡住观测层（AI 烧得越多它收得越多）。护城河深、盈利好、AI 故事已被业绩验证。缺点是贵，但好货不打折。

第二阵营：被低估的 AI Infra 基础设施（最有 alpha）。Elastic 和 Confluent。前者是 RAG 的事实标准检索层，市场至今按"日志公司"在定价；后者是 AI Agent 实时数据流的标准答案，"数据管道 = AI 神经系统"的叙事还没被定价。两家共同的逻辑：技术栈已经是 AI Infra，但估值还是传统软件的倍数——一旦市场重新分类，弹性最大。Dynatrace 作为便宜版 Datadog 也在这个阵营。

第三阵营：高弹性 AI 押注（需要钢铁胃）。Nebius 和 CoreWeave——增速最猛，但烧钱最凶，和 AI capex 周期绑定最深。Snowflake 和 MongoDB 质地不差，但在各自的赛道里都不是最干净的故事（Snowflake 有 Databricks 压制、MongoDB 有 Postgres 平替）。

一句话总结：AI Infra 软件层里，最确定的是"收税人"（DDOG/NOW），最被低估的是"基础设施"（ESTC/CFLT/DT），最刺激的是"卖铲子给挖金矿的人"（NBIS/CRWV）。你的仓位分布取决于你信的是"AI 是持续的基础设施建设"还是"AI 是一波 capex 脉冲"——前者买第二阵营，后者买第三阵营。