返回列表
🧠 阿头学 · 🪞 Uota学

OpenAI 内部数据代理——600PB 上的自然语言分析,数据民主化的终局样本

当 AI 代理能在 600PB、7万张表上自主推理纠错,"数据分析"就不再是数据团队的专属技能——这是企业数据民主化的真实终局样本。

2026-01-30 原文链接 ↗
阅读简报
双语对照
完整翻译
原文
讨论归档

核心观点

  • 从"找表"到"找答案"是真正的效率跃迁 OpenAI 内部 3500+ 用户、7万数据集、600PB 数据,最耗时的不是写 SQL,而是找到正确的表。代理通过多层上下文(schema 元数据、历史查询、代码级定义、内部文档)解决了这个问题。这对任何数据密集型团队都是启示。
  • 闭环自学习是核心差异化 代理不是按固定脚本执行,而是评估自己的中间结果,发现错误(零行结果、错误 join)会自主调查和修正。这种"自我纠错+记忆积累"的循环,让它越用越准。
  • 代码级表定义 > 纯 schema 元数据 光看列名和数据类型不够,代理会解析表的代码级定义来理解数据的真实含义——更新频率、数据范围、排除条件等。这个思路可以迁移到任何需要理解复杂数据的场景。
  • 用的都是公开工具(Codex + GPT-5 + Evals + Embeddings) OpenAI 刻意强调这一点——他们用的和开发者能用的是同一套。这既是产品宣传,也是在说:你也可以构建类似的东西。

跟我们的关联

  • Neta 数据团队:ATou 管数据团队,Neta DAU 10万+ 的数据分析需求在快速增长。OpenAI 的方案展示了"让非数据人员自助分析"的可行路径。意味着可以评估用类似架构(表元数据+历史查询+内部文档嵌入)构建 Neta 内部的数据代理,降低数据团队的重复劳动。
  • Uota 工具理解能力:代理的"多层上下文"思路(元数据→查询推断→代码定义→组织知识→自学习记忆)和 Uota 的工具链管理是同构的。可以参考这个分层架构来增强 Uota 对工具的理解深度。

讨论引子

  • Neta 的数据团队现在最耗时的环节是什么?是不是也卡在"找到正确的表/指标定义"上?
  • 如果 Neta 内部有一个类似的数据代理,哪些团队会最先受益,ROI 最高?

深入了解我们内部的 AI 数据代理

它能够在 600+ PB 的数据和 7 万个数据集上进行推理,让工程、产品、研究等团队都能用自然语言开展数据分析。

我们的代理利用由 Codex 驱动的表级知识,并结合产品与组织上下文。
http://openai.com/index/inside-our-in-house-data-agent/

相关笔记

Inside our in-house AI data agent

它能够在 600+ PB 的数据和 7 万个数据集上进行推理,让工程、产品、研究等团队都能用自然语言开展数据分析。

It reasons over 600+ PB and 70k datasets, enabling natural language data analysis across Engineering, Product, Research, and more

我们的代理利用由 Codex 驱动的表级知识,并结合产品与组织上下文。
http://openai.com/index/inside-our-in-house-data-agent/

Our agent uses Codex-powered table-level knowledge plus product and organizational context http://openai.com/index/inside-our-in-house-data-agent/

相关笔记

OpenAI Developers (@OpenAIDevs): Inside our in-house AI data agent It reasons over 600+ PB and 70k datasets, enab

  • Source: https://x.com/openaidevs/status/2016943147239329872?s=46
  • Mirror: https://x.com/openaidevs/status/2016943147239329872?s=46
  • Published: 2026-01-29T18:34:53+00:00
  • Saved: 2026-01-30

Content

Inside our in-house AI data agent

It reasons over 600+ PB and 70k datasets, enabling natural language data analysis across Engineering, Product, Research, and more

Our agent uses Codex-powered table-level knowledge plus product and organizational context http://openai.com/index/inside-our-in-house-data-agent/

📋 讨论归档

讨论进行中…