Skip to content

2025展望:企业级生成式AI与非结构化数据现状调研(IT视角)

作者: 代国辉
发布时间: 2025/03/03

在生成式人工智能(GenAI)从概念验证走向大规模落地的当下,一个现实问题正在被反复提起:企业到底有没有准备好,让自家数据真正“喂饱”AI?

这份《2025 Outlook: The State of Enterprise GenAI and Unstructured Data IT Survey》调研报告,由知识管理与AI产品提供商 Shelf 联合第三方调研机构 ViB 发起,从IT与数据团队视角系统刻画了当前企业在 GenAI 项目推进、非结构化数据管理和数据质量方面的真实状况,可视为理解“2025 年企业 GenAI 与非结构化数据管理现状”的重要参考。

一、调研背景与方法

本次调研为供应商中立(vendor-neutral)研究,由 ViB 独立执行。

  • ViB 拥有超过1000万名高度活跃的技术专业人士社区,本次样本主要来自其中的 IT、数据和业务转型负责人。
  • 调研全程采用标准化研究方法,从问卷设计、数据收集到统计分析,都应用了行业内通行的质量控制流程。

样本概况:

  • 有效样本:313 份
  • 职能构成:
  • 信息技术(IT):88%
  • 数据管理:59%
  • 业务转型/创新:49%
  • BI/数据分析、数据工程、数据科学等占比较高
  • 职级分布:
  • C-level:约10%
  • VP/SVP:约34%
  • Director:约7%
  • Manager:约41%
  • 企业规模:从100+员工到10,000+员工各档均有覆盖
  • 行业覆盖:制造、科技、医疗健康、金融服务、零售、政府、高校、商业服务、电信、媒体与互联网等

整体而言,本次调研更接近“IT与数据管理中高层的集体自画像”。

二、企业级 GenAI 项目推进到哪一步了?

1. GenAI 最“热”的场景:开发、数据和运营

在“当前贵公司在不同职能上的 GenAI 方案/能力处于何种阶段?”这个问题上,结果非常集中:

  • IT/软件开发:规划、PoC、已部署或已扩展的比例合计约 87%
  • 数据管理 / BI / Analytics:约 86% 的组织在规划或已开展相关 GenAI 项目
  • 运营与流程自动化:约 83% 正在布局或试点

可以看出,GenAI 在企业中首先攻击的是效率与生产力最“看得见”的领域:

  • 软件开发与运维
  • 数据分析和洞察
  • 流程自动化与运营优化

2. 哪些领域仍然相对“冷静”?

相比之下,“目前没有计划(No plans)”比例较高的职能包括:

  • 法务/财务(Legal/Finance):约 36%
  • 产品/研发(Product/R&D):约 30%
  • 人力资源(HR):约 29%

这说明,在合规敏感或流程高度专业化的领域,GenAI 仍停留在较为谨慎的观望期。一部分是出于风险考量,一部分则是因为尚未充分评估适用场景与数据基础。

3. 目标:效率优先,但缺乏系统优先级管理

被问及“希望通过 GenAI 实现的前三大成果”时:

  • 61% 的企业选择了“提升运营效率”
  • 其次是“提高员工生产力”“提升网络安全/防御能力”“改善客户体验”“增强决策质量”等

但在“是否建立了为 GenAI 用例排定优先级的正式流程?”这一问题上:

  • 66% 的受访者表示:尚未建立正式流程
  • 仅约 11% 表示“有一定程度的遵循”

换句话说,大多数机构已经开始做 GenAI 项目,但还没有形成系统性的“用例治理与投资组合管理机制”。

三、数据质量:决定 GenAI 上限的“地板”

报告反复强调一个简单却常被忽视的事实:

“垃圾进,垃圾出”(Garbage in, garbage out)在 GenAI 时代更加真实。

1. 为什么数据质量是 GenAI 的“硬前提”?

  • 对于采用 RAG(检索增强生成)架构的企业应用,模型输出高度依赖于检索到的内部知识与文档。
  • 如果底层数据存在错误、冲突或过期,模型就会在“看起来很自信”的自然语言中放大这些错误。
  • 这不仅会影响用户体验,更可能在合规、法律责任、客户信任等方面造成实质性风险。

因此,报告认为:企业级 GenAI 项目的真实瓶颈,往往不在模型,而在数据基础设施与数据治理。

2. 管理者怎么说?

受访者在开放式问题中给出了一些典型观点(节选意译):

  • “数据不是某个产品的附属工作流,而是需要在设计工具之前整体规划的基础设施。”
  • “我们必须先提升数据管理和质量,再去谈 LLM 和更高级的 GenAI 能力。”
  • “如果没有标准化流程来抽取、分析、分类和解释非结构化数据,不同团队看到的‘真相’就会完全不同。”

四、非结构化数据:90%的数据,最大的不确定性

1. 非结构化数据的量有多大?

报告引用 IDC 相关研究指出:

企业数据中约 90% 为非结构化数据。

这些数据包括:

  • 文档、PDF、表格、演示文稿
  • 邮件、聊天记录
  • 知识库文章、FAQ、工单
  • 网页内容、音视频文件、通话录音转写文本等

对于 GenAI 来说,这些正是最有价值的“语义原材料”。

2. 企业在现实中拥有什么?

调研发现:

  • 超过 85% 的组织表示自己管理的文档/文件数量超过 100 万
  • 51% 表示超过 1000 万
  • 25% 表示超过 2500 万

主要分布在:

  • Microsoft SharePoint(67%)
  • 邮件系统(46%)
  • OneDrive(45%)
  • 企业内部知识库/门户、ServiceNow 等服务管理平台、CRM、Google Drive、Salesforce Knowledge、LMS、客服对话平台、Slack/Teams 等

这意味着:

GenAI 要吃的数据,是跨多个系统、多个团队、多个格式的异构内容综合体。

五、典型的非结构化数据“病症图谱”

在“贵公司非结构化数据最常见的问题有哪些?”的多选题中,排在前几位的选项是: 1. 重复和多版本文件 2. 信息过期 3. 不同版本之间内容冲突 4. 内容错误或不准确 5. 包含合规风险(敏感信息泄露、违规保存等) 6. 分类/标签错误 7. 元数据缺失或质量不佳 8. 内容缺失、信息不完整 9. 难以与结构化数据结合使用 10. 形成新的内容孤岛、系统间缺乏集成 11. 权限配置错误(错误的人看到错误的数据)

从 GenAI 视角看,这些问题都会直接变成:

  • 幻觉(Hallucination)
  • 不一致回答
  • 合规风险
  • 难以复现和审计的“黑盒输出”

六、企业使用非结构化数据做 GenAI:知道有坑,但还是要用

即便问题众多,企业在计划 GenAI 用例时最想利用的仍然是各种非结构化数据:

  • PDFs 和文档:74%
  • 邮件:54%
  • PPT 等演示文件:46%
  • 知识库文章:44%
  • 网站内容:35%
  • 客户交互记录:33%
  • 视频:32%
  • 企业 FAQ:29%
  • 音频:27%
  • 通话录音转写文本:24%
  • 内部 IM/协作信息流:20%
  • 外部社交媒体内容:20%

这也是这份报告给出的一个重要结论:

非结构化数据已成为企业级 GenAI 项目的“主战场”,而不是边缘数据。

七、企业现在在做什么?“先上模型,再补数据”

当被问及“贵公司目前如何应对这些非结构化数据质量问题?”时,企业的选择大致分两类:

一类是“从模型端去适应数据”:

  • 在现有数据上直接微调模型(57%)
  • 优化提示词工程,调整模型调用方式(20%)
  • 在 GenAI 层之上加中间层,对数据做一定的预处理/路由(17%)

另一类是“从数据端去改造基础”:

  • 引入新的数据管理和数据质量解决方案(45%)
  • 投资专门用于管理非结构化数据质量的工具(26%)
  • 招聘/外包数据管理员(23%)

报告认为,仅从模型端“姿势纠偏”,无法从根本上消除错误数据的放大效应。 更可持续的路径,仍然是:

“先把数据打理干净,再让 GenAI 去放大正确性与价值。”

八、如果有一根“魔法棒”,企业最想要什么样的工具?

报告提出了一个很有意思的设问:

“如果你有一根魔法棒,可以立刻拥有一款帮助你管理非结构化数据的工具,你希望它做什么?”

受访者的“愿望清单”大致包括: 1. 识别不准确的内容:自动发现错误、过期或低质量信息 2. 识别相互冲突的版本:帮助判断“哪一个才是正式版本/最新版本” 3. 识别缺失内容:告诉你“哪部分信息没被记录或不完整” 4. 在源头自动修复问题:去重、纠错、补充缺失字段、修正分类等 5. 识别并修复元数据问题:标签错、缺标签、上下文缺失 6. 自动添加结构化元数据和上下文:让非结构化数据变得“可被治理”

换句话说,企业真正想要的是:

  • 能够“看懂内容本身”,而不是只看文件名、路径和静态标签;
  • 能够对非结构化数据进行自动体检和修复,而不仅仅是提供另一个搜索框。

九、对中国企业与政府机构的启示

从中国语境看,这份报告有几个值得特别关注的点:

  1. “90%是非结构化数据”是全球共性,不是国外企业的特例 在大模型与智能体项目全面铺开之前,先正视自身文档、知识库、邮件、IM等非结构化数据的现实状况,是更务实的起点。
  2. GenAI 项目往往先跑在 IT 和数据部门,而治理与档案/records 管理还在追赶 这与国内不少机构“技术团队很激进、治理团队相对滞后”的现象高度相似。
  3. GenAI 项目成败与档案/文档管理质量强相关 在政务、金融、医疗、能源等强监管行业,非结构化数据本身就承载合规与问责责任,GenAI 上线之后,其输出会被视为“机构观点”,更要小心数据质量和版本控制。
  4. 工具设计趋势:从“存起来”到“读懂+治理+服务AI” 未来几年,围绕非结构化数据的基础设施,很可能从传统 ECM/DMS/档案系统,演进为“面向 AI 的内容与知识底座”,在产品架构上、在与数据治理和 records management 的结合上,都有很大设计空间。

结语

如果用一句话概括这份调研报告的核心结论:

企业的 GenAI 雄心,整体上快于其非结构化数据管理和治理能力的演进。

对正在推进大模型、RAG、企业知识问答、智能客服、智能运维等项目的机构来说,与其一味追逐“更大的模型”“更炫的应用”,不如先问自己三个问题:

  1. 我们的非结构化数据到底长什么样?
  2. 这些数据的质量、版本、合规风险,是否已经达到“可被AI放大”的安全线?
  3. 在GenAI项目中,有没有把“非结构化数据治理”当作基础工程来规划,而不是临时打补丁?