作者:云宝 | 发布时间:2026-05-30
在企业数字化转型浪潮中,”让AI读懂企业内部知识”是最被期待的能力之一。无论是客服场景的智能问答,还是技术部门的故障诊断,背后都需要一个关键技术的支撑——RAG(Retrieval-Augmented Generation,检索增强生成)。
本文从技术原理到企业落地,系统梳理 RAG 的完整实践路径,并从信息安全视角分析引入 RAG 时需要关注的风险控制点。
一、什么是 RAG?一句话说清楚
RAG = 先检索,再生成。
传统大模型的痛点是”训练数据截止、不知道企业内部信息、可能编造答案”。RAG 的做法是:先从企业的知识库中检索出相关文档片段,再把检索结果和用户问题一起喂给大模型,让大模型基于真实资料来回答。
用户提问 → 检索企业知识库 → 获取相关文档片段 → 大模型基于文档生成回答 → 输出给用户
打个比方:大模型像一个博学的考生,RAG 就是在开卷考试——先翻书找到相关章节,再基于找到的内容作答。答案有据可查,不容易胡说八道。
二、RAG 的核心技术环节
一个完整的 RAG 系统由五个环节组成,每个环节的质量都直接影响最终效果。
环节一:知识文档处理
企业内部文档格式多样——Word、PDF、Excel、网页、邮件、工单记录。RAG 的第一步是把这些文档清洗、分块(chunking)。
| 处理步骤 | 说明 | 常见问题 |
|---|---|---|
| 格式转换 | 将各种格式统一转为纯文本或 Markdown | PDF 表格丢失结构、扫描件无法提取 |
| 文本清洗 | 去除页眉页脚、水印、重复段落 | 模板格式残留干扰检索质量 |
| 文本分块 | 将长文档切成 200-1000 字的片段 | 块太大检索不精准,太小丢失上下文 |
分块策略建议:
– 按段落自然分割,保持语义完整
– 每个块保留原文档的来源信息(文件名、页码、章节)
– 块大小建议 500-800 字,重叠 50-100 字
环节二:向量化(Embedding)
将文本块转化为高维向量(通常 768-1536 维),使得语义相近的文本在向量空间中也相近。
主流 Embedding 模型对比:
| 模型 | 维度 | 中文效果 | 部署方式 |
|---|---|---|---|
| BAAI/bge-large-zh | 1024 | 优秀 | 开源本地部署 |
| OpenAI text-embedding-3 | 1536 | 良好 | API 调用 |
| 阿里 text-embedding-v3 | 1024 | 优秀 | API 调用 |
| m3e-base | 768 | 良好 | 开源本地部署 |
选型建议:对数据安全要求高的企业(如金融机构、军工企业),优先选择开源模型本地部署,避免内部文档通过 API 传输到外部。
环节三:向量数据库
存储和检索向量的专用数据库,支持”语义相似度搜索”——不是精确匹配关键词,而是理解查询意图,找到语义最相近的内容。
| 向量数据库 | 特点 | 适用场景 |
|---|---|---|
| Milvus | 高性能,支持十亿级向量 | 大规模企业知识库 |
| Chroma | 轻量,嵌入式,上手快 | 中小规模、快速原型 |
| FAISS | Meta 开源,纯内存检索 | 对性能要求极高的场景 |
| Elasticsearch 8.x | 全文检索+向量检索融合 | 已有 ES 基础设施的企业 |
推荐路径:初期用 Chroma 快速验证,生产环境迁移到 Milvus。
环节四:检索与排序
用户提问后,系统在向量数据库中检索最相关的文档块。实际部署中,通常需要混合检索——语义检索 + 关键词检索结合,并引入重排序(reranking)模型提升精准度。
检索优化三件套:
1. BM25 + 向量检索融合:关键词精确匹配和语义模糊匹配互补
2. 重排序模型:对初筛结果进行二次精排(如 bge-reranker)
3. 元数据过滤:按部门、时间、文档类型等条件先过滤再检索
环节五:大模型生成
将检索到的文档片段和用户问题组装成 Prompt,交给大模型生成最终回答。
Prompt 结构模板:
你是一个专业的企业知识助手。请根据以下参考资料回答用户问题。
如果参考资料中找不到答案,请明确告知,不要编造。
【参考资料】
{检索到的文档片段}
【用户问题】
{用户输入}
【回答要求】
1. 基于参考资料回答,标注信息来源
2. 回答简洁专业,不超过500字
3. 如果涉及操作步骤,请分条列出
三、RAG 的典型企业应用场景
场景一:IT 服务台智能问答
在 ISO 20000-1 体系中,服务台是核心流程。传统服务台依赖人工查找知识库,响应时间长、质量不稳定。
RAG 赋能后:
– 故障报告自动匹配历史工单解决方案
– 新员工自助查询操作手册、配置规范
– 服务台人员快速获取标准回答模板
– 平均响应时间从 30 分钟降至 2 分钟
场景二:合规文件智能检索
管理体系文件(程序文件、作业指导书、记录表单)通常多达数百份,员工和审核员查找效率很低。
RAG 赋能后:
– “不合格品的处理流程是什么?” → 自动检索并引用对应程序文件条款
– “最近一次管理评审的改进决议有哪些?” → 精确定位到管理评审报告相关段落
– “采购控制的具体要求有哪些?” → 汇总所有相关程序文件和作业指导书
场景三:客户服务知识中台
- 产品技术规格自动查询
- 常见故障诊断引导
- 合同条款和交付标准快速检索
四、从信息安全视角看 RAG 的风险
引入 RAG 系统时,ISO 27001 框架下的信息安全风险需要重点关注:
风险一:权限失控导致信息泄露
RAG 系统检索知识库时,如果不对文档的访问权限做控制,可能导致低权限员工通过 RAG 获取本不该看到的信息。
对应 ISO 27001 控制措施:
– A.8.3 信息访问限制:在检索层面加入权限过滤,只检索用户有权访问的文档
– A.8.2 信息分类:对知识库文档进行分级标注(公开/内部/机密),检索时按级别过滤
风险二:API 调用导致数据外传
如果 Embedding 或大模型生成环节使用公有云 API,企业文档内容可能传输到外部服务器。
对应控制措施:
– 敏感文档(如财务数据、客户信息)仅使用本地部署模型
– 对外 API 调用前进行数据脱敏(去除姓名、身份证号、金额等)
– 审计日志记录所有 API 调用的输入输出
风险三:大模型输出合规风险
大模型可能基于检索内容生成带有误导性、歧视性或不准确的信息,企业在对外使用时存在合规风险。
对应控制措施:
– 高风险场景(面向客户的回答)加入人工审核环节
– 设置”回答置信度阈值”,低置信度的回答标记为”待人工确认”
– 定期抽样评估 RAG 输出质量,形成改进闭环
五、RAG 落地的三阶段路线图
| 阶段 | 周期 | 目标 | 关键任务 |
|---|---|---|---|
| 概念验证 | 2-4 周 | 验证技术可行性 | 选 1-2 个场景,用开源工具搭建原型,评估回答质量 |
| 试点部署 | 1-2 月 | 小范围生产试用 | 接入 1 个部门的文档,部署权限控制,收集反馈迭代 |
| 全面推广 | 3-6 月 | 企业级知识中台 | 多部门文档接入,与现有系统集成,建立运营运维机制 |
概念验证阶段的技术栈推荐:
– 文档处理:LangChain + Unstructured
– Embedding:bge-large-zh(本地)
– 向量数据库:Chroma
– 大模型:DeepSeek / Qwen(本地或API)
– 开发框架:LangChain / LlamaIndex
六、RAG 不是万能的——知道它的边界
RAG 在以下场景效果有限,需要其他方案配合:
| 局限 | 说明 | 替补方案 |
|---|---|---|
| 需要多步推理的复杂问题 | 如”为什么上个季度客诉率上升了30%?” | 接入 BI 系统数据分析,而非纯文档检索 |
| 需要实时数据的场景 | 如”当前服务器负载是多少?” | 接入监控系统 API |
| 文档质量差时 | 如大量扫描件、手写记录 | 先做好文档数字化和结构化 |
| 跨文档综合分析 | 如”对比三个供应商的审核报告” | 引入 Agent 架构,支持多文档交叉引用 |
七、小结
RAG 不是一个炫酷的技术概念,而是一个解决实际问题的工程方案——让企业沉睡的文档资产真正活起来。
对于正在进行数字化转型的组织,RAG 提供了一条务实的路径:不需要重新训练模型,只需要把现有知识与大模型的生成能力连接起来。从概念验证到全面推广,一个完整的 RAG 项目通常需要 4-8 个月,但回报是可见的——知识检索效率提升 5-10 倍,员工和审核员不再为”找不到那一份文件”而头疼。
同时,作为信息安全从业者,在拥抱 RAG 的同时,不要忘了 ISO 27001 的基本要求——权限控制、数据分类、审计追溯,这些在 RAG 系统中同样适用,甚至更加重要。
作者:云宝,专注 ISO 9001 / ISO 27001 / ISO 20000-1 审核实务与 AI 技术应用。