引言
大家好。
这两年,AI 应用的热度持续升温,企业侧的需求也越来越明确:既要把内部资料和经验沉淀下来,又希望它们能以更“可用”的方式参与到日常工作里——能搜到、能问到、还能串成流程并复用。
基于这些真实的落地诉求,我们打造了一款全新的企业级 AI 应用产品:数睿通智库系统,今天正式与大家见面。
一句话介绍:数睿通智库是什么
数睿通智库是一套企业级智能知识与AI应用平台,以知识沉淀为底座,把企业能力进一步做成“可检索、可对话、可编排、可扩展”的应用形态:
- 面向业务人员:像聊天一样提问,得到可追溯的答案
- 面向管理员:可管理的知识库、模型、权限、租户
- 面向交付与运维:支持私有化与容器化部署,环境可控、成本可控
它的主要模块包括:模型管理、知识库管理(含文档管理与问答管理)、AI 对话、AI 智能体、AI 工具集(ComfyUI/LLaMA-Factory 入口)、可视化工作流编排、系统管理(租户/用户/角色/菜单/存储等)。
先给一张“能力地图”:它覆盖了哪些事
如果你想快速判断“这套系统能不能解决我现在的问题”,可以先看这个能力地图:
| 模块 | 你会用它做什么 | 典型产出 |
|---|---|---|
| 模型管理 | 统一接入各类大模型/本地模型,按需切换与调参 | 可用模型列表、参数模板 |
| 知识库管理 | 统一管理知识库、文档与问答内容,配置分类,并进行向量化沉淀 | 知识库、文档、问答、可检索语料 |
| AI 对话 | 基于知识库进行问答,支持会话级配置与可视化过程 | 可追溯回答、引用片段、运行耗时 |
| AI 智能体 | 把常见任务封装成角色,支持工具/MCP/提示词 | 内置/自定义智能体模板 |
| AI 工具集 | 通过菜单配置跳转外部工具(ComfyUI/LLaMA-Factory) | 统一入口、少学习成本 |
| 可视化工作流编排 | 把检索/模型/工具/路由组合成可运行流程与应用 | 版本化流程、运行日志、可嵌入应用 |
| 系统管理 | 租户、用户、角色、菜单、API Key 等企业级能力 | 多租户隔离、权限可控 |
快速上手路径:从 0 到 1 跑通一次“上传-检索-回答”
为了让第一次体验更顺滑,这里按“最短路径”给一个 30 分钟内可跑通的流程(你也可以按自己的组织习惯调整):
-
配置租户:嵌入模型与向量数据库地址
- 进入“系统管理 → 租户管理”,配置向量数据库(Milvus)地址
- 嵌入模型需要先在“模型管理”里添加,再回到“租户管理”里选择
- 系统默认内置 BGE-Small-EN-V1.5 嵌入模型可直接使用;如果你更关注效果,推荐添加 bge-m3(可通过 Ollama 部署),并在租户里设为默认嵌入模型
-
准备模型(大语言模型)
- 进入“模型管理”,配置你要用的大语言模型(也可以接入本地模型,如 Ollama)
- 目标:让系统里至少有一个“可用模型”
-
创建知识库
- 进入“知识库管理 → 问答管理”,在左侧分类树中创建业务分类,并在分类下维护问答对
- 进入“知识库管理 → 文档管理”,在左侧分类树中创建文档分类,并在分类下上传资料
- 两者的分类树相互独立,可按部门/项目/业务域分别规划
-
上传资料并等待解析
- 在“知识库管理”模块中上传常见文档:PDF/Word/PPT/Excel/TXT/Markdown/CSV 等
- 若你要验证多模态:也可以上传图片/音频/视频(需开启多模态服务)
- 实操建议:第一次导入资料时,优先看“向量化状态/解析状态”是否已完成;如果失败,先处理失败原因
-
开始一次带检索的对话
- 在“AI 对话”里选择知识库与模型,输入问题
- 按需打开会话级能力开关:高级 OCR、多模态识别、联网搜索等
- 在回答中查看:引用内容、工具执行状态、Token 与耗时
做到这一步,你就已经拥有一条可用的“企业知识问答流水线”。后面要做的,通常是把高频问题沉淀成智能体/工作流,让使用越来越省力。
从“全文搜索”到“语义检索 + 生成”:我们怎么回答更像“懂你”
传统搜索更擅长找“包含某个关键词的文档”。但在企业场景里,大家更常问的是:
- “这个流程怎么走?有哪些注意事项?”
- “这个接口为什么这么设计?有没有历史原因?”
- “客户提的这个需求,以前有没有类似案例?”
数睿通智库采用 RAG(检索增强生成)的路线:先把知识沉淀为向量,再做语义检索,把检索到的上下文交给大模型生成答案。并且同时支持两种检索方式:传统 RAG 与 Agentic RAG(智能体式检索)。
实现层面,我们做了几件事:
- 文档解析:将 PDF/Word/PPT/Excel/Markdown/CSV 等转为可检索的结构化内容
- 向量化与检索:基于向量数据库(Milvus)存储与相似度检索
- 生成与约束:在回答里结合引用片段,避免“只会编”的不确定性输出
你可以把两种检索方式理解为:
-
传统 RAG:一次检索,一次作答
- 系统根据你的问题做一次语义检索,取回最相关的若干片段
- 大模型在这些片段范围内组织答案,并尽量给出引用来源
-
Agentic RAG:模型自主检索,链式搜索,再作答
- 模型会先判断“这个问题需要哪些信息”,把问题拆成多个子问题
- 它会像人一样多轮检索:一次找不到就换关键词、换角度、换分类继续搜
- 检索到的证据会逐步累积,最后综合多个来源给出更完整的回答
如果你关心“为什么能更准”,可以把它理解成三步:
- 把知识变成可检索的表示:解析 + 分块 + 向量化
- 把问题变成同一空间的向量:向量检索得到候选内容
- 让模型在候选内容上作答:把检索片段作为上下文注入,减少无根据输出
一个更直观的 Agentic RAG 例子:
- 你问:“差旅报销里,住宿超标怎么处理?需要谁审批?不同城市标准在哪看?”
- 传统 RAG 往往只会命中一份文档的某一段,回答可能只覆盖其中一部分
- Agentic RAG 会更像“带着问题去翻资料”,可能会链式检索出这样一条路径:
1) 先检索“差旅 报销 住宿 超标 处理”,找到制度里的超标处理原则
2) 再检索“差旅 审批 流程/权限”,补齐“需要谁审批、走哪个节点”
3) 再检索“差旅 城市 住宿 标准/限额”,定位城市标准表或附件
4) 把以上来源合并,给出可执行的流程化答案,并附上引用片段/来源文档
为了让这个过程更“可感知”,系统在回答侧会尽量把证据链露出来。一个常见的对比是:
- 你问:“报销流程里,差旅住宿超过多少需要额外审批?”
- 系统会先从知识库里检索到命中的制度条款(通常能在“引用片段/来源文档”里看到)
- 再在这些片段范围内组织回答(你可以据此快速判断:它是在你们的制度上作答,还是在“自由发挥”)
多模态能力:不只懂文字,也能“读图、识音、看视频”
企业知识并不总是“能复制粘贴的文本”。很多关键内容来自:
- 扫描件、拍照的表格/流程图
- 截图里的关键字段与说明
- 录屏/会议视频里的结论与行动项
数睿通智库在对话中支持上传文件作为上下文,并提供会话级能力开关:
- 高级 OCR:更适合扫描件、表格、图表等复杂内容提取
- 多模态识别:用于图片/音频/视频等多种格式理解与提取
多模态相关能力由独立的 Python 服务提供,与主应用协同运行,便于按需部署与资源隔离。
你可以把多模态服务理解为两类能力:
- OCR 增强:面向扫描件、拍照件、复杂表格/图表等场景,更稳定地识别文字与结构,并尽量保留版面关系
- 多模态解析:面向图片/音频/视频等内容,提取关键信息(例如摘要、要点、时间点、行动项),用于对话中的理解与回答
一个更“落地”的用法示例:
- 你上传一张手机拍的流程图/表格截图,问题不是“这张图里有什么”,而是更具体的任务:
“把这张表格的字段整理成一份 Excel 结构(列名 + 含义)”
“把这个流程图按步骤写成 SOP,并标出审批节点” - 你上传会议录音/录屏,想要的是:
“整理会议结论与行动项,按负责人分组,并列出截止时间(如果能识别到)”
AI 对话:让知识“随问随用”,也让过程“可见可控”
面向日常使用,我们希望对话体验更接近“工作台”而不是“聊天框”:
- 可选择不同模型、调整温度/TopP 等会话参数
- 可配置检索策略(按全部/分类/精确文档选择)
- 工具调用过程可视化:执行中/成功/失败,以及查看执行结果
这些细节的目标只有一个:让答案更可控,让过程更可解释。
AI 智能体:把“能力”封装成可复用的角色
如果说“对话”解决的是一次性的问题,那么“智能体”解决的是长期重复的任务。
系统提供内置智能体(例如:知识库助手、编程助手、文档写作助手、数据分析师、产品经理助手、客服助手、翻译助手、学习导师),也支持用户自定义创建:
- 自定义智能体角色与系统提示词,约束风格与行为边界
- 为智能体选择可用工具,并按需配置工具参数
- 支持添加 MCP(Model Context Protocol)服务,扩展外部能力
更具体一点:智能体通常会把“提示词 + 工具 + 约束”打包成模板。
- 提示词:规定它是谁、做什么、不做什么(尤其适合企业内部的合规与风格统一)
- 工具:把外部动作标准化
- MCP 服务:当你不想把所有能力写进系统里时,用协议化方式接入外部服务
这样做的好处是:团队成员不需要每次从零写提示词,也不需要记住“要去哪点哪个按钮”,在“AI 对话”中选择对应智能体即可进入固定流程。
AI 工具集:把 ComfyUI 与 LLaMA-Factory 变成“菜单入口”
很多企业在落地 AI 时,不止需要一个“对话入口”,还需要:
- 可视化的生成式工作流(文生图、图生图、文生视频、图生视频)
- 面向训练/微调的管理界面与流程
数睿通智库的 AI 工具集采用“菜单配置跳转”的方式,把已部署的工具纳入统一入口:
- ComfyUI:提供 Docker 一键部署包,也支持 Windows 的 bat 脚本一键启动;内置图生图、文生图、图生视频、文生视频等常用工作流
- LLaMA-Factory:提供 Docker 一键部署包,也支持 Windows 的 bat 脚本一键启动;用于模型微调与训练管理
这里的设计取向很明确:系统不强行“把工具全部内嵌重做一遍”,而是把成熟生态的工具纳入统一入口,减少上下文切换成本。
使用方式也尽量做到了“交付友好”:你把工具部署好,保证它能通过 HTTP 访问,然后到“系统管理 → 菜单管理”把对应菜单的地址改成工具的访问地址即可。默认菜单通常指向 localhost,如果你的工具部署在其他机器/容器里,把地址替换成实际可访问的 URL 就行。
在使用层面,它更像是两个清晰的入口(以默认菜单为例):
- “AI 工具集” → “视觉工作流”:新窗口打开 ComfyUI 界面
- “AI 工具集” → “微调平台”:跳转到 LLaMA-Factory 的 WebUI
可视化工作流编排:把“检索、模型、工具、路由”组装成可运行应用
当业务从“问答”走向“流程化”,单纯的对话往往不够用。数睿通智库提供可视化工作流编排能力,把常见能力组件化并串起来:
- 检索、模型调用、文档处理、变量处理、外部 HTTP 调用
- 条件路由与分支
- 版本发布、运行日志与可观测
- 支持生成独立应用页面与应用嵌入
在编排层面,数睿通智库把常见能力做成节点体系,例如:
- 画布按“通用/工具”等维度组织节点,并支持搜索节点
- 常用的思路是把“知识检索、模型调用、变量处理、HTTP 调用、条件路由”等能力组合起来
- 在对话类流程里,通常还会用到“对话回复”这类节点,把上游结果以更可控的格式返回给用户
对于企业内部落地,工作流更像“把经验变成流程”:你可以把“检索->判断->调用外部系统->生成回复”这种模式固化下来,并通过版本发布让迭代可追踪。
如果你要把工作流交给更多人使用,常见的交付方式有两种:
- 生成独立的聊天应用页面:发布后直接给业务方一个入口,按流程定义决定启用哪些能力开关(如深度思考、联网搜索、高级 OCR、多模态等)
- 嵌入到已有系统:在“嵌入到网站中”选择 iframe 嵌入或脚本嵌入,把应用能力集成到门户/业务系统中
系统管理与安全:多租户、权限、国密传输加密
企业级系统最终要回到“可管理、可追责、可合规”。
在系统管理侧,数睿通智库提供:
- 租户管理:租户创建与配置
- 用户与角色:基于 RBAC 的权限控制、权限分配与数据范围控制
- 菜单与集成:菜单与权限关联、API Key 管理、第三方系统接入支持
- 传输安全:前后端数据传输链路支持国密算法加密
部署与运维:一键部署、环境可控
为了让交付更稳,数睿通智库的整体部署思路是“能容器化的尽量容器化,能一键启动的尽量一键启动”:
- 主应用与多模态服务支持 Docker 一键部署
- ComfyUI 与 LLaMA-Factory 除 Docker/Conda 外,还提供 Windows 一键启动脚本
如果你希望一次性把“主应用 + 多模态 + 本地模型 + 工具集”拉起来,一个更稳妥的方式是:
- 先部署主应用(Web/后端/数据库/向量库等)
- 再按需部署多模态服务(用于复杂文档/图片解析、视频音频识别等;系统自带基础OCR与文档解析能力,遇到复杂图表/扫描件等场景建议启用多模态服务)
- 需要本地模型时再部署 Ollama(GPU 或 CPU 模式按条件选择)
- 需要视觉工作流或微调能力时,再分别部署 ComfyUI / LLaMA-Factory,并通过系统菜单配置跳转入口
硬件方面的建议也很直白:
- 主应用:内存 8GB+(推荐 16GB)
- 多模态服务:建议内存 8GB+,最好有 NVIDIA GPU 显存 8GB+(识别速度更快)
- Ollama:GPU 模式推荐显存 8GB+;CPU 模式建议内存 16GB+(推荐 32GB)
- ComfyUI / LLaMA-Factory:需要 NVIDIA GPU,建议显存 8GB+(更大更稳)
几个“更接地气”的提醒:
- 显存需求与模型/分辨率/批量大小强相关,8GB 是更通用的“起步线”,追求稳定建议更高
- Windows 上跑 ComfyUI 时,开启并增大虚拟内存(页面文件)常常能缓解部分场景的内存压力
- 内网环境建议提前准备离线镜像包与依赖缓存,减少部署时的不确定性
典型使用场景:更像“工作工具”,而不是“聊天玩具”
下面这些场景是我们在企业里最常看到的落地方式:
-
制度/流程问答
- 把制度、流程、SOP 文档集中进知识库
- 让员工能用自然语言问:“报销要走哪些步骤?”“采购审批阈值是多少?”
-
客服/售前知识库
- 把 FAQ、产品资料、案例、话术沉淀为知识库
- 结合智能体,把“标准答复 + 风格约束”固化下来(例如统一称呼、禁用某些承诺性表达)
- 对外沟通时,更重要的是“稳定”:同一类问题尽量给出一致口径,并且引用内部资料作为支撑
-
研发/交付经验复用
- 把接口文档、变更记录、故障排查文档沉淀下来
- 让“为什么这么设计”“怎么定位问题”变成可检索的团队记忆
- 典型提问会更贴近排障现场:
“这个错误码在历史上出现过吗?当时怎么处理的?”
“某个接口的字段为什么要保留兼容?相关讨论在哪份纪要里?”
-
多模态资料解读
- 扫描件、截图表格、录音/录屏等资料,通过多模态与高级 OCR 快速提取要点
- 实操上往往是“先提取结构,再做总结/对比”:先把表格提成结构化字段,再让模型在字段上做归纳
-
流程自动化(工作流编排)
- 把“检索->判断->调用外部系统->生成结论”的流程固化为工作流,并可发布版本
- 运行日志可回放每个节点的输入/输出,定位“是检索没命中、还是外部接口失败、还是提示词需要收紧”
适合哪些团队从这里开始
如果你正在做下面几件事,数睿通智库通常能很快带来变化:
- 企业知识库与制度文档的检索/问答升级
- 客服/售前/交付的知识沉淀与复用
- 产品/研发/数据团队的文档协作与经验复盘
- 需要私有化部署、数据可控、权限可控的 AI 落地
写在最后:我们希望它成为“企业的 AI 数据底座”
首发版本不是终点,而是一个可以持续被“喂养、被优化、被复用”的起点。后续我们也会持续更新迭代能力与体验,让它更稳定、更好用、更贴近企业真实场景。
感兴趣的朋友请关注公众号螺旋编程极客,我们一起成长,一起进步。