【大模型:知识库管理】--开源工具Ragflow构建知识库

发布于:2025-06-11 ⋅ 阅读:(156) ⋅ 点赞:(0)

【大模型:知识库管理】--开源工具Ragflow介绍+本地搭建-CSDN博客

目录

1.启动ragflow

2.创建知识库

2.1.配置--切块方法

2.2.上传知识库文件

2.3.运行检索测试

2.4.配置本地对话模型


1.启动ragflow

docker compose up -d
docker logs -f ragflow-server

2.创建知识库

2.1.配置--切块方法

先配置:

 

1.知识库名称:Rag_test

2.权限:只有我

3.PDF解析器:选用DeepDoc(Naive不好用)

4.嵌入模型:千问的

5.切块方法:

模板 (Template) 描述 (Description) 文件格式 (File Formats)
常规 (General)

1.系统将使用视觉检测模型将连续文本分割成多个片段。

2.接下来,这些连续的片段被合并成Token数不超过“Token数”的块。

DOCX、XLSX、XLS (Excel 97-2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML
问答 (Q&A) 问答对,两列 EXCEL, CSV/TXT

简历(Resume)

将简历解析为结构化数据 DOCXPDFTXT
手册 (Manual) 使用最低的部分标题作为对文档进行切片的枢轴。 因此,同一部分中的图和表不会被分割, PDF
表格 (Table)

对于 csv 或 txt 文件,列之间的分隔符TAB。

  • 第一行必须是列标题。
EXCEL, CSV/TXT
论文 (Paper) LLM可以更好的概括论文中相关章节的内容, PDF
书本 (Book) 请为每本书设置页面范围 DOCX, PDF, TXT
法律 (Legal) 使用文本特征来检测分割点 DOCX, PDF, TXT
ppt (Presentation) 每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。 PDF, PPTX
(Tag)

标签集独立存在​​,仅供其他知识库匹配使用。文件格式严格​​:XLSX 需两列无标题CSV/TXT 需 TAB 分隔 + 逗号分隔标签。

容错机制​​:非法格式数据自动跳过,避免污染标签集。

JPEG, JPG, PNG, TIF, GIF
唯一 (one) 整个文档被分成唯一块。 DOCX, EXCEL, PDF, TXT

2.2.上传知识库文件

我i这里上传了deepseek-v3的论文翻译(53页),试试分快的情况。

鼠标放到进度条上面可以看到具体的解析过程:

等几分钟:

2.3.运行检索测试

RAGFlow 在其聊天中使用全文搜索和矢量搜索的多次调用。在设置 AI 聊天之前,请考虑调整以下参数以确保预期信息始终出现在答案中:

  • 相似度阈值:相似度低于阈值的数据块将被过滤。默认设置为 0.2。
  • 向量相似度权重:向量相似度占总分的百分比。默认设置为 0.3。

2.4.配置本地对话模型

 在聊天页面增加一个聊天助手:

简单配置一下参数(可以使用默认)

默认提示词:

你是一个智能助手,请总结知识库的内容来回答问题,
请列举知识库中的数据详细回答。当所有知识库内容都与问题无关时,
你的回答必须包括“知识库中未找到您要的答案!”这句话。回答需要考虑聊天历史。
        以下是知识库:
        {knowledge}
        以上是知识库。

 模型参数:

  1. Model :选择 Chat (对话) 模型。尽管您在系统模型设置中选择了默认聊天模型,但 RAGFlow 允许您为对话选择替代聊天模型,选择正确的对话模型十分重要,这个影响到系统能否正常运行,如果对话模型配置错误,将导致不能输出正确的对话内容。
  2. Freedom:指 LLM 即兴创作的级别。从 Improvise、Precise 到 Balance,每个自由度级别都对应于 Temperature、Top P、Presence Penalty 和 Frequency Penalty 的独特组合。
  3. Temperature: LLM 的预测随机性水平。值越高,LLM 的创意就越大。
  4. Top P:也称为“细胞核采样”,选用默认值即可。
  5. Max Tokens:LLM 响应的最大长度。请注意,如果此值设置得太低,则响应可能会减少。


网站公告

今日签到

点亮在社区的每一天
去签到