ima_docdb 文档工作台

Overview

-
加载系统状态

1. 文档库

2. 检索验证

3. 文档详情

选择左侧文档,或点击搜索结果查看来源、分类、质量和原文片段。

RAG 验证链路

未运行
按顺序运行链路审计、问答评测和空页审计,确认本地文档库是否可稳定支撑 RAG。

Collections

Loading collections...

标签推荐

Loading tag recommendations...

4. 问答 / RAG

输入问题后生成可交给 Codex 或 ChatGPT 的带引用上下文。

采集队列:从页面操作到 RAG 可用

按链路从上到下执行
采集队列就绪
执行任一步骤后,这里会显示当前动作、耗时、完成结果或阻塞原因。
idle

ima:可见页面 / History 到 RAG

先让 ima 客户端暴露 PDF,再用 History 下载入库;最后统一归档、分类、验证 RAG 可读。

1
操控 ima 页面,刷新可下载线索

预览只读;执行会点击 ima 窗口里的可见 PDF 行并滚动页面,让签名 URL 进入 History。

涉及鼠标/滚轮操作,必须先确认;不确认时不会触发页面点击。
2
从 Chrome History 下载并入库

读取最近打开过的 ima PDF,下载到文档目录,并写入本地 docdb。

3
归档、扫描、分类

扫描文档目录,补 History 导入,运行分类和质量统计,产出 archive manifest。

4
验证可供 RAG 调用

运行轻量 RAG suite,检查检索、引用、空页和质量队列。

ZSXQ:页面采集 / 下载计划到 RAG

先确认授权和导入帖子/附件目录,再生成下载计划、小批量下载,最后归档分类并验证 RAG。

1
授权与页面采集

检查当前 Chrome 是否能看到成员内容;可导入当前可见页,或滚动多屏导入帖子/文件线索。

导入当前可见会使用键盘/剪贴板;滚动导入使用第 2 步的线索规模作为滚动屏数。
2
准备 URL-ready 下载队列

按当前队列状态自动刷新本地线索、采集 API topics、验证 inferred URL,并保存可预演的下载计划。

未勾选确认时只刷新本地线索和状态;需要打开/操控 Chrome 的 API topics 与 inferred URL 验证会被阻止。
高级:拆分执行队列准备
3
下载、入库并归档分类

确认后自动复用下载计划,先预演,再小批量下载,并执行归档入库、分类和 postflight。

真实下载会打开 ZSXQ 文件详情页;仍受确认、授权和批量上限保护。
高级:拆分执行下载与归档
4
验证可供 RAG 调用

确认 ready_for_rag、检索命中、引用和链路审计,完成后即可在检索 / RAG 标签使用。

ima 执行日志

按上方 ima 链路执行。预览不会点击页面;导入和归档结果会显示在这里。

ZSXQ 队列执行日志 / 审计

按上方 ZSXQ 链路执行。刷新状态不会打开浏览器;需要键鼠/下载的动作必须先确认。