创建 MinerU 归档文件

创建 MinerU 归档文件之前, 需要先使用 MinerU 完成 PDF 文件转换, 并找到 MinerU 输出目录. 查看MinerU 官网以了解如何转换 PDF 文件. 或者查看 MinerU github 仓库 以了解怎么在 Mac 上本地部署并运行 MinerU.

使用 MinerU 客户端

从 MinerU 客户端打开输出目录. MinerU 打开文档目录

在 MinerU 输出目录中依次选中, content_list.json, origin.pdf 文件以及 images 文件夹. 然后右键点击选择 压缩 3 个项目. MinerU 压缩

压缩完成后, 会生成一个名为 归档.zip 的压缩文件. 将该文件重命名为 your_filename.mineru 即可得到 MinerU 归档文件. MinerU 重命名归档文件

现在你可以将该 MinerU 归档文件导入到 DoCube 中了.

在 Mac 上本地部署

  • 本地部署推荐使用搭载 Apple Silicon 芯片并且内存大于等于 16GB 的设备
  • 本地部署步骤相对复杂, 如遇到问题可以参考官方仓库或者联系 DoCube.
  • 因为 Mac 环境不同, 终端样式与输出可能不一致, 以下说明中的终端输出仅供参考

环境准备

打开 `终端` 应用, 输入以下命令创建 mineru 环境
python3 -m venv mineru
然后需要激活 mineru 环境, 输入以下命令:
source mineru/bin/activate

安装 MinerU

输入以下命令安装 pip(如何你已经安装 pip 可以跳过此步骤):
sudo python3 get-pip.py
安装成功后将看到如下输出 Successfully installed pip-25.3:

接下来是 Mineru 官方步骤
1. 升级 pip, 运行以下命令:
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple

2. 安装 uv, 运行以下命令:
pip install uv -i https://mirrors.aliyun.com/pypi/simple
执行结束后将看到 Successfully installed uv-0.9.21

3. 安装 mineru, 运行以下命令:
uv pip install -U "mineru[all]" -i https://mirrors.aliyun.com/pypi/simple
安装过程比较长, 需要下载多个依赖包.

运行 MinerU

以上步骤执行完成后, 已经可以在本地运行 MinerU 转换 PDF 了. 如果您所在的地区无法访问 huggingface, 首先切换一下模型下载来源, 运行以下命令:
export MINERU_MODEL_SOURCE=modelscope
然后运行以下命令开始转换 PDF 文件:
mineru -p origin_file.pdf -o ./output
其中 origin_file.pdf 是你要转换的 PDF 文件路径, ./output 是输出目录路径.

如果你对 `终端` 不熟悉
  • 可以先输入 mineru -p 然后将要转换的 PDF 文件拖入 `终端` 窗口, 这样可以自动补全文件路径.
  • `./output` 输出目录可以自定义, 例如你可以指定为 ~/Desktop/mineru_output, 这将在桌面上创建一个 mineru_output 目录