创建 MinerU 归档文件
创建 MinerU 归档文件之前, 需要先使用 MinerU 完成 PDF 文件转换, 并找到 MinerU 输出目录. 查看MinerU 官网以了解如何转换 PDF 文件. 或者查看 MinerU github 仓库 以了解怎么在 Mac 上本地部署并运行 MinerU.
使用 MinerU 客户端
从 MinerU 客户端打开输出目录.
在 MinerU 输出目录中依次选中, content_list.json, origin.pdf 文件以及 images 文件夹. 然后右键点击选择 压缩 3 个项目.
压缩完成后, 会生成一个名为 归档.zip 的压缩文件. 将该文件重命名为 your_filename.mineru 即可得到 MinerU 归档文件.
现在你可以将该 MinerU 归档文件导入到 DoCube 中了.
在 Mac 上本地部署
- 本地部署推荐使用搭载 Apple Silicon 芯片并且内存大于等于 16GB 的设备
- 本地部署步骤相对复杂, 如遇到问题可以参考官方仓库或者联系 DoCube.
- 因为 Mac 环境不同, 终端样式与输出可能不一致, 以下说明中的终端输出仅供参考
环境准备
打开 `终端` 应用, 输入以下命令创建 mineru 环境
python3 -m venv mineru
然后需要激活 mineru 环境, 输入以下命令:
source mineru/bin/activate
安装 MinerU
输入以下命令安装 pip(如何你已经安装 pip 可以跳过此步骤):
sudo python3 get-pip.py
安装成功后将看到如下输出 Successfully installed pip-25.3:
接下来是 Mineru 官方步骤
1. 升级 pip, 运行以下命令:
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
2. 安装 uv, 运行以下命令:
pip install uv -i https://mirrors.aliyun.com/pypi/simple
执行结束后将看到 Successfully installed uv-0.9.21
3. 安装 mineru, 运行以下命令:
uv pip install -U "mineru[all]" -i https://mirrors.aliyun.com/pypi/simple
安装过程比较长, 需要下载多个依赖包.
运行 MinerU
以上步骤执行完成后, 已经可以在本地运行 MinerU 转换 PDF 了. 如果您所在的地区无法访问 huggingface, 首先切换一下模型下载来源, 运行以下命令:
export MINERU_MODEL_SOURCE=modelscope
然后运行以下命令开始转换 PDF 文件:
mineru -p origin_file.pdf -o ./output
其中 origin_file.pdf 是你要转换的 PDF 文件路径, ./output 是输出目录路径.
- 可以先输入
mineru -p然后将要转换的 PDF 文件拖入 `终端` 窗口, 这样可以自动补全文件路径.
- `./output` 输出目录可以自定义, 例如你可以指定为
~/Desktop/mineru_output, 这将在桌面上创建一个mineru_output目录