OCRmyPDF 详细介绍及使用指南 (PDF超强开源处理工具)

2025-02-26

趣玩AI

OCRmyPDF 是一款开源命令行工具，专为扫描版 PDF 文件添加可搜索的 OCR 文本层，使其支持文字搜索、复制和粘贴功能。它基于 Tesseract OCR 引擎，支持超过 100 种语言，并能优化图像质量、校正页面倾斜，生成符合长期存储标准的 PDF/A 格式文件。

一、工具简介

OCRmyPDF 是一款开源命令行工具，专为扫描版 PDF 文件添加可搜索的 OCR 文本层，使其支持文字搜索、复制和粘贴功能。它基于 Tesseract OCR 引擎，支持超过 100 种语言，并能优化图像质量、校正页面倾斜，生成符合长期存储标准的 PDF/A 格式文件。

生成可搜索的 PDF/A 文件
- 在原始图像层上叠加透明文本层，保留原始分辨率。
- 输出文件符合 PDF/A 标准，适合长期存档。
多语言支持
- 支持中文、英文、法文等 100+ 语言，需安装对应 Tesseract 语言包。
图像优化与纠偏
- 自动校正：修复页面旋转（--rotate-pages）、拉直倾斜文本（--deskew）。
- 去噪处理：清除扫描件污点，提升 OCR 准确率。
高效处理与批量操作
- 多核并行处理（--jobs 4），加速大型文件处理。
- 支持批量处理，可结合 GNU Parallel 工具。
数据安全
- 完全离线运行，不依赖云端服务。

Linux（Debian/Ubuntu）
```
sudo apt-get install ocrmypdf  
```
引用来源：。
macOS
```
brew install ocrmypdf  
```
引用来源：。
Windows
1. 安装 Python 和 Tesseract OCR；
2. 执行命令：
```
python3 -m pip install ocrmypdf  
```
引用来源：。

单文件处理
```
ocrmypdf --rotate-pages --deskew input.pdf output.pdf  
```
- --rotate-pages：自动旋转页面方向。
- --deskew：校正倾斜页面。
多语言混合文档
```
ocrmypdf -l eng+chi_sim input.pdf output.pdf  
```
- -l 参数指定语言代码（如 chi_sim 为简体中文）。
覆盖原文件（谨慎使用）
```
ocrmypdf --force-ocr myfile.pdf myfile.pdf  
```
引用来源：。

批量处理文件夹

find ./scans -name "*.pdf" -exec ocrmypdf --jobs 4 {} {}.ocr.pdf \;

引用来源：。

生成高压缩文件
```
ocrmypdf --optimize 3 input.pdf output.pdf  
```
- --optimize 级别 1-3，数值越高压缩率越高。

引用来源：。

OCR 识别错误
- 安装更高精度语言包（如 tesseract-ocr-chi-tra 繁体中文）。
- 调整预处理参数（如 --clean 去噪）。
处理速度慢
- 增加 --jobs 参数值，利用多核 CPU。
输出文件过大
- 使用 --optimize 和 --image-dpi 150 降低分辨率。

参考来源：
：OCRmyPDF 官方文档及技术社区分析（2025年最新版）。

阅读 18