poppler > pdftotext
- 首先安装 Poppler 工具,在终端中输入:
brew install poppler
。 - 安装完成后,使用以下命令将 PDF 转换为文本:
pdftotext -enc UTF-8 input.pdf
。其中,input.pdf是你要转换的 PDF 文件名。
如果需要指定输出文件名,可以在命令后加上输出文件名,如pdftotext -enc UTF-8 input.pdf output.txt
。
此外,还可以通过参数指定页面范围等,例如pdftotext -f 1 -l 10 -enc UTF-8 input.pdf
表示只转换 PDF 的第 1 页到第 10 页。
Poppler 是一个用于呈现可移植文档格式(PDF)文档的免费软件实用程序库
命令行工具
pdfdetach:从 PDF 中提取嵌入式文档。
pdffonts:列出 PDF 中使用的字体。
pdfimages:从 PDF 中以原始分辨率提取所有嵌入式图像。
pdfinfo:列出 PDF 的所有信息。
pdfseparate:从 PDF 中提取单个页面。
pdftocairo:使用 Cairo 将单页从 PDF 转换为矢量或位图格式。
pdftohtml:将 PDF 转换为保留格式的 HTML。
pdftoppm:将 PDF 页面转换为位图。
pdftops:将 PDF 转换为可打印的 PS 格式。
pdftotext:从 PDF 中提取所有文本。
pdfunite:合并几个 PDF。
pdfgrep
在 macOS 系统中,可以使用 Homebrew 包管理工具进行安装,命令为:brew install pdfgrep。
基本的搜索命令:pdfgrep "search_text" file.pdf
,这将在file.pdf文件中搜索包含search_text的内容,并输出结果。
使用正则表达式搜索:pdfgrep -E "[0-9]{4}-[0-9]{2}-[0-9]{2}" file.pdf
,此命令用于搜索file.pdf中符合YYYY-MM-DD格式的日期。
在多个文件中搜索:pdfgrep "search_text" file1.pdf file2.pdf file3.pdf
,这样可以同时在file1.pdf、file2.pdf和file3.pdf三个文件中搜索search_text。