开篇寄语
此前影印版的 PDF 无法被 ChatGPT 等聊天机器人正确解析,从而影响沟通。而 ChatGPT 给出的解决办法是可以将PDF文档的内容转化为文本格式,然后将文本内容粘贴到聊天框中,这样才能和它畅聊沟通。不过,伯衡君最近在 Github 上发现了一个项目,可以将影印版的 PDF 解析成可以供 ChatGPT 识别的版本。它是什么呢?详情请参看这篇文章。
前情提要
- 《如何获取一张 AI 生成图片的提示词的几种方法》
- 《聊聊学,结合 ChatGPT 的知识学习网站,在学与聊中掌握各种知识》
- 《夭寿啦!使用这个提示词后 ChatGPT 国粹脏话十级,我的血压顿时拉满》
- 《聊天机器人的魔法:ChatGPT 提示词汇总和最佳实践》
- 《理论指导 ChatGPT 写小说实践——《虚实之门》序言》
项目地址
在线体验
项目内容
将影印版 PDF 图书转换为文本 TXT,供 GPTs 使用作为知识库。一个用于将PDF文件的文本提取到一个文本文件中的Python脚本。它特别适用于处理扫描文档或包含图像格式文本的PDF,并支持英文和简体中文的文本识别。该项目的灵感来源于将影印版图书转换为文本格式,用作AI模型如GPTs的知识库。
主要特点和使用方法:
- 用途说明:
- 将PDF文件的每一页文本提取并汇总到一个文本文件中。
- 特别适用于处理扫描文档或包含图像格式文本的PDF。
- 支持英文和简体中文的文本识别。
- 依赖安装:
- Python、PyPDF2、pdf2image、Pillow(PIL Fork)、pytesseract、tqdm(用于进度条)、psutil、Tesseract OCR。
- 安装说明:
- 确保系统已安装Python。
- 通过命令安装所需的Python库。
- 安装Tesseract OCR及其依赖项,包括英文和中文的语言支持。
- 使用方法:
- 在Python环境中运行脚本,指定PDF文件的路径。
- 脚本使用多线程处理每一页,并将提取的文本输出到
extracted_text.txt
,同时显示进度条并将识别到的文本打印到控制台。
该项目还提供了在 Google Colab 上运行的 GPU 版本和 CPU 版本的 notebook。
建议直接在 Google Colab 使用。打开 Google Colab 后,请下翻,找到标有路径的地方。
上传 影印版 PDF 文件后,修改为对应路径和名称后,点击运行,不到一会就生成出了能够让 ChatGPT 识别的文字了。
怎么样,是不是很简单?
- 我的微信
- 微信扫一扫加好友
- 我的微信公众号
- 扫描关注公众号