如何高效解析影印版 PDF 与 ChatGPT 畅聊

已收录   阅读次数: 235
2023-12-2615:19:08 发表评论
摘要

此前影印版的 PDF 无法被 ChatGPT 等聊天机器人正确解析,从而影响沟通。而 ChatGPT 给出的解决办法是可以将PDF文档的内容转化为文本格式,然后将文本内容粘贴到聊天框中,这样才能和它畅聊沟通。不过,伯衡君最近在 Github 上发现了一个项目,可以将影印版的 PDF 解析成可以供 ChatGPT 识别的版本。它是什么呢?详情请参看这篇文章……

分享至:
如何高效解析影印版 PDF 与 ChatGPT 畅聊

开篇寄语

此前影印版的 PDF 无法被 ChatGPT 等聊天机器人正确解析,从而影响沟通。而 ChatGPT 给出的解决办法是可以将PDF文档的内容转化为文本格式,然后将文本内容粘贴到聊天框中,这样才能和它畅聊沟通。不过,伯衡君最近在 Github 上发现了一个项目,可以将影印版的 PDF 解析成可以供 ChatGPT 识别的版本。它是什么呢?详情请参看这篇文章。

前情提要

项目地址

在线体验

项目内容

将影印版 PDF 图书转换为文本 TXT,供 GPTs 使用作为知识库。一个用于将PDF文件的文本提取到一个文本文件中的Python脚本。它特别适用于处理扫描文档或包含图像格式文本的PDF,并支持英文和简体中文的文本识别。该项目的灵感来源于将影印版图书转换为文本格式,用作AI模型如GPTs的知识库。

主要特点和使用方法:

  1. 用途说明
    • 将PDF文件的每一页文本提取并汇总到一个文本文件中。
    • 特别适用于处理扫描文档或包含图像格式文本的PDF。
    • 支持英文和简体中文的文本识别。
  2. 依赖安装
    • Python、PyPDF2、pdf2image、Pillow(PIL Fork)、pytesseract、tqdm(用于进度条)、psutil、Tesseract OCR。
  3. 安装说明
    • 确保系统已安装Python。
    • 通过命令安装所需的Python库。
    • 安装Tesseract OCR及其依赖项,包括英文和中文的语言支持。
  4. 使用方法
    • 在Python环境中运行脚本,指定PDF文件的路径。
    • 脚本使用多线程处理每一页,并将提取的文本输出到extracted_text.txt,同时显示进度条并将识别到的文本打印到控制台。

该项目还提供了在 Google Colab 上运行的 GPU 版本和 CPU 版本的 notebook。

建议直接在 Google Colab 使用。打开 Google Colab 后,请下翻,找到标有路径的地方。

如何高效解析影印版 PDF 与 ChatGPT 畅聊

上传 影印版 PDF 文件后,修改为对应路径和名称后,点击运行,不到一会就生成出了能够让 ChatGPT 识别的文字了。

怎么样,是不是很简单?

  • 我的微信
  • 微信扫一扫加好友
  • weinxin
  • 我的微信公众号
  • 扫描关注公众号
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: