093、PyPDF2 与 pdfplumber:提取文字、表格、合并拆分 PDF 的实用脚本一、一个让我熬夜的PDF提取问题上周五晚上,一个同事跑过来跟我说:“哥,我有个PDF,里面全是表格,用PyPDF2提取出来全是乱码,怎么办?”我打开那个PDF一看,好家伙,是个扫描件转成的PDF,文字层根本不存在。这让我想起自己刚入行时,为了从一个政府报告PDF里提取数据,硬是折腾到凌晨三点——后来发现用错了库。PDF处理在Python里是个坑,坑就坑在“PDF”这个格式本身太复杂。有的PDF是文字流,有的是图片,有的混合了表格和图片。PyPDF2和pdfplumber这两个库,一个像瑞士军刀,一个像手术刀,用对场景才能解决问题。二、PyPDF2:老牌PDF操作工具PyPDF2(现在叫pypdf,但老项目里PyPDF2还在用)适合做PDF的结构操作:合并、拆分、旋转、加密解密。它不擅长提取文字,尤其是复杂排版。安装与基础读取# 别用pip install PyPDF2,现在官方推荐pypdf# 但老项目里PyPDF2还能用,我一般两个都装
093、PyPDF2 与 pdfplumber:提取文字、表格、合并拆分 PDF 的实用脚本
093、PyPDF2 与 pdfplumber:提取文字、表格、合并拆分 PDF 的实用脚本一、一个让我熬夜的PDF提取问题上周五晚上,一个同事跑过来跟我说:“哥,我有个PDF,里面全是表格,用PyPDF2提取出来全是乱码,怎么办?”我打开那个PDF一看,好家伙,是个扫描件转成的PDF,文字层根本不存在。这让我想起自己刚入行时,为了从一个政府报告PDF里提取数据,硬是折腾到凌晨三点——后来发现用错了库。PDF处理在Python里是个坑,坑就坑在“PDF”这个格式本身太复杂。有的PDF是文字流,有的是图片,有的混合了表格和图片。PyPDF2和pdfplumber这两个库,一个像瑞士军刀,一个像手术刀,用对场景才能解决问题。二、PyPDF2:老牌PDF操作工具PyPDF2(现在叫pypdf,但老项目里PyPDF2还在用)适合做PDF的结构操作:合并、拆分、旋转、加密解密。它不擅长提取文字,尤其是复杂排版。安装与基础读取# 别用pip install PyPDF2,现在官方推荐pypdf# 但老项目里PyPDF2还能用,我一般两个都装