python批量提取发票的信息

1.以滴滴开具的增值税发票为例，需要批量提取的信息包括：PDF文件名、PDF内容：发票号码、开票日期、购买方名称、购买方纳税人识别号、“货物或应税劳务、服务名称”、数量、单价、金额、税率、税额、价税合计小写金额、销售方名称、销售方纳税人识别号。
2.需要输出为excel文件
3.酬金80

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

21条回答默认最新

然然超绝肌肉线条 2024-08-02 23:43

关注

以下是完整代码

import os
import pandas as pd
from pdfminer.high_level import extract_text
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import io

def extract_information_from_pdf(pdf_path):
    # 提取 PDF 文本内容
    text = extract_text(pdf_path)

    # 解析发票信息
    invoice_info = {}
    lines = text.split('\n')
    for line in lines:
        if '发票号码' in line:
            invoice_info['发票号码'] = line.split('：')[1].strip()
        elif '开票日期' in line:
            invoice_info['开票日期'] = line.split('：')[1].strip()
        elif '购买方名称' in line:
            invoice_info['购买方名称'] = line.split('：')[1].strip()
        elif '购买方纳税人识别号' in line:
            invoice_info['购买方纳税人识别号'] = line.split('：')[1].strip()
        elif '货物或应税劳务、服务名称' in line:
            invoice_info['货物或应税劳务、服务名称'] = line.split('：')[1].strip()
        elif '数量' in line:
            invoice_info['数量'] = line.split('：')[1].strip()
        elif '单价' in line:
            invoice_info['单价'] = line.split('：')[1].strip()
        elif '金额' in line:
            invoice_info['金额'] = line.split('：')[1].strip()
        elif '税率' in line:
            invoice_info['税率'] = line.split('：')[1].strip()
        elif '税额' in line:
            invoice_info['税额'] = line.split('：')[1].strip()
        elif '价税合计小写金额' in line:
            invoice_info['价税合计小写金额'] = line.split('：')[1].strip()
        elif '销售方名称' in line:
            invoice_info['销售方名称'] = line.split('：')[1].strip()
        elif '销售方纳税人识别号' in line:
            invoice_info['销售方纳税人识别号'] = line.split('：')[1].strip()

    return invoice_info

def process_pdf_files(pdf_directory, output_excel):
    # 存储发票信息的列表
    invoices = []

    # 遍历 PDF 目录中的所有文件
    for filename in os.listdir(pdf_directory):
        if filename.endswith('.pdf'):
            pdf_path = os.path.join(pdf_directory, filename)

            # 提取发票信息
            invoice_info = extract_information_from_pdf(pdf_path)

            # 添加 PDF 文件名
            invoice_info['PDF 文件名'] = filename

            invoices.append(invoice_info)

    # 创建 DataFrame
    df = pd.DataFrame(invoices)

    # 保存为 Excel 文件
    df.to_excel(output_excel, index=False)

# 指定 PDF 目录和输出 Excel 文件路径
pdf_directory = 'your_pdf_directory'
output_excel = 'output.xlsx'

# 处理 PDF 文件并生成 Excel
process_pdf_files(pdf_directory, output_excel)

#运行时记得将  'your_pdf_directory'  替换为实际的 PDF 文件目录路径。运行代码后，它将提取所有 PDF 文件中的发票信息，并将其保存到  output.xlsx  文件中。

在运行上述代码之前，你需要确保安装了以下库：
1. pandas ：用于数据处理和创建 Excel 文件。
2. pdfminer ：用于提取 PDF 文件中的文本内容。

可使用命令通过pip安装


pip install pandas pdfminer

当然你也可以选择你熟悉的方法安装

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(20条)

报告相同问题？

关注问题

Python批量提取照片中的时间存入Excel python
2023-04-06 15:00

回答 3 已采纳调用opencv库提取带有时间文字的子图调用ocr库提取带有时间文字的图片对应的时间文字调用excel库制作图表
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
python 怎样批量生成变量名 python
2022-05-15 14:27

回答 2 已采纳用内置函数exec()，比如用一个循环一次性定义10个变量名： for i in range(10): exec(f'p{i}=0') >>> p0,p1,p2,p3,p9
Python批量提取PDF发票信息保存至Excel文件并对文件重命名
2022-02-12 15:36

在本项目中，我们主要探讨如何使用Python编程来批量处理PDF发票信息的提取，并将这些信息整理保存到Excel文件中，同时对原始PDF文件进行重命名。这个过程涉及到多个技术点，包括`pdfplumber`库用于读取PDF数据，`...
用Python循环提取每个月的数据 python 有问必答
2022-06-24 06:08

回答 6 已采纳假如是如2020-01-01这样日期数据，可使用pandas提取。样例数据： date,open,close,high,low,volume 2021-01-04,4.31,4.42,4.45,4.3
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
python提取excel中的特定数据 python
2022-04-09 00:12

回答 2 已采纳 import pandas as pd df=pd.read_excel('abc.xlsx') df=df.filter(regex='销售数据',axis=1) df.to_excel('bcd.
Python批量识别发票信息并自动填写到网上
2023-05-21 19:46

PythonFun的博客如果手机一个个复制粘贴，非常麻烦，而且容易出错，如果采用Python的话则很容易把信息提取到Excel表中，这样再分别录入到网上就快捷多了。我借鉴网上的代码，同时把源代码进行了修改，增加了批量写入Excel文件中的...
Python如何提取TXT中的指定数据 python
2021-08-12 14:16

回答 3 已采纳 string = "GPSstate:4GPSread!" with open('f.txt','r') as f: for line in f.readlines(): if
python批量修改类的属性？ python
2017-11-22 13:40

回答 1 已采纳 def edit(self, op, num): setattr(self. op, num) ``` ```
Python如何提取图片像素点坐标值？ python 有问必答
2021-08-08 10:33

回答 3 已采纳可以用numpy的column_stack和where函数来获取像素点在某阈值范围内的坐标。例子： import numpy as np from PIL import Image image =
办公利器！用Python批量识别发票并录入到Excel表格_python识别发票
2024-05-03 04:31

2401_84557521的博客 ① Python所有方向的学习路线图，清楚各个方向要学什么东西② 600多节Python课程视频，涵盖必备基础、爬虫和数据分析③ 100多个Python实战案例，含50个超大型项目详解，学习不再是只会理论④ 20款主流手游迫解爬虫...
python 提取excel的某几列的数据 list python
2021-02-08 08:52

回答 3 已采纳 import pandas as pd file_name = r"new.xlsx" df = pd.read_excel(file_name) columns = ["a","c","e"]
python批量识别图片指定区域文字内容
2021-01-20 06:30

总的来说，Python批量识别图片指定区域文字内容的工作流程是：先利用模板匹配定位文字区域，然后剪裁出目标区域，最后通过OCR技术提取文字。这种技术在处理大量含有特定格式文本的图像时非常有用，例如在发票处理、...
发票信息提取并生成Excel文件
2022-09-24 11:55

提取的发票信息可以利用Python的pandas库或VBA（Visual Basic for Applications）脚本编程生成Excel文件。在Excel中，我们可以创建工作表，设置格式，添加计算公式，以及利用图表进行可视化分析。 5. **自动化流程*...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 8月3日
展开全部

悬赏问题

¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，

python批量提取发票的信息

21条回答 默认 最新

问题事件

悬赏问题

21条回答默认最新