黄瓜视频.app官网,网站一级片欧美另类日韩

主頁 > 知識庫 > 用Python提取PDF表格的方法

用Python提取PDF表格的方法

一、簡單文本類型數(shù)據(jù)

簡單文本類型表格就是一頁PDF中只有一個表格，并且表格內(nèi)容完整可復(fù)制，例如我們選定內(nèi)容為PDF中的第四頁，內(nèi)容如下：

可以看到，該頁只有一個表格，下面我們將這個表寫入Excel中，先上代碼

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的結(jié)果如下：

通過與PDF上原表格對比，在內(nèi)容上是完全一致的，唯一不同的是由于主營業(yè)務(wù)內(nèi)容較多，導(dǎo)致顯示的不全面，現(xiàn)在來說說這段代碼。

首先導(dǎo)入要用到的兩個庫。在pdfplumber中，open()函數(shù)是用來打開PDF文件，該代碼用的是相對路徑。.open().pages則是獲取PDF的頁數(shù)，打印ps值可以得到如下

pg = ps[3]代表的就是我們所選的第三頁。

pg.extract_tables()：可輸出頁面中所有表格，并返回一個嵌套列表，其結(jié)構(gòu)層次為table→row→cell。此時，頁面上的整個表格被放入一個大列表中，原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素，得到的便是由原表格同一行元素構(gòu)成的列表。

與其類似的是pg.extract_table( )：返回多個獨立列表，其結(jié)構(gòu)層次為row→cell。若頁面中存在多個行數(shù)相同的表格，則默認(rèn)輸出頂部表格；否則，僅輸出行數(shù)最多的一個表格。此時，表格的每一行都作為一個單獨的列表，列表中每個元素即為原表格的各個單元格內(nèi)容。

由于該頁面中只有一個表格，我們需要tables集合中的第一個元素。打印table值，如下：

可以看到在上述中是存在\n這種沒不要的字符，它的作用其實是換行但我們在Excel中是不需要的。所以需要剔除它，用代碼中的for循環(huán)與replace函數(shù)將控制替換成空格(即刪除\n)。觀察table是一個裝有2個元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創(chuàng)建一個數(shù)據(jù)框，將內(nèi)容放到對應(yīng)的行列中。

本代碼只是簡單將數(shù)據(jù)存入到Excel，如果你需要進一步對樣式進行調(diào)整，可以使用openpyxl等模塊進行修改。

二、復(fù)雜型表格提取

復(fù)雜型表格即表格樣式不統(tǒng)一或一頁中有多個表格，以PDF中的第五頁為例：

可以看到本頁中有兩個大的表格，并且細(xì)看的話，其實是4個表格，按照簡單型表格類型提取方法，得到的效果如下：

可以看到，只是將全部表格文本提取出來，但實際上第一個表格又細(xì)分為兩個表，所以需要我們進一步修改，將這張表再次拆分！例如提取上半部分代碼如下：

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影響.xlsx') as i:
    df1.to_excel(i,sheet_name='資產(chǎn)', index=False, header=True) #放入資產(chǎn)數(shù)據(jù)
    df2.to_excel(i,sheet_name='營業(yè)',index=False, header=True) #放入營業(yè)數(shù)據(jù)

這段代碼在簡單型表格提取的基礎(chǔ)上進行了修改，第十四行代碼的作用就是提取另外一個表頭的信息，并將他賦值給df2，而后對df2進行重命名操作(用到rename函數(shù))。

打印df2可以看出columns列名和第一行信息重復(fù)了，因此我們需要重復(fù)剛剛的步驟，利用loc()函數(shù)切割數(shù)據(jù)框。

注意，我們這里用了罕見的pandas.Excelwriter函數(shù)套for循環(huán)，這個是為了避免直接寫入導(dǎo)致的最后數(shù)據(jù)覆蓋原數(shù)據(jù)，感興趣可以嘗試一下不用withopen這種方法后結(jié)果。最終得到的效果如下：

可以看到，現(xiàn)在這個表格就被放在兩個sheet中單獨展示，當(dāng)然用于對比放在一張表中也是可以的

說到底復(fù)雜型表格的主觀性是非常大的，需要根據(jù)不同情況進行不同處理，想寫出一個一勞永逸的辦法是比較困難的！

三、圖片型表格提取

最后也是最難處理的就是圖片型表格，經(jīng)常有人會問如何提取圖片型PDF中的表格/文本等信息。

其實本質(zhì)上就是提取圖片，之后如何對圖片進一步處理提取信息就與Python提取PDF表格這個主題沒有太大關(guān)系了！

這里我們也簡單進行介紹，也就是先提取圖片再進行OCR識別提取表格，在Python中可以使用Tesseract庫，首先需要pip安裝

pip install pytesseract

在Python中安裝完這個庫之后我們需要安裝exe文件以在后面代碼用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可，注意目前如果按照正常步驟安裝的話是不會識別中文的，所以需要安裝簡體中文語言包，下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata，將其放到Tesseract-OCR的tessdata目錄下即可。

接下來我們使用一個簡單的圖片型pdf如下：

第一步，提取圖片，這里使用在GUI辦公自動化系列中的圖片提取軟件來提取PDF中的圖片，得到如下圖片：

接著執(zhí)行下方代碼識別圖片內(nèi)容

import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu:    #不能使用for
  tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:]
#df.to_excel('圖片型表格.xlsx')  #轉(zhuǎn)為xlsx文件

我們的思路是用Tesseract-OCR來解析圖片，得到一個字符串，接著對字符串運用split函數(shù)，把字符串變成列表同時刪除\n。

接著可以發(fā)現(xiàn)我們的列表里還存在空格，這時我們用while循環(huán)來刪除這些空字符，注意，這里不能用for循環(huán)，因為每次刪除一個，列表里的元素就會前進一個，這樣會刪不完全。最后就是用pandas把這些變成數(shù)據(jù)框形式。最終得到的效果如下：

可以看到，該圖片型表格內(nèi)容被完美解析與處理！當(dāng)然能輕松搞定的原因也與這個表格足夠簡單有關(guān)，在真實場景中的圖片可能會有更復(fù)雜的干擾因素，而這就需要大家在處理的同時自行找到一個最合適的辦法！

以上就是用Python提取PDF表格的方法的詳細(xì)內(nèi)容，更多關(guān)于Python提取PDF表格的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

Python 用三行代碼提取PDF表格數(shù)據(jù)
Python讀取pdf表格寫入excel的方法
python實現(xiàn)PDF中表格轉(zhuǎn)化為Excel的方法
基于Python快速處理PDF表格數(shù)據(jù)
python 三種方法提取pdf中的圖片
python從PDF中提取數(shù)據(jù)的示例
python如何提取英語pdf內(nèi)容并翻譯
Python提取PDF內(nèi)容的方法(文本、圖像、線條等)
python基于pdfminer庫提取pdf文字代碼實例

標(biāo)簽：江蘇湖州畢節(jié) 呼和浩特駐馬店中山衡水股票

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《用Python提取PDF表格的方法》，本文關(guān)鍵詞用,Python,提取,PDF,表格,的,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。