【Python】tabula.read_pdfで読み込めるpdfと読み込めないpdf（IndexError: list index out of range）

ここではtabula.read_pdfで読み込めるpdfと読み込めないpdfについて比較してみます。

tabula-pyで読み込めるpdf

tabula-pyがpdf上の表（テーブル）をテキスト抽出できる優秀ツールであることは前記事で詳しく紹介しましたね。

ですが、「値を抽出できる」といっても、tabula-pyはOCR処理（文字認識）ができるというわけではありません。

tabula-pyの守備範囲は、あくまでpdf上の「テキストとして認識できるデータ」が対象となります。

PDFの裏側については書くと長くなりますのでここでは深追いしません。

試しに紙をスキャンして生成したpdfをtabulaに読み込ませ、結果をprintしてみましょう。

pdffile1="d:\複数テーブル_scan.pdf" 
dfs = tabula.read_pdf(pdffile1, lattice=True , pages = 'all') 
print(dfs[0])

実行結果

IndexError: list index out of range

データフレーム：dfsに何も取得できていないため、dfs[0]を出力しようとするとインデックスエラーとなっています。

tabula-pyはOCR処理（文字認識）ができるというわけではなく、あくまで「テキストとして認識できるデータ」から取得していることを知ったうえで使いましょう

Pythonを最も効率的に学べる方法についてはこちらにまとめています。