PDF化したレシートから文字を抽出する

Python

環境構築

pip install pdf2image

実装

PDFから画像に変換

import os

from pathlib import Path
from pdf2image import convert_from_path

pdf_path = Path('./pdf_file/test.pdf')

# pdf -> image
pages = convert_from_path(str(pdf_path), 150)

image_dir = Path('./image_file')
for i, page in enumerate(pages):
    file_name = pdf_path.stem + '_{:02d}'.format(i + 1) + '.jpg'
    image_path = image_dir / file_name
    # save with jpeg
    page.save(str(image_path), 'jpeg')

画像から文字抽出

TBA