PDF化したレシートから文字を抽出する
環境構築
pip install pdf2image
実装
PDFから画像に変換
import os
from pathlib import Path
from pdf2image import convert_from_path
pdf_path = Path('./pdf_file/test.pdf')
# pdf -> image
pages = convert_from_path(str(pdf_path), 150)
image_dir = Path('./image_file')
for i, page in enumerate(pages):
file_name = pdf_path.stem + '_{:02d}'.format(i + 1) + '.jpg'
image_path = image_dir / file_name
# save with jpeg
page.save(str(image_path), 'jpeg')
画像から文字抽出
TBA
ディスカッション
コメント一覧
まだ、コメントがありません