ocr.py

from PIL import Image
import pytesseract
from tqdm import tqdm
import os
# 加载图片
path = './泄漏数据/pic_files/'
for filename in tqdm(os.listdir(path)):
    # 使用pytesseract进行OCR识别
    text = pytesseract.image_to_string(path+filename, lang='chi_sim')
    with open('./result/'+filename, 'w+', encoding='utf-8') as f:
        f.writelines(text.replace(" ", ""))