提交 14295392 作者: imClumsyPanda

update loader

上级 871a8716
...@@ -15,7 +15,7 @@ class UnstructuredPaddleImageLoader(UnstructuredFileLoader): ...@@ -15,7 +15,7 @@ class UnstructuredPaddleImageLoader(UnstructuredFileLoader):
if not os.path.exists(full_dir_path): if not os.path.exists(full_dir_path):
os.makedirs(full_dir_path) os.makedirs(full_dir_path)
filename = os.path.split(filepath)[-1] filename = os.path.split(filepath)[-1]
ocr = PaddleOCR(lang="ch", use_gpu=False, show_log=False) ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False, show_log=False)
result = ocr.ocr(img=filepath) result = ocr.ocr(img=filepath)
ocr_result = [i[1][0] for line in result for i in line] ocr_result = [i[1][0] for line in result for i in line]
......
...@@ -15,7 +15,7 @@ class UnstructuredPaddlePDFLoader(UnstructuredFileLoader): ...@@ -15,7 +15,7 @@ class UnstructuredPaddlePDFLoader(UnstructuredFileLoader):
full_dir_path = os.path.join(os.path.dirname(filepath), dir_path) full_dir_path = os.path.join(os.path.dirname(filepath), dir_path)
if not os.path.exists(full_dir_path): if not os.path.exists(full_dir_path):
os.makedirs(full_dir_path) os.makedirs(full_dir_path)
ocr = PaddleOCR(lang="ch", use_gpu=False, show_log=False) ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False, show_log=False)
doc = fitz.open(filepath) doc = fitz.open(filepath)
txt_file_path = os.path.join(full_dir_path, f"{os.path.split(filepath)[-1]}.txt") txt_file_path = os.path.join(full_dir_path, f"{os.path.split(filepath)[-1]}.txt")
img_name = os.path.join(full_dir_path, 'tmp.png') img_name = os.path.join(full_dir_path, 'tmp.png')
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论