提交 5c0c1eed 作者: imClumsyPanda

update pdf_loader.py

上级 99ee2e9f
...@@ -39,6 +39,7 @@ class UnstructuredPaddlePDFLoader(UnstructuredFileLoader): ...@@ -39,6 +39,7 @@ class UnstructuredPaddlePDFLoader(UnstructuredFileLoader):
result = ocr.ocr(img_name) result = ocr.ocr(img_name)
ocr_result = [i[1][0] for line in result for i in line] ocr_result = [i[1][0] for line in result for i in line]
fout.write("\n".join(ocr_result)) fout.write("\n".join(ocr_result))
if os.path.exists(img_name):
os.remove(img_name) os.remove(img_name)
return txt_file_path return txt_file_path
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论