提交 3712eec6 作者: imClumsyPanda

update pdf_loader.py

上级 94b4599c
...@@ -29,7 +29,8 @@ class UnstructuredPaddlePDFLoader(UnstructuredFileLoader): ...@@ -29,7 +29,8 @@ class UnstructuredPaddlePDFLoader(UnstructuredFileLoader):
img_list = page.get_images() img_list = page.get_images()
for img in img_list: for img in img_list:
pix = fitz.Pixmap(doc, img[0]) pix = fitz.Pixmap(doc, img[0])
if pix.n - pix.alpha >= 4:
pix = fitz.Pixmap(fitz.csRGB, pix)
pix.save(img_name) pix.save(img_name)
result = ocr.ocr(img_name) result = ocr.ocr(img_name)
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论