Không có mô tả

lfygithub01 24a6257dde document_py更新 1 năm trước cách đây
data 142ff330e5 添加数据 1 năm trước cách đây
extracted_images 76f6e51fc3 version 0.1 1 năm trước cách đây
README.md 37357cbaf7 readme修改 1 năm trước cách đây
all_tables.json a2eeab68b2 添加全量表格解析模块,表格新增表名识别,新增大纲识别 1 năm trước cách đây
document_.py 24a6257dde document_py更新 1 năm trước cách đây
get_info.py 3d3861034d pdf无边框表格抽取及使用方法 1 năm trước cách đây
lmu.py 59d20e64a0 添加BMP图形保存,添加摘要生成、关键词检测 1 năm trước cách đây
matcher.py 65241d1460 添加评审因素段落定位 1 năm trước cách đây
outlines.json a2eeab68b2 添加全量表格解析模块,表格新增表名识别,新增大纲识别 1 năm trước cách đây
requirements.txt 59d20e64a0 添加BMP图形保存,添加摘要生成、关键词检测 1 năm trước cách đây
responser.py ee3755c347 add j2k picture extract 1 năm trước cách đây
tools.py 808bee4ea6 tools.py更新 1 năm trước cách đây
三峡左岸及地下电站地坪整治招标文件(发售版).docx 65241d1460 添加评审因素段落定位 1 năm trước cách đây
投标文件-修改版9-5-1-1.json a2eeab68b2 添加全量表格解析模块,表格新增表名识别,新增大纲识别 1 năm trước cách đây
投标文件-修改版9-5-1-1.pdf 76f6e51fc3 version 0.1 1 năm trước cách đây
相似度.json 65241d1460 添加评审因素段落定位 1 năm trước cách đây

README.md

主要模块描述 1、tools 大纲解析模块 2、get_info PDF信息抽取模块 3、matcher 段落定位模块

PDF中无边框表格内容抽取
1. camelot-py git源下载
	git clone https://www.github.com/camelot-dev/camelot
	修改pyproject.toml中 pdfminer-six = "^20231228"
	安装命令: 进入camelot目录下,pip install -e .
2. 在wsl Debian中安装 ghostscript 【模块本身】
	apt install ghostscript
3. ghostscript 下载
	pip install ghostscript==0.7.0 【模块驱动】
4. 代码修改 【CV运行时不需要设置宽高,使用默认即可】
	tables_pro = camelot.read_pdf(
                    self.file_path,
                    # flavor='stream',
                    pages=str(page_number+1),
                    # edge_tol=200,
                    # row_tol=50,
                )