|
|
vor 1 Jahr | |
|---|---|---|
| extracted_images | vor 1 Jahr | |
| LLMAgent.py | vor 1 Jahr | |
| README.md | vor 1 Jahr | |
| document_.py | vor 1 Jahr | |
| extract_financial_report.py | vor 1 Jahr | |
| extract_price.py | vor 1 Jahr | |
| get_info.py | vor 1 Jahr | |
| instance_locate.py | vor 1 Jahr | |
| lmu.py | vor 1 Jahr | |
| matcher.py | vor 1 Jahr | |
| ocr_api.py | vor 1 Jahr | |
| project_loc.py | vor 1 Jahr | |
| requirements.txt | vor 1 Jahr | |
| responser.py | vor 1 Jahr | |
| scan_dir.py | vor 1 Jahr | |
| text_extractor.py | vor 1 Jahr | |
| tools.py | vor 1 Jahr |
主要模块描述 1、tools 大纲解析模块 2、get_info PDF信息抽取模块 3、matcher 段落定位模块
4、projectloc 项目业绩的表格定位模块 5、responser 格式化模块 6、lmu 摘要生成模块 7、LLMAgent 大模型调用模块 8、document 招标文件解析模块
1. camelot-py git源下载
git clone https://www.github.com/camelot-dev/camelot
修改pyproject.toml中 pdfminer-six = "^20231228"
安装命令: 进入camelot目录下,pip install -e .
2. 在wsl Debian中安装 ghostscript 【模块本身】
apt install ghostscript
3. ghostscript 下载
pip install ghostscript==0.7.0 【模块驱动】
4. 代码修改 【CV运行时不需要设置宽高,使用默认即可】
tables_pro = camelot.read_pdf(
self.file_path,
# flavor='stream',
pages=str(page_number+1),
# edge_tol=200,
# row_tol=50,
)