首页 全球简讯 详情

PDF数据提取难题持续困扰数据专家,AI技术提供新解法

2025-03-12 15:08

PDF文件广泛存储科学研究、政府记录等关键信息,其僵化格式却阻碍机器读取与分析,成为数据专家的长期挑战。PDF设计初衷偏向印刷版面,而非数字优化,多数文件以图像形式存储,需光学字符识别(OCR)技术转换数据。马里兰大学数据新闻学讲师Derek Willis指出,旧文档与手写内容加剧提取难度,影响法院、保险等行业效率,记者也因依赖此类记录而受限。研究显示,全球80-90%组织数据为非结构化形式,PDF成为数据分析与机器学习的主要瓶颈。

传统OCR自1970年代发展,依赖像素模式匹配识别字符,适用于清晰文档,但在处理多列布局、复杂表格或低质量扫描时表现欠佳。其错误可预测,常用于需可靠性的场景。近年来,大型语言模型(LLM)引入新方法,通过文本与图像令牌训练,理解上下文与视觉关系,处理复杂布局与表格。OpenAI、Google等公司的多模态LLM在文档解析中展现优势,ChatGPT等工具通过视觉方法读取PDF,超越传统OCR的局限。Willis表示,LLM的上下文预测能力提升数字识别准确性,可通过自定义提示优化结果。

新兴AI产品瞄准文档处理市场,Mistral推出的Mistral OCR API专注于复杂布局文档提取,但测试显示其处理旧表格与手写内容时错误频发,城市名称重复、数字混淆。Google的Gemini 2.0 Flash Pro Experimental表现更优,支持大上下文窗口,处理含手写内容的PDF错误较少,适合批处理大型文档。AI技术虽提升PDF数据提取能力,但仍需优化以应对多样化文档挑战,行业期待更高效、精准的解决方案。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除。邮箱:news@wedoany.com