🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎
📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】 深度学习【DL】
🖍foreword
✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。
如果你对这个系列感兴趣的话,可以关注订阅哟👋
文章目录
什么是智能文档处理?
智能文档处理应用
1. 法律协议处理
2.发票和收据处理
3.简历处理&信息提取
4.法律文件处理
智能文档处理解决方案的工作原理
数据采集和输入处理
文档理解
深度学习模型和术语概述
1. 处理文档的文本提取方法
2. 文献分类与布局分析
3.信息提取建立自动化文档处理
4.命名实体识别(NER)
5.自定义文档数据微调
6. 其他常见任务
信息验证
信息存储
流程整合
获取您需要的智能文档处理软件解决方案
参考文献
无论您身处哪个行业,您的企业都可能面临文件管理问题,例如从财务报告传输数字或接收各种文件布局时出错。起初,自动化它们似乎是不可能的。
但是,最先进的人工智能、自然语言处理和计算机视觉已经发展到可以自动化解决此类难题的地步,现在这些难题既可靠又实用。
本文向您介绍智能文档处理 (IDP)、它在不同行业的应用,以及我们每天用来自动化文档处理的各种框架。
IDP 是一种基于人工智能的自动化技术,可以从任何数字、手写或印刷文档中提取有用信息。通过混合使用机器学习领域计算机视觉和 NLP,管道学习非结构化文档的各种关键细节以处理信息。
为什么需要它?商业文件面临几个耗费时间和金钱的问题:
- 多种多样的布局:文档有表格、图像、不同的部分和更多的数据差异,这使得自动化更具挑战性。
- 图像分辨率或扫描质量差:文档中存在各种噪音,这些噪音可能来自扫描文档、拍照或低质量的 PDF。
- 存储在纸上的过时文件(例如,土地所有权、法律文件)
- 重要的手写细节(例如法庭记录、发票帐号)
- 某些文档类型(法律、财务)需要对该领域有专业的了解。
- 手动文档处理速度慢且经常有重复性任务。
IDP 是自动处理此类文档的强大解决方案,具有高可靠性和准确性。
让我们来看看 4 个独特的用例,它们说明了 IDP 软件在不同行业中的实际优势。
1. 法律协议处理
法律服务协议由律师处理和审查关键信息(服务条款、付款金额、当事人信息),以及卖方或买方的风险管理。律师的高级审查可能需要一个小时,而详细审查可能需要几个小时。
企业可以使用智能服务协议处理减少法律审查的时间和成本。该管道可以在 30 秒内将一份 30 页的协议总结为几句话,同时保留具有法律意义的关键句子。它使用大型语言模型的文本摘要功能来做到这一点。
2.发票和收据处理
每个企业(无论大中型还是小型)都需要处理发票和收据,以实现应收账款和应收账款流程的自动化。但手动和基于模板的方法都面临着几个挑战——它们耗时、成本高、布局多样性存在问题,或者包含太多使处理更加复杂的背景噪音。
相比之下,利用自定义深度学习管道的智能自动发票处理每张发票仅需三秒,与手动处理相比,每张发票的处理成本最多可降低 85%,并实现了巨大的数据差异覆盖。
3.简历处理&信息提取
我们用于上述文档处理工作的相同深度学习框架可用于从简历中提取关键实体。我们可以从任何简历格式到工作经历、姓名、技能、证书等字段的结构化 JSON,准确率为 92%。
我们使用来自最常见来源(例如 linkedin 和 Google Docs)的简历格式以及具有更高方差和更多字段的自定义多列示例来训练此文档处理框架。现代智能文档处理管道不使用基于旧学校规则或基于模板的系统,这使我们能够随着时间的推移轻松扩展到新的简历来源。
从输入的简历和识别的文本到带有嵌套部分的提取字段。
非结构化数据到易于使用的 JSON 字段,可让您跳过手动数据输入
4.法律文件处理
法律文件的封面包含重要信息,如原告、被告、律师、法官的姓名和案件日期。手动审查并将它们传输到案例管理系统可能需要数小时的手动工作。
但通过应用智能法律文件处理,律师事务所和法院可以节省每份文件的工时。您可以从州和联邦法院的封面页中提取数据,因为我们已将数据方差扩展到 60 多种常用的不同格式。即使是像加利福尼亚州这样有多个框和西班牙语文本的困难封面也可以处理并格式化为结构化数据。
智能文档管道由五个阶段组成:
- 数据抓取
- 文档理解
- 信息验证和评估
- 信息存储
- 流程整合
在接下来的部分中,我们将深入探讨每个阶段。
在数据捕获和输入处理阶段,接收到一批文档并通过预处理模块。一个好的 IDP 解决方案应该能够接收和处理大量文档。
这些文档可以有多种格式,来源多种多样:
- 来自 Microsoft Office 或便携式文档格式 (PDF) 等数字格式的文档或内容管理系统
- 作为电子邮件附件
- 作为打印输出、传真或邮寄的纸质文档,应扫描成图像格式
该模块包含降噪和文档增强模型的组合,用于改进下游文档处理模型的结果。
文档理解 (DU) 是 IDP 最重要的阶段,在此期间从文档中提取有用的信息。它涵盖以下任务:
- 文本提取
- 布局分析(以任务为中心的相关数据的位置理解)
- 文件分类(例如,将文件识别为保险索赔或法庭记录)
- 数据提取为字段和值
- 命名实体识别
- 长篇文本摘要
与基于模板的处理方法不同,IDP 旨在实现对文档的完全自动化、深入的理解。它通过对上述所有任务广泛使用深度学习来实现这一目标。这就是为什么典型的 IDP 管道可能有许多 DL 模型,每个模型都针对特定任务进行训练。
在深入研究文档理解的步骤之前,我们将首先介绍其中一些模型及其术语。
深度学习模型和术语概述
让我们首先回顾一下您将在本文其余部分遇到的一些 DL 模型和术语。
视觉语言模型
尽管文档文本是 DU 的主要信息,但文本片段的视觉提示——它们的位置、形状或边界——对于正确性至关重要。许多 DU 模型同时检查两种模态——文本和视觉——使它们成为多模态视觉语言模型。
Transformer
Transformer 架构(来源:Vasvani 等人)
变形金刚是神经网络的一个家族。由于它们接受一个输入序列并产生另一个序列,因此它们被称为 seq2seq 模型。
变压器网络由编码器或解码器块或两者组成。编码器接受一个序列并产生一个嵌入向量。然后解码器读取嵌入以生成输出序列。
由于它们的可扩展性和嵌入短程和长程上下文的能力,transformer 比循环网络等旧的 seq2seq 模型更受欢迎。大多数最先进的视觉语言模型都是作为转换器实现的。
BERT
Bidirectional Encoder Representation from Transformers (BERT) 是一种预训练的转换器模型,在自然语言处理 (NLP) 中很受欢迎。它仅包含一个编码器块。
GPT-3
GPT-3 是一种基于转换器的大型语言模型,已在各种在线文本数据集上进行训练。GPT-3是纯NLP模型,不接受任何视觉特征。与可以在基础设施上运行的 BERT 模型不同,GPT-3 是OpenAI 的托管应用程序编程接口(API)。但是,尽管它是一个 API,但它允许您使用自定义数据对其进行微调。
卷积神经网络
卷积神经网络 (CNN) 用于计算机视觉任务,例如对象检测。他们接受图像并且只处理视觉特征。尽管 ResNet 和 EfficientNetV2 等 CNN 仍然很受欢迎,但视觉转换器正在慢慢取代它们。
完成此概述后,我们现在可以探索 DU 管道的步骤。
1. 处理文档的文本提取方法
一些文档格式存储文本以便于提取。但其他人,如图像,需要从其布局中识别文本。为此,我们使用两种广泛的方法。
光学字符识别 (OCR)
传统的 OCR 方法(来源:G. Kim 等人)
这是传统的方法。首先,文本检测 CNN 识别带有文本的矩形区域。然后 OCR 模型识别每个区域中的每个字符。
由于仅使用视觉特征的 OCR 容易出现错误识别,因此首选方法是将它们与语言模型的特征结合起来,以避免识别出在其周围文本中不太可能出现的字符。LayoutLMv2是这种方法的最新示例。
无 OCR 方法
OCR-free document understanding transformer(来源:G. Kim 等人)
一种较新的无 OCR 方法使用转换器将视觉特征直接映射到文本序列,而无需生成文本区域和字符类等中间数据。
文档理解转换器(Donut) 使用这种方法。它由一个编码器和一个解码器块组成:
- 编码器是在IIT-CDIP等数据集上训练的视觉语言模型。给定输入图像,它会在内部识别文本并生成嵌入。
- 解码器是另一个针对所需任务进行微调的转换器。它解释编码器的嵌入以生成相关的输出序列作为结构化文本。
例如,如果下游任务是文档分类,则解码器会生成“<classification><class>court-record</class></classification>”作为其输出序列。
这种方法的好处是训练更容易、更快速,因为它的参数比基于 OCR 的模型少得多。其报告的准确性也更高。
2. 文献分类与布局分析
一些文件,如发票,有多种布局。人们可以毫不费力地处理这些变化,因为我们结合了视觉线索、位置、周围环境和我们的语言知识来理解它们。
为了获得准确的 DU,深度学习模型必须复制这种人类理解。如果它将文档分类为发票,它应该将表格中的文本识别为可能的行项目。如果它是一个表单,框内的手写文本可能是字段的值,而相邻的框可能是字段的名称。
与 OCR 方法一样,布局分析可以是显式的也可以是隐式的。一些管道明确地使用单独的模型来做到这一点——一个用于表格检测,一个用于字段检测,另一个用于文档分类,等等。
其他模型,例如我们已经看到的模型——LayoutLMv2 和 Donut——是端到端的管道,可以隐含地理解文本片段的相对位置。
后者的编码器隐式区分表格内的文本、框中的文本和自由文本,因为它们周围都有不同的视觉特征。同样,表格上的自由文本与法庭记录上的自由文本具有不同的视觉特征。由于为它们每个生成的嵌入是不同的,因此它们的解码器也可以毫不费力地生成不同的输出序列。
3.信息提取建立自动化文档处理
信息提取识别文档中的有用信息,并用正确的字段名称标记它们。例如,如果表单有一个邮寄地址字段,它会将相邻框中的文本标识为邮寄地址。
Donut 的解码器等模型使用合并收据数据集等数据集针对此任务进行了微调。微调后,它可以识别嵌套组中的信息,以从收据中生成诸如“<items><item>{name, count, price}</item></items>”之类的序列。同样,自定义字段也可以通过微调来识别。
或者,我们可以使用 GPT-3 来提取数据。
4.命名实体识别(NER)
NER 根据周围的文本识别人名、地名、公司名、药品名等。
NER 模型是使用标记数据集和预训练语言模型(如 BERT)训练的 seq2seq 模型。当它在输入序列中发现命名实体时,它会将其实体名称包含在输出序列中。但一个缺点是,如果你想要一个新的实体,你必须更新你的训练数据集并重新训练整个模型。
相比之下,GPT-3 的任务不可知知识允许动态NER。如果您为所需的实体发送正确的提示,GPT-3 将在您的文档中选择它们。这允许您在不完全标记文档集和设置特定标签的情况下扩展 NER 管道。
5.自定义文档数据微调
早期管道很难正确处理新类型的文档。您几乎总是希望使用特定于您的用例的自定义数据集对其进行微调。
像 Donut 的解码器这样的端到端模型微调起来更容易、成本更低,因为您只有一个模型在管道中。或者,您可以根据自定义数据微调 GPT-3。
另一种好方法是使用能够进行少样本学习的模型。例如,不使用 BERT,而是使用 SBERT。
6. 其他常见任务
除了上述任务外,DU 中其他常见的任务还有:
- 关键字和关键短语检测
- 长篇文本摘要
- 情绪分析
评估提取信息的正确性和质量对于业务运营至关重要。否则,未被发现的发票欺诈、不良贷款或不利的合同条件等严重问题可能会毁掉您的业务。
验证是使用多种技术完成的:
- 每个模型都应该生成特定于任务的指标,例如置信度分数和 F1 分数。应根据已处理的文档编号记录它们。如果模型得分太低或失败,则该文档应存储在失败队列中以供人工分析。
- 如果有很多指标,通过将它们组合成一个指示整体质量的单一总分,使它们易于理解。
- 用户应该评估诸如摘要之类的任务,这些任务涉及对结果的主观看法。使用RankME等工具收集用户的反馈并调整管道。
- 您可能需要人在回路工作流来自定义数据标签和评估模型的微调。
- 根据外部来源验证提取的数据(例如,验证贷款申请中的地址和电话号码是否是假的)。
提取的信息通常导出为 Javascript 对象表示法、PDF、Excel 或报告等格式。
此外,根据您的业务需求,IDP 将提取的数据存储在各种目的地:
- 亚马逊 S3
- 数据库
- 数据仓库或数据湖
- 第三方系统,如企业资源规划 (ERP)、案例管理或客户关系管理 (CRM) 系统
IDP 管道始终是一些更大的业务流程的一部分,可能涉及:
- 授权员工的批准(例如,批准高价值发票)
- 电子邮件和其他沟通渠道
- 商业智能和数据科学团队的数据分析
- 报告生成
- 签名
- 一般业务系统,如 ERP、会计、人力资源管理或 CRM
- 特定于行业的系统,例如案例管理、核心银行业务或医疗保健信息系统
- 现有的机器人流程自动化 (RPA) 系统
一个好的 IDP 解决方案可以与您现有的业务工作流程和业务系统无缝集成,以简化它们。
在本文中,您探索了 IDP 的用例和内部结构。您是否有兴趣使用 IDP 解决方案简化您的业务流程?或者从您的纸质和电子文档中提取见解?或者,您可能受困于遗留文档并正在寻找可靠的数字化转型。
1.Attention Is All You Need
2.OCR-free document Understanding Transformer
3.CORD:用于后 OCR 解析的综合收据数据集GitHub - clovaai/cord: CORD: A Consolidated Receipt Dataset for Post-OCR Parsing
4.RankME:NLG 的可靠人类评级
GitHub - jeknov/RankME: The dataset and code released with the submission of NAACL 2018 paper "RankME: Reliable Human Ratings for Natural Language Generation"