KV结构模板-用户白皮书

产品介绍

KV结构模板是阿里读光OCR提供的一款用于对关键要素进行定向提取的自定义模板产品,主要针对文档、表单、票据、卡证等类型的图片。 用户可以使用KV结构模板对图片进行模板配置和数据标注,经过训练、评测和发布后,可获得对应的模板ID,并使用API接口批量调用同类图片来进行关键要素的key-value键值的结构化输出。

产品范围

适用于相同类型的图片,即图片版式基本保持一致。 图片版式差别较大的(如各个医院的医疗发票)不在KV结构模板的产品范畴内。

产品亮点

KV结构模板的产品亮点:

  1. 基于专家规则和深度学习的可视化模板产品
  2. 小样本模型训练,保障识别率的同时降低用户成本
  3. 用户参与式全模板配置过程,实时数据反馈与效果评估
  4. 模板可用性高于80% (可用性指标为KV字段识别率/OCR识别率,是衡量模板有效性的指标)

产品步骤

KV结构模板的使用步骤主要分为如下几步:

  1. 模板配置。通过对一张具有代表性的图片进行key/value的规则属性配置,形成初始化的模板;作为配置的图片最好选择清晰、无遮挡、无反光的图片更有利于模板的配置。

image.png

  1. 创建数据集。通过标注相同类型的图片进行模板的数据训练,因此第二步需要创建数据集,并上传至少30张同类图片作为训练集,上传至少10张图片进行测试集。上传图片后,分别对上传的图片进行标注,通过标注训练图集上的value值,形成一批可用的训练数据。这些已标注好的数据会按比例分成训练数据和评测数据。

image.png

  1. 模板训练。模板训练是基于深度学习算法进行的机器自学习过程,系统会根据标注数据自动强化模板的识别率,提高模板的容错性。训练集的数据越多对模板训练的效果就越佳。训练是个反复的过程,可以分多个批次进行训练,每个批次建议上传更多的图片进行标注以达到自学习的目的。

image.png

  1. 模板评测与发布。模板评测是用于对经过训练的模板进行效果评测打分的步骤。在每个训练批次中可实时查看效果评估对比。评测指标分为OCR识别率和KV字段识别率,OCR识别率是文字本身的识别效果,KV字段识别率是指模板在评测过程中所有字段的平均识别结构。通常情况下,KV字段识别率/OCR字段识别率>90%,是较为可用的状态,当然用户可根据自己的标准进行效果评估。根据评测结果,用户可以选择最为理想的训练版本作为发布版本,并发布上线。发布成功后即可获得模板ID,使用对应的API接口,即可调用该模板进行批量识别。

注意,已经发布的模板无法继续进行迭代训练,建议当识别率满足预期后再进行模板发布操作。
image.png

  1. 模板分类管理。 若您对多个模板有自动分类聚合的需求,可以创建分类管理器,添加已经发布了的模板,系统可进行自动判断识别属于哪个模板,并调用对应的结构化接口进行识别。 同时,你也可以选择系统模板,当遇到命中系统模板的卡证时,无需配置即可享受系统模板的结构化识别结果。

image.png

名词解释

名词解释说明
固定格式模板指图片中的Key的名称、key之间的空间位置相对固定的。如新版营业执照、增值税发票、身份证这类。
多样式模板指图片中key的名称、key之间的空间位置关系差异较大的,即属于多样式模板。如各个医院的医疗发票、全国各地的房产证等。此类图片不适用于KV结构模板。
模板图片模板图片是首张用于配置的示例图片,模板图片需要确保字迹清晰,图像端正、无遮挡。
keykey是图片上所需的关键键值的名称。如身份证中,“姓名”为key。
valuevalue是所选的key对应的字段值。如身份证中,“支小宝”就是value。
value属性value属性是系统根据文字的实体信息给出的属性值,会有一些纠错的逻辑。目前value属性值包含常见的8大属性集合。
标注数据标注数据是指将图片上的文字通过标注的方式人工记录下正确值。 用户可使用框选更为便利地帮助标注工作。
识别质量分识别质量分是指根据文字识别的结果倒推判断图像质量的行为。低质量分的图片可认为识别质量较差,不利于进行模板训练。因此尽量选择高质量图片进行数据标注(质量分>=70分)。
OCR识别率具体某个字段纯OCR识别的结果在该字段检索中的文字匹配率(用于验证底层ocr效果好不好)
KV字段识别率指由模板识别的结果与用户录入的结果进行比对,正确图片的数量/所有图片(用于验证模板配置的效果)
模板可用性指标通常若KV字段识别率/OCR识别率>80%,则认为模板配置可行


具体操作

F44708D2-640D-43B6-ADCE-9754C7983CF1.png

首次体验的用户,可以下载体验包的虚拟数据进行产品的流程体验。

1. 模板配置

在进行KV结构模板的模板配置前,需要先明确本次所需配置的模板是属于固定格式模板还是多样式模板。若为固定格式模板,则选取一张字迹清晰、图片端正的主图作为模板图片。主图图片格式可以为png,jpg,jpeg等图片格式,大小不超过4M,最长边不超过4096像素。
image.png


上传好后即进入模板编辑页面,此时需要配置在该图中所需的字段组合在图片中的key和value分别对应的位置,并框选出来。以营业执照为例:


image.png
说明:

  1. 首先上传完模板图片后,系统将根据图片的文字内容自动提取可能的key值字段。自动提取的key值同时也将在图片中高亮框选出来,您可检查自动提取的key是否正确,若不正确或缺失,进行修正即可。
    1. 如果您所配置的字段有其他别称,可在别称处进行补充。 如在个别营业执照中,法定代表人的别称叫“负责人”,则可将负责人的别明补充在key值下方。
  2. 使用框选的时候,点击右边部分的框选按钮即会触发左侧的框选锚点。通过框选后,系统将自动填入到所选的字段中。若自动识别错误,用户可点击编辑按钮进行文字更正。
  3. 存在图片中没有key,但有value的情况(如标题字段),则需要在key中填写“标题”,并勾选右上方

image.png

  1. 框选value后,系统会自动选择value对应的常见属性。若没有自动判定,且该value字段有其一定的规律性(如可枚举)则可选择自定义属性。 自定义属性可以直接进行枚举,用回车符区分。或者直接上传已写好的枚举类型文件(文件格式为txt,用换行来区分每一个枚举值)

屏幕快照 2020-04-17 下午6.01.10.png

  1. value属性系统将给出常见的默认属性值,包含如下八类:
    1. 姓名(指代个人类的姓名)
    2. 组织(指代企业类的组织名称)
    3. 地址
    4. 民族
    5. 性别
    6. 日期
    7. 身份证号码
    8. 金额
  1. value有时候会有多行的情况,因此在配置的时候需要充分考虑可能的情况,常见的地址、经营范围类可能都会在不同图中出现多行。针对这类的字段,需要用户给出最多可能多少行的设置值。

image.png
如图中经营范围显示4行,但根据经验可能最多有5行,因此右边配置上可能出现最多行数的可能。

  1. 需要声明的是:
    1. 使用KV结构模板至少需要标注4个有效字段
    2. 配置完后检查是否将所有字段已经配置到位
  2. 当所有步骤都完成后点击创建模板即可创建出一个初始模板啦~

image.png

2. 数据集与数据标注

数据集是为了进行模板的训练和评测使用。而有效的数据集需要对上传的图片进行一一标注,形成有效标准数据才能够投入训练使用。进入数据管理点击创建数据集,并选择相同类型的图片数据(建议至少30张图)
image.png


上传数据图片后,需要关联模板进行预识别。
屏幕快照 2019-07-26 下午3.10.32.png


创建成功后,系统会将用户配置的模板进行预填入。用户需要仔细核对数据的准确性并进行修正。可通过框选的形式进行修正,若框选还不正确点击编辑按钮进行手动修正。 因为是标注数据,所以用户需要仔细核对标注的结果与图片文字一致,这一步将直接影响数据训练的准确度和统计的准确率。

image.png**
当标注一致后点击“确认标注正确”,自动进行下一张图的标注


若遇到图片质量特别模糊或者与该模板不一致的图片,建议直接删除
image.png


标注完训练图片后,继续标注测试图片,所有标注完成后,可在模板管理中发起训练版本。
image.png

3. 模板训练

当可用的标注数据量达到一定值后,可回到模板管理页面进行模板的训练,点击训练按钮,并创建第一个训练批次。
image.png
等待几分钟训练时间后,系统将执行评测统计,并返回该批次的评测结果。
image.png


点击查看详情,可以查看具体识别错误的图片内容。
image.png


通常首次训练与用户配置的模板关系较大,如果发现模板配置有明显错误(如属性填写错误等)可重新编辑模板,并在数据集中上传图片后多训练几个批次,在这个过程中完成机器自学习的过程。
image.png
添加数据并进行标注后,新的训练版本会对所有的图片进行重新训练,是覆盖式训练。
每个版本都会直观地给出与上个训练版本地增长或者降低情况,您可根据需求选择满意的模板效果进行发布。

4. 模板评测与发布

通过训练的详情页可以看见每个批次的效果增长情况,用户可以选择效果满意的模板进行发布。
image.png
发布成功后,可通过公有云api进行500次免费调用。 若批量调用测试成功,可导出模板并联系读光团队进行线下模板API服务的提供。

5. 模板自动分类

若,您通过KV结构模板配置了多个模板,并且希望这多个模板可以统一一个接口调用,并且自动进行分类后的结构化识别,您可以在模板发布后实用模板分类器功能。 目前的模板分类器建议适用于10个以内的模板组合,过多模板会影响性能和分类效果。
image.png
image.png
创建完成后,即可进行模板分类测试。(支持已发布的自定义模板,也支持系统模板)
image.png
image.png
若分类效果满足预期,可以发布分类管理器,调用对应接口即可享受多个模板自动分类的效果。


注意:分类管理器发布后允许编辑,编辑后可重新发布,但会替代到已有的分类内容,建议进行充分测试后再进行发布。


公有云接口调用文档:
https://market.aliyun.com/products/57124001/cmapi032070.html?#sku=yuncode2607000001