金鸣表格文字识别系统(简称金鸣识别,下同)中的图片转excel表格是大伙非常熟悉的一项功能了,之前我们介绍了一些OCR前期图片处理的技术,其实要将图片上的表格识别出来,前期的图片处理和OCR技术是远远不够的,我们还需要用到数据集构建技术,那么,它的实现大致步骤是怎样的呢?
1. 收集数据:收集包含表格的图像或PDF文件(图片型PDF)。金鸣识别会首先从公共数据集中获取,如ICDAR产生的和COCO-Text等,其次也会自行收集大量的不同类型的带表格的图片,包括有表格线和无表格线的。
2. 标注数据:对于每个图像或PDF文件,需要手动标注表格的位置和单元格的边界框,这个过程可能会比较繁琐,但为了获得更准确的识别率和更好的表格识别效果,这一步又是必不可少的。可以使用的标注工具有LabelImg、VGG Image Annotator等。
3. 数据清洗:金鸣识别会对标注不准确或不完整的数据进行清洗,以确保数据集的质量,为后面的处理提供高质量的数据支撑。
4. 数据划分:将数据集分为训练集、验证集和测试集。通常采用80/10/10的比例。
5. 数据增强:对于训练集进行数据增强,金鸣识别会使用旋转、翻转、缩放等技术,以增加数据集的多样性和数量。
6. 数据格式转换:将数据集转换为模型所需的格式,如TFRecord、COCO等。
7. 数据集评估:使用评估指标,如准确率、召回率、F1值等,对模型进行评估。
以上是金鸣识别构建数据集的大致步骤,由于数据集的质量对训练模型的性能有很大影响,因此金鸣识别每天都需要花费了大量时间和精力去不断地完善。