金鸣识别数据集构建技术的大致步骤

时间：2023-06-25

金鸣表格文字识别系统图片

金鸣表格文字识别系统（简称金鸣识别，下同）中的图片转excel表格是大伙非常熟悉的一项功能了，之前我们介绍了一些ocr前期图片处理的技术，其实要将图片上的表格识别出来，前期的图片处理和ocr技术是远远不够的，我们还需要用到数据集构建技术，那么，它的实现大致步骤是怎样的呢？

1. 收集数据：收集包含表格的图像或pdf文件（图片型pdf）。金鸣识别会首先从公共数据集中获取，如icdar产生的和coco-text等，其次也会自行收集大量的不同类型的带表格的图片，包括有表格线和无表格线的。

2. 标注数据：对于每个图像或pdf文件，需要手动标注表格的位置和单元格的边界框，这个过程可能会比较繁琐，但为了获得更准确的识别率和更好的表格识别效果，这一步又是必不可少的。可以使用的标注工具有labelimg、vgg image annotator等。

3. 数据清洗：金鸣识别会对标注不准确或不完整的数据进行清洗，以确保数据集的质量，为后面的处理提供高质量的数据支撑。

4. 数据划分：将数据集分为训练集、验证集和测试集。通常采用80/10/10的比例。

5. 数据增强：对于训练集进行数据增强，金鸣识别会使用旋转、翻转、缩放等技术，以增加数据集的多样性和数量。

6. 数据格式转换：将数据集转换为模型所需的格式，如tfrecord、coco等。

7. 数据集评估：使用评估指标，如准确率、召回率、f1值等，对模型进行评估。

以上是金鸣识别构建数据集的大致步骤，由于数据集的质量对训练模型的性能有很大影响，因此金鸣识别每天都需要花费了大量时间和精力去不断地完善。