您当前位置:主页 > 操作技巧 >

金鸣识别数据集构建技术的大致步骤

时间:2023-06-25

金鸣表格文字识别系统图片

金鸣表格文字识别系统(简称金鸣识别,下同)中的图片转excel表格是大伙非常熟悉的一项功能了,之前我们介绍了一些ocr前期图片处理的技术,其实要将图片上的表格识别出来,前期的图片处理和ocr技术是远远不够的,我们还需要用到数据集构建技术,那么,它的实现大致步骤是怎样的呢?

1. 收集数据:收集包含表格的图像或pdf文件(图片型pdf)。金鸣识别会首先从公共数据集中获取,如icdar产生的和coco-text等,其次也会自行收集大量的不同类型的带表格的图片,包括有表格线和无表格线的。

2. 标注数据:对于每个图像或pdf文件,需要手动标注表格的位置和单元格的边界框,这个过程可能会比较繁琐,但为了获得更准确的识别率和更好的表格识别效果,这一步又是必不可少的。可以使用的标注工具有labelimg、vgg image annotator等。

3. 数据清洗:金鸣识别会对标注不准确或不完整的数据进行清洗,以确保数据集的质量,为后面的处理提供高质量的数据支撑。

4. 数据划分:将数据集分为训练集、验证集和测试集。通常采用80/10/10的比例。

5. 数据增强:对于训练集进行数据增强,金鸣识别会使用旋转、翻转、缩放等技术,以增加数据集的多样性和数量。

6. 数据格式转换:将数据集转换为模型所需的格式,如tfrecord、coco等。

7. 数据集评估:使用评估指标,如准确率、召回率、f1值等,对模型进行评估。

以上是金鸣识别构建数据集的大致步骤,由于数据集的质量对训练模型的性能有很大影响,因此金鸣识别每天都需要花费了大量时间和精力去不断地完善。

 

点击在线客服     Copyright © 深圳市金鸣科技有限公司    粤ICP备17115101号-1     金鸣表格文字识别,公安备案

粤公网安备 44030702001395号

金鸣识别智能体
Icon
金鸣表格文字识别助手
人工智能识别准 | 批量合并更便捷
欢迎您!我是基于百度文心一言大模型的金鸣识别智能体,请说出您遇到的问题。
正在思考,请稍候.....