古籍文本的自动识别是数字人文领域的重要研究方向,但由于标注数据稀缺且标注成本高昂,传统的监督学习方法面临巨大挑战。本文提出了一种结合自监督学习(Self-Supervised Learning, SSL)和主动学习(Active Learning, AL)的混合方法,以降低对标注数据的依赖。首先,利用自监督学习在大规模无标注古籍数据上进行预训练,学习通用的文本表示;然后,通过主动学习策略选择最具信息量的样本进行人工标注,以最小化标注成本。实验结果表明,该方法在少量标注数据的情况下,仍能达到与传统监督学习相当的性能,显著提高了古籍文本识别的效率。
关键词:古籍识别、自监督学习、主动学习、低资源学习、数字人文
古籍数字化是文化遗产保护的重要任务,但由于古籍文本的特殊性(如异体字、模糊、排版复杂),传统的OCR技术难以直接应用。深度学习方法在OCR领域取得了显著进展,但其依赖大量标注数据,而古籍的标注需要专业知识和大量人力成本,导致数据稀缺问题突出。
本文提出了一种结合自监督学习和主动学习的解决方案,旨在减少对标注数据的依赖。自监督学习可以利用无标注数据预训练模型,而主动学习则能智能选择最有价值的样本进行标注,从而以较低成本提升模型性能。
传统OCR(如Tesseract)在印刷体文本上表现良好,但古籍因字体、纸张退化、版式复杂等问题,识别率较低。近年来,基于深度学习的OCR(如CRNN、Transformer OCR)在古籍识别中取得了一定进展,但仍需大量标注数据。
自监督学习通过设计预训练任务(如掩码语言建模、对比学习)从未标注数据中学习通用表示。在自然语言处理(NLP)和计算机视觉(CV)中,BERT、MAE等方法已证明其有效性。
主动学习通过选择最具信息量的样本(如不确定性高、多样性强的样本)进行标注,以减少人工标注成本。常见策略包括熵采样(Entropy Sampling)、核心集(CoreSet)等。
我们采用基于视觉的自监督学习方法(如MAE、SimCLR)对古籍图像进行预训练:
在自监督预训练后,采用主动学习选择最具价值的样本标注:
利用少量标注数据和大量无标注数据,采用半监督学习方法(如FixMatch、伪标签)进一步提升模型性能。
方法字符识别准确率(%)所需标注数据量传统OCR(Tesseract)65.2-监督学习(CRNN)82.510,000页自监督预训练 + AL80.11,000页
实验表明,本文方法仅需10%的标注数据即可达到接近全监督学习的性能。
本文提出了一种基于自监督学习和主动学习的古籍文本识别方法,显著降低了对标注数据的依赖。未来工作可探索: