虽然保存下来的信件总数有 1600 封

Showcase, discuss, and inspire with creative America Data Set.
Post Reply
Bappy11
Posts: 477
Joined: Sun Dec 22, 2024 9:27 am

虽然保存下来的信件总数有 1600 封

Post by Bappy11 »

图 5:上部和下部轮廓 a)、c) 以及相应的上部和下部轮廓线。b) 和 d) 中显示了生成的边界框(虚线矩形)、最小面积矩形(虚线)和建议的轮廓框(实线矩形)。请注意,轮廓框与正确的单词方向相似,同时具有最小的背景。
图 5:上部和下部轮廓 a)、c) 以及相应的上部和下部轮廓线。b) 和 d) 中显示了生成的边界框(虚线矩形)、最小面积矩形(虚线)和建议的轮廓框(实线矩形)。请注意,轮廓框与正确的单词方向相似,同时具有最小的背景。
2.2 作者识别
我们采用了 Christlein 等人的书写者识别方法。[8] 该算法在所有书写者识别基准上都实现了最佳准确率,并在使用 QUWI 数据集的 ICDAR 2015 多文字书写者识别竞赛中获胜。[9]

以下段落简要概述了该算法;有关更多详细信息,请参阅 Christlein 等人的原始著作。与典型的基于异体字的书写者识别方法[10]相比,该算法不依赖于提取 SIFT 等特征描述符的关键点位置。相反,特征描述符是从脚本轮廓密集计算出来的。轮廓是根据二值化的输入图像计算出来的。如果输入图像尚未二值化,则应用 Otsu [11]的方法。在每个位置,计算高达 11 度的旋转相关 Zernike 矩。Zernike 矩是出色的形状描述符,已在其他相关领域中使用。使用 k 均值从训练集的所有 Zernike 矩计算背景模型。在该背景模型的帮助下,数据集中每个文档的特征描述符被聚合以形成每个文档一个全局特征描述符。此编码步骤是通过计算局部聚合描述符向量 (VLAD) 来实现的。[12]为了提高准确率,这个步骤会重复多次(最多五次),并使用不同的 k-means 随机初始化。然后,将不同的 VLAD 编码连接起来,并使用主成分分析 (PCA) 联合去相关和降维(400 个成分)。

为了处理历史数据,我们修改了此方法的二值化步骤。Otsu 二值化是一种全局二值化方法。它使用图像的所有像素信息来找到将前景与背景分离的最佳阈值。但是,处理噪声数据时,全局阈值通常不是最优的。例如,非均匀照明或文件周围纸板的大量零像素都会产生非最优阈值。因此,我们采用了 Bradley 等人[13]的基于局部阈值的方法,该方法可以高效计算。图 3 显示了 Otsu 方法失败的示例图像,其中由于对比度差,许多脚本消失了。但是,Bradley 的算法成功地对输入图像进行了二值化。

3.评估
3.1 数据集 1:Clusius
克卢修斯数据集包含 1600 封写给 16 世纪最重要的植物学家之一卡罗勒斯·克卢修斯 (1526-1609) 的信件。该数据集由荷兰惠更斯历史研究所 (荷兰皇家艺术与科学学院) 提供,该研究所正在协作编辑工具 eLaborate 中创建克卢修斯信件的数字版。[14]

这些信件由 330 位不同的作者用 6 种不同的语言撰写,来自 12 个欧洲国家。这些信件的独特之处在于作者来自不同的背景,包括学者、医生和贵族,也有化学家和园丁,其中也有很多女性。这种多样性让我们得以一窥 16 世纪下半叶的语言和笔迹特征,包括克卢修斯本人清晰的拉丁文笔迹,或下奥地利贵妇几乎(对我们来说)无法辨认的维也纳方言笔迹。信件主要 奥地利电报数据 涉及植物和信息的交换,但也包括政治新闻、朋友和家人、宫廷八卦等。示例图像见图1(左)。
但只有莱顿大学图书馆保存的 1175 封信件被数字化,因此可用于实验。所有抄写员都已确定,不过有些信件有合著者,大多数贵族都有秘书。

3.2 数据集 2:Schuchardt
Schuchardt 数据集由知识网络[15]项目提供,该项目致力于论文编辑,特别是语言学家 Hugo Schuchardt (1842–1927) 的信件。

这位杰出的学者表现出了非凡的网络能力,在 77 年的时间里 (1850-1927) 给他留下了 13,000 多封来自 2000 多名个人作者和大约 100 个机构的信件。这些信件使用了 20 多种语言。[16]这些信件中值得注意的一部分保存在格拉茨大学图书馆(特藏)中,已经在Hugo Schuchardt Archiv的网站上进行了编辑,[17]还有多个版本正在进行和计划中。这里评估的数据集包含来自 193 位不同抄写员的 13,569 页单页,是 20 世纪 90 年代初由 Michaela Wolf 手动分类的信件的一小部分。[18]图 1(右)显示了一个示例图像。数据集的三个方面对于作者识别特别有用:a)大量已经识别的抄写员(尽管只选择了 Schuchardt 遗产中的一小部分材料);b)存在持续数十年的通信,因此包括单个抄写员的笔迹随时间的变化和特定区域书写系统的历史变化(例如,使用德语草书)和 c)取决于所选语言,多语言抄写员发布的文件中的图形和文字变化。
Post Reply