首先,使用 OCR(光学字符识别)将要检查的文本转换为机器可读的格式。这一过程早已完善,可以基本实现自动化,并且根据文本模板,通常需要在可控的范围内进行手动后期处理。
注释)文本属性。这个奖项也可以通过已经测试过的程序来进行,但也需要手动添加。
一方面,注释基于计算机辅助编辑(XML、TEI)中首次使用的程序和发现。[26]此外,如果数字处理的文本还提供了用于自动查询的标签(例如词形还原、词性标签、TreeTagger、语义标签), 则可以采用计算语言学的方法(FSPar、Stanford Core NLP、CLAWS)。
另一方面,注释对应于古典的方法,并且直到最近,对古代、中世纪或现代经典的主要作品进行更为精致的文学评论(犹太托拉作为对旧约的评论;马西里乌斯·费奇诺对柏拉图的评论;薄伽丘对但丁的评论......)。这些评论 亚美尼亚电报数据 也以词形还原的方式进行;它们为个别单词或文本段落提供注释。他们的任务是利用来自其他来源的证据来突出、描述、解释、分解和阐释语言和文本的特殊性以及可能无法理解的段落。虽然最初的目的是揭示或揭示僧侣文本的“多重书面含义”,但后来的评论有助于解读复杂、混合的语言结构[27]或文本间引用[28],或保存当代读者往往已无法获得的语言文化知识。在数字注释中,解释以交叉引用的形式插入,可以作为万维网环境中的可追踪链接(参见第 7 节)。