2.2 数据集成
与通用搜索对查询所选集合组成的动态、结构化适应相比,数据集成解决方案通常旨在整合先验定义的数据源选择。[6]跨收集集成的要求主要取决于所追求的研究问题,例如:例如,这可以在用新开发的系统替换系统的背景下发生,也可以在扩展现有分析和可视化解决方案的数据库时发生,例如 DARIAH-DE Geobrowser [7]。在数字人文学科的整体背景下进行数据集成时,使用中央集成方案或中央本体会导致问题,尤其是当需要为具体的研究问题总结特定选择的集合时。例如,如果整合来自考古和艺术历史背景的收藏品,与无法体现特定主题特征的全局结构相比,特定数据结构的直接整合将导致信息内容的增加。
3. 联邦架构
DARIAH-DE 中选择的架构(图 1)包括用于记录集合的 Collection Registry、用于管理模式的 Schema Registry 和用于描述不同模式之间关联的 Crosswalk Registry。通用搜索等综合服务依赖于注册中心提供的网络服务来解释和处理来自注册集合的数据。
图 1:联邦架构的组件和交互[自己的插图]。
对于想要在联邦架构内注册一个收藏品并使其可供搜索、分析和与其他收藏品进行比较的研究人员来说,结合通用搜索,可以得出一个四步流程(图 2):
如果相应的收藏品尚未在收藏品注册表中列出,则第一步是创建该收藏品的新描述,特别是其访问服务。
在第二步中,研究人员可以描述收集中使用的模式(都柏林核 白俄罗斯电报数据 、Lido 等)或指定通用模式的具体用途(继承)。
在第三步中,以这种方式创建或调整的模式可以根据特定的研究问题(交叉表的定义)与其他模式进行迭代关联。
第四步,通用搜索根据注册表中存储的信息对集合的可访问数据进行索引,并使其可用于综合搜索查询。
图 2:注册集合和模式的步骤 [自己的插图]。
图 2:注册集合和模式的步骤 [自己的插图]。
各个步骤所产生的信息可供相关研究兴趣重复使用,并且可以通过网络服务由综合服务进行查询。
3.1 藏品登记
收藏品登记处是一个在线中央目录,其中相关收藏品由专业科学家注册和描述。收藏描述的数据模型基于都柏林核心收藏应用配置文件,该配置文件在访问点描述方面得到了特别的扩展。任意异构的资源集合称为集合,描述可用于档案和数据源技术构建的应用领域的构造。收藏本身可以直接包含资源或进一步的子收藏,并且它们可以聚合物理和数字对象或仅仅是数据。收藏描述不仅涵盖关键字、时间和地理维度,还包括收藏格式和数据维护信息。为了进行标记和地理参考,集成了各种受控词汇,例如LCHS、杜威十进制分类法、Geonames等。
重点是描述访问点,例如 OAI-PMH 接口,用于查询收集元素以供相关组件进一步处理。对于每个集合描述,可以记录多个访问点,除了访问点的 URL 之外,还可以管理更多信息,例如访问协议、可能的访问限制、OAI-PMH 子类、接口文档等。尤为重要的是,对于每个接入点,其使用的模式都是从 Schema Registry 中引用的。附加服务可以通过 Web 界面(REST)从 Collection Registry 获取访问 Collection 元素所需的所有信息。[8]
除了用于访问收藏描述的机器可读界面之外,收藏注册表还提供支持创建收藏描述和其他数据对象以及搜索、更新和删除现有描述的用户界面。选定的受控词汇支持输入,并且与 Schema Registry 的交互允许将集合描述链接到特定模式。对于长期运行,DARIAH-DE 将组织审核,以确保数据的质量。集合注册表在数据联合中起着核心作用,但也可作为搜索和管理数据集合元数据的独立服务和数据源。
3.2 Schema 和 Crosswalk 注册表
在 Schema 和 Crosswalk Registry中,描述了半结构化数据模型及其之间的关联(见图3),其主要目的是能够重用有关集合及其中管理的数据的明确专家知识。结构的规格,例如数据结构(例如 XML 模式)可以根据集合进行扩展和指定,从而保留原始数据的语义,并且可以使用最初隐含的背景知识来实现细化。
图 3:Crosswalk Registry 中的模式关联[自己的插图]。
图 3:Crosswalk Registry 中的模式关联[自己的插图]。
图 4展示了基于特定馆藏知识完善都柏林核心的方法的示例。手动建模的处理规则会产生数据集的扩展版本,可用于映射更复杂的结构。未改变的数据集可以继续使用这一事实也确保了与通用都柏林核心的兼容性。
图 4:都柏林核心收藏特定附加内容的示例 [自己的插图]。
图 4:都柏林核心收藏特定附加内容的示例 [自己的插图]。
通过集合和主题专家所使用的模式的语义关联,可以生成满足特定研究问题要求的综合观点。实现这一点的具体方式是,不关注技术驱动的集成目标,例如集成方案的完整性和正确性,而是允许对特定学科甚至冲突的关系进行建模。
对总体或具体问题的灵活适应性是通过以研究为导向的数字馆藏联合概念实现的,如图5所示:图中通过语义聚类反映了与模式和馆藏紧密相关的连贯区域,并构成了具体考虑的基础。对于跨集群视图,各个集群的重要模式(表示为S3、S5和S8)与通用模式相结合,例如: B. 都柏林核心(在图中以S10表示)是相关的。
图 5:示例中的语义聚类原理 [自己的插图]。
图 5:示例中的语义聚类原理[自己的插图]。
3.3 通用搜索作为已实现的用例
通过通用搜索, 在 DARIAH-DE 框架内实现了数据联合的用例。集合注册表中记录的集合数据根据架构注册表中解释的结构进行处理和索引。资源的异构性是在基于使用 Crosswalk Registry 搜索的集合集进行具体搜索查询时解决的。
图 6:通用搜索中的查询处理[自己的插图]。
图 6:通用搜索中的查询处理[自己的插图]。
图 6概述了查询处理和与联邦架构组件交互的过程:它始于对研究问题框架内的信息的需求 (1)。首先,根据馆藏注册表和通用搜索提供的馆藏搜索,以交互或自动方式确定要进行搜索的馆藏子集 (2)。 Crosswalk Registry 中选定集合的模式链接得越细粒度,就可以指定和执行越有差异的查询。用户可以按照自己选择的模式制定请求,该模式用作临时集成模型。然后根据相关模式信息和转换规则 (3) 重新制定查询,以便可以在管理原始模式中的数据的索引上执行 (4)。对获得的结果根据其与查询的相关性进行汇总和排序。
基于引入的联合架构和通用搜索中实现的功能,可以在所谓的用户集合的框架内编译相关集合,并以特定于内容的方式重复使用。除了在外部工具(如上面提到的地理浏览器)中查看数据之外,通用搜索还可以立即以所谓的品牌搜索的形式发布用户集合,品牌搜索是一种单独的搜索界面,可在视觉和内容方面适应特定需求。
图 7中的屏幕部分特别说明了通过配置的配色方案以及搜索和组织徽标的使用与通用搜索的视觉区别。除了视觉方面之外,品牌搜索在底层数据库方面也有所不同:品牌搜索中提供的集合反映了搜索创建者对所有搜索、分析和可视化任务所做的集合选择。
图 7:以品牌搜索形式显示的通用搜索主页 [自己的插图]。
图 7:以品牌搜索形式显示的通用搜索主页 [自己的插图]。
4. 总结
所提出的联合架构遵循数据分散集成的原则。
通用搜索可用于展示如何使用各个联合组件为跨不同异构数据集合的研究创造真正的附加值,以及如何开发集中式方法的替代方案。与领域范围内的协调相比,临时联盟可以创建单独的数据集成的可能性,这种集成基于不同学科专家的知识和协作,并且可以根据特定的研究问题供广泛的受众使用。