靓嘟嘟

当前位置: 首页 >> 旅游攻略

planets(数字资源长期保存国际项目巡礼(五):PLANETS)

2024年01月14日 靓嘟嘟 浏览量:

关注我们 - 数字罗塞塔计划 -


1、PLANETS项目概述

2006年6月,欧盟的科学家在诺克斯地堡(瑞士军方于20世纪40年代在冰天雪地的阿尔卑斯山区伯尔尼高地建造的一个军事建筑设施)创建了一个名为PLANETS(Preservation and Long-term Access through NETworked Services)的项目,位于地堡中的数据中心不仅防火防震,而且防核爆、防辐射。PLANETS项目旨在通过网络服务进行长期数据保存和获取,是由欧盟资助多个机构共同参与的一个为期四年的项目。该项目的目标是解决核心的数字保存挑战,通过开发一系列实用的服务和工具,并通过最尖端的IT技术和确保万无一失的安全保障机制,以帮助人们长期获得数字文化和科学资产等数字资源。


PLANETS项目融合了来自欧洲国家图书馆、档案馆、领先的研究型大学和科技公司等16个合作伙伴的专业知识。该项目的工作被分为六个独立的子项目,包括保护规划、保护行动、保护特征、试验台、互操作性框架以及传播和培训。2010年项目组将一个密封舱放置进了诺克斯地堡的核心部位,密封舱里保存有穿孔卡片、微缩胶片、软盘、磁带、CD、DVD、USB 和蓝光介质等载体,其中存储着来自16个合作伙伴提供的大量科学研究成果和数字文化宝藏。伴随这些电子文件存储的还有相应的文件转换工具、阅读器及各种详细描述和说明文档。2010年科学家们将密封舱放入后,预示着PLANETS项目基本完成,后续交由开放基金会(Open Planets Fund,OPF)维护和开发,这是一个独立的、非盈利的组织。OPF成员共同承诺确保长期获取数字内容,提供托管访问服务、技术支持和培训,他们还将通过开源社区来协调PLANETS服务、工具和技术的开发。


数字资源长期保存国际项目巡礼(五):PLANETS


2、PLANETS数字保存解决方案

PLANETS认为,数字保存分为主动保存被动保存两大类。其中被动保存旨在通过多个备份来保存数据,它确保了数据被保留,但是,信息技术的发展速度已经远远超过了数据存入的速度,由于系统经常被替换,格式不断变化,这种方法不能保证数据在将来是可读的或可理解的。而主动保存从被动方法开始,但可以使用常规数据迁移方法或提供仿真工具,当IT系统升级换代时就及时执行迁移、转换等操作或者提供仿真工具,以确保在必要时可以读取、访问和理解数据。


在实际操作过程中,由于主动保存的方式比较复杂,而且执行过程中可能还会存在一定的风险,所以,大部分的数据保存机构依然采用被动保存方式为主,他们仅仅是把数字保存视同为“数据存储”。但是PLANETS发现,不同行业对待这一问题的态度存在差异:对于企业而言,重点是数据存储和即时获取;对于政府及公共部门,则需要积极保存和长期获取。


毫无疑问,PLANETS倾向于主动保存,通过提供一种可扩展的集成框架来满足从保存计划到行为实施再到评估验证的一系列服务,朝着先进、集成和自动化的关键数字保存过程的目标迈进:提供对保存规划工具的访问,并允许用户在受控环境中对样本数据进行测试,用以评估保存活动的可行性;提供数字保存工具来执行迁移和转换,并覆盖数字资源的广泛格式;为规模较小的机构提供在线数字保存服务,以降低这些机构用于数字保存的投入成本;建设数字保存社区并提供培训指导服务,让保存机构深入了解数字保存的整个过程,并扮演相应的角色进行操作模拟。


PLANETS数字保存解决方案框架如下图所示:

数字资源长期保存国际项目巡礼(五):PLANETS


01保存计划(Preservation Planning)

保存计划定义长期保存过程中对数字对象所采取的一系列保存行为。保存计划考虑政策、法律、组织和技术限制、用户需求、保存目标等因素,描述保存语境,评价保存策略并判断结果。


PLANETS提供Plato工具用于执行保存计划,Plato工具由项目成员维也纳技术大学开发,是基于Web的判决支持工具,其通过严格体系化的过程来定义和优化保存需求,比较可用的保存策略和行为,并从众多保存策略中辨别出最佳策略,帮助用户生成和评价保存计划并定义保存行为。Plato工具定义了包括定义需求、评价备选方案、结果分析和建立保存计划4个部分的保存计划工作流,如下图所示:


数字资源长期保存国际项目巡礼(五):PLANETS


02内容特征化(Content Characterisation)

在处理长期保存的内容时,需要认识并理解信息对象,确保信息对象在处理过程中不被破坏。在保存文件过程中,需要将不适合长期保存的格式转换为合适的格式,并且保存与文件格式相关的元数据。


PLANETS成员单位科隆大学(UzK)工作组开发了可以比较不同格式文件特性的技术。这种方法建立在基于XML的语言——可扩展特征语言(XCL)的基础上。XCL包括可扩展特征定义语言(XCDL)可扩展特征提取语言(XCEL)。XCEL以机器可读的方式描述文件格式的结构和意义,任何可读格式的说明都可以转换成XCEL描述,其可以被提取器解析,进而分析这种格式的对象。XCDL提供文件的摘要描述,在XCEL的帮助下,提取器能够解析某一格式的文件且为这些文件生成XCDL文件,用于概要地表达包含在数字对象中的各种信息。


从数字对象提取描述信息是有用的,但还不够。不仅每个文件格式的编码信息不同,而且它们的属性意义之间还存在很大差异。例如,一种格式可用像素表示图像宽度,而另一种格式可以使用米来进行度量。为了跨文件格式比较特征,UzK提出了XCL本体(XCLOntology)的概念,其定义了文件格式属性以及它们之间的关系。XCL本体通过关联文件格式属性到一组基本信息的方式实现不同格式文件之间的比较。XCL语言所有组件之间的关系如下图所示:


数字资源长期保存国际项目巡礼(五):PLANETS


03保存行为(Preservation Action)

保存行为是PLANETS数字保存解决方案的核心,迁移和仿真是最常见的保存行为。PLANETS对现有保存行为工具进行评估,鉴别出适合封装在PLANETS中的工具,将其打包在PLANETS中并通过PLANETS服务的方式推出。同时,PLANETS开发新的解决方案来填补现有工具的空白。


PLANETS中打包的文件格式迁移工具如下表所示:


数字资源长期保存国际项目巡礼(五):PLANETS


04互操作框架(Interoperability Framework,IF)

尽管很多工具可以满足特定的保存任务,但这些工具通常不能被“转移”到其他环境中。PLANETS提供一种面向服务的架构,通过IF将工具从其原始执行环境解耦,同时允许现有组件的再利用,IF将来自数字保存领域各个方面的工具和服务统一到一个保存系统。


PLANETS框架是可扩展的,开发者或解决方案提供者可以测试自己的工具且通过标准接口将它们集成到PLANETS。一旦封装到PLANETS服务中,各种操作功能(保存计划、保存行为、特征化)将高度可互操作,且不再作为孤立的软件组件存在。


数字资源长期保存国际项目巡礼(五):PLANETS


05实验平台(TestBed)

当对数字保存执行进行科学研究、在多样化的“真实世界”中评价保存方法时,需要一个专用的研究环境来系统地执行实验,这就是实验平台,它是一种用于实验和评估的受控环境,具有允许进行工具和策略比较的度量和基准。


PLANETS将每个实验提炼为必须遵循的6个关键步骤:


数字资源长期保存国际项目巡礼(五):PLANETS


a)定义基本属性

定义名称、目的、参与者、范围、工具类型、对象类型、方法等;

b)设计实验

定义实验的类型,包括迁移、特征化和工作流,指定特定的工具和专门的数据;

c)指定资源和结果

估计输出文件的数量和计算机资源需求,指定用于实验的基准目标;

d)执行/不执行判断

基于估计的系统需求、所需存储能力和处理器时间的可用,由试验平台管理员做出判决;

e)运行实验中

以业务处理执行语言(BPEL)工作流执行实验,由互操作框架的工作流执行引擎进行处理,并呈现状态报告;

f)评价实验

呈现输入和输出数据并评价基准目标。


3、项目总结

PLANETS项目联合欧洲范围内有影响力的单位来共同面对数字资源长期保存所面临的挑战。PLANETS提供数字保存的集成方法,帮助用户定义数字保存目标和政策、理解资源集合的特性、将不满足要求的格式对象转换成期望的格式、在遗留的操作系统中运行软件。PLANETS提供一种可扩展的集成框架来满足从保存计划到行为实施再到评估验证的一系列服务。


由于数字信息存储对软硬件设备的依赖性,PLANETS项目除了保存大量的电子文件之外还需要针对每类文件准备专门的阅读器、说明文档和文件转换工具用于解读。通过这个项目,科学家们想给未来的研究人员永久保存一些可以用来重建和拯救我们历史的有用资料,以延续人类文明的火种。这与数字罗塞塔计划的使命完全一致。


数字罗塞塔计划是由杨安荣博士联合国内知名投资机构发起的一项利用蓝光存储、数字胶片、玻璃存储等技术,旨在解决电子档案乃至数字资源长期保存的国产化替代科技攻关工程项目,以实现“保存社会记忆,传承人类文明”的最终目标。

关注我们 - 数字罗塞塔计划 -

  • 友情链接
  • 合作媒体