-
1 教学内容
-
2 PPT
4.空间数据的元数据
Metadata可以译成元数据,是描述数据的数据。在地理空间数据中,元数据是说明数据内容、质量、状况和其他有关特征的背景信息。元数据并不是一个新的概念。实际上传统的图书馆卡片、出版图书的版权说明、磁盘的标签等都是元数据。纸质地图的元数据主要表现为地图类型、地图图例,包括图名、空间参照系和图廓坐标、地图内容说明、比例尺和精度、编制出版单位和日期或更新日期、销售信息等。在这种形式下,元数据是可读的,生产者和用户之间容易交流,用户通过它可以非常容易地确定该书或地图是否能够满足其应用的需要。
随着计算机技术和GIS技术发展,特别是网络通信技术的发展,空间数据共享日益普遍。管理和访问大型数据集的复杂性正成为数据生产者和用户面临的突出问题。数据生产者需要有效的数据管理和维护办法;用户需要找到更快、更加全面和有效的方法,以便发现、访问、获取和使用现势性强、精度高、易管理和易访问的地理空间数据。在这种情况下,空间数据的内容、质量、状况等元数据信息变得更加重要,成为信息资源有效管理和应用的重要手段。地理信息元数据标准和操作工具已经成为国家空间数据基础设施*的一个重要组成部分。
在地理信息系统应用中,元数据的主要作用可以归纳为如下几个方面:
1)帮助数据生产单位有效地管理和维护空间数据、建立数据文档,并保证即使其主要工作人员离退时,也不会失去对数据情况的了解;
2)提供有关数据生产单位数据存储、数据分类、数据内容、数据质量、数据交换网络及数据销售等方面的信息,便于用户查询检索地理空间数据;
3)帮助用户了解数据,以便就数据是否能满足其需求做出正确的判断;
4)提供有关信息,以便用户处理和转换有用的数据。
可见,元数据是使数据充分发挥作用的重要条件之一,它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。
4.1元数据的概念及类型
4.1.1元数据的概念
元数据是关于数据的描述性数据信息,它应尽可能多地反映数据集自身的特征规律,以便于用户对数据集的准确、高效与充分的开发与利用,不同领域的数据库,其元数据的内容会有很大差异。通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。
到目前为止,科学界关于元数据认识的共同点是:元数据的目的就是促进数据集的高效利用,并为计算机辅助软件工程(CASE)服务。元数据的内容包括:
1)对数据集的描述;对数据集中各数据项、数据来源、数据所有者及数据序代(数据生产历史)等的说明;
2)对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、元数据的比例尺等;
3)对数据处理信息的说明,如量纲的转换等;
4)对数据转换方法的描述;
5)对数据库的更新、集成等的说明。
4.1.2元数据的类型
元数据的分类研究的目的在于充分了解和更好地使用元数据。分类的原则不同,元数据的分类体系和内容将会有很大的差异。
1)根据元数据的内容分类
由于不同性质、不同领域的数据所需要的元数据内容有差异,而且为不同应用目的而建设的数据库的元数据内容会有很大的差异,所以将元数据化分为三种类型:
(1.1)科研型元数据:其主要目标是帮助用户获取各种来源的数据及其相关信息,它不仅包括如数据源名称、作者、主体内容等传统的、图书管理式的元数据,还包含数据拓扑关系等。这类元数据的任务是帮助科研工作者高效获取所需数据。
(1.2)评估型元数据:主要服务于数据利用的评价,内容包括数据最初收集情况、收集数据所用的仪器、数据获取的方法和依据、数据处理过程和算法、数据质量控制、采样方法、数据精度、数据的可信度、数据潜在应用领域等。
(1.3)模型元数据:用于描述数据模型的元数据与描述数据的元数据在结构上大致相同,其内容包括模型名称、模型类型、建模过程、模型参数、边界条件、作者、引用模型描述、建模使用软件、模型输出等。
2)根据元数据描述对象分类
(1.1)数据层元数据:指描述数据集中每个数据的元数据,内容包括日期邮戳、位置戳、量纲、注释、误差标识、缩略标识、存在问题标识、数据处理过程等。
(1.2)属性元数据:是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据字典、数据处理规则(协议),如采样说明、数据传输线路及代数编码等。
(1.3)实体元数据:是描述整个数据集的元数据,内容包括数据集区域采样原则、数据库的有效期、数据时间跨度等。
3)根据元数据在系统中的作用分类
(1.1)系统级别元数据:指用于实现文件系统特征或管理文件系统中数据的信息,如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。
(1.2)应用层元数据:指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息,如文本文件内容的摘要信息、图形快照、描述与其它数据文件相关关系的信息。它往往用于高层次的数据管理,用户通过它可以快速获取合适的数据。
4)根据元数据的作用分类
(4.1)说明元数据:是为用户使用数据服务的元数据。它一般用自然语言表达,如源数据覆盖的空间范围、源数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多为描述性信息,侧重于数据库的说明。
(4.2)控制元数据:是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和特定的句法来实现。其内容包括数据存储和检索文件、检索中与目标匹配方法、目标的检索和显示、分析查询结果排列显示、根据用户要求修改数据库中原有的内部顺序、数据转换方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。这类元数据主要是与数据库操作有关的方法。
4.1.3空间数据元数据的标准
同物理、化学等学科使用的数据结构类型相比,空间数据是一种结构比较复杂的数据类型。它涉及到对于空间特征的描述,也涉及到对于属性特征及其它们之间关系的描述,所以空间数据元数据标准的建立是项复杂的工作;并且由于种种原因,某些数据组织或数据用户开发出来的空间数据元数据标准很难为地学界所广泛接受。但空间数据元数据标准的建立是空间数据标准化的前提和保证,只有建立起规范的空间数据元数据才能有效利用空间数据。目前,针对空间数据元数据,已经形成了一些区域性的或部门性的标准*。
4.2空间数据元数据的应用
4.2.1帮助用户获取数据
通过元数据,用户可对空间数据库进行浏览、检索和研究等。一个完整的地学数据库除应提供空间数据和属性数据外,还应提供丰富的引导信息,以及由纯数据得到的分析、综述和索引等。通过这些信息用户可以明白一系列问题,如“这些数据是什么数据?”,“这个数据库是否有用?”等。
4.2.2空间数据质量控制
无论是统计数据还是空间数据都存在数据精确问题,影响空间数据精度的原因主要有两个方面:一是源数据的精度;一是数据加工处理工程中精度质量的控制情况。空间数据质量控制内容包括:(1)有准确定义的数据字典,以说明数据的组成,各部分的名称,表征的内容等;(2)保证数据逻辑科学地集成,如植被数据库中不同亚类的区域组合成大类区,这要求数据按一定逻辑关系有效的组合;(3)有足够的说明数据来源、数据的加工处理工程、数据解译的信息。这些要求可通过元数据来实现,这类元数据的获取往往由地学和计算机领域的工作者来完成。数据逻辑关系在数据中的表达要由地学工作者来设计,空间数据库的编码要求一定的地学基础,数据质量的控制和提高要有数据输入、数据查错、数据处理专业背景知识的工作人员,而数据再生产要由计算机基础较好的人员来实现。所有这方面的元数据,按一定的组织结构集成到数据库中构成数据库的元数据信息系统来实现上述功能。
4.2.3在数据集成中的应用
数据集层次的元数据记录了数据格式、空间坐标体系、数据的表达形式、数据类型等信息;系统层次和应用层次的元数据则记录了数据使用软硬件环境、数据使用规范、数据标准等信息。这些信息在数据集成的一系列处理中,如数据空间匹配、属性一致化处理、数据在各平台之间的转换使用等是必要的。这些信息能够使系统有效地控制系统中的数据流。
4.3在地理信息系统中使用元数据的原因
在地理信息系统中使用元数据,有利于空间数据的管理共享,有利于实现一些特定功能,对于地理信息系统软件的开发,可以提高开发的效率和质量。
4.3.1性能上的原因
1)完整性(Completeness)
面向对象的地理信息系统和空间数据库的目标之一,是把事物的有关数据都表示为类的形式,而这些类也包括类自身,即复杂的“类的类”结构。这就要求有支持类与类之间相互印证和操作的机制,而元数据可以帮助这个机制的实现。
2)可扩展性(Extensibility)
有意地延伸一种计算机语言或者数据库特征的语义是很有用的,如把跟踪或引擎信息的生成结果添加到操作请求中,通过动态改变元数据信息可以实现这种功能。
3)特殊性(Specialization)
继承机制是靠动态连接操作请求和操作体来实现的,语言及数据库以结构化和语义信息的相关上下文(Context)方式把操作请求传递给操作体,而这些信息可以通过元数据表达。
4)安全性(Safety)
分类完好的语言和数据库都支持动态类型检测,类的信息表示为元数据,这样在系统运行时,可以被类检测者访问。
4.3.2功能上的原因
1)查错功能(Debugging)
在查错时使用元数据信息,有助于检测可运行应用系统的解释和修改状态。
2)浏览功能(Browsing)
为数据的控制类开发浏览器时,为显示数据,要求能解释数据的结构,而这些信息是以元数据来表达的。
3)程序生成(Program Generation)
如果允许访问元数据,则可以利用关于结构的信息自动生成程序,如数据库查询的优化处理和远程过程调用残体(或“桩”,stub)生成。
4.4空间数据元数据的获取与管理
4.4.1空间数据元数据的获取
空间数据元数据的获取是个较复杂的过程,相对于基础数据的形成时间,它的获取可分为三个阶段:数据收集前、数据收集中和数据收集后。对于模型元数据,这三个阶段分别是模型形成前、模型形成中和模型形成后。
第一阶段的元数据是根据要建设的数据库的内容而设计的元数据,内容包括:普通元数据、专指性元数据;第二阶段的元数据随数据的形成同步产生;第三阶段的元数据是在上述数据收集到以后,根据需要产生的,包括数据处理过程描述、数据利用情况、数据质量评估、浏览文件的形成、拓扑关系、影像数据的指标体及指标、数据集大小、数据存放路径等。
空间数据元数据的获取方法主要有五种:键盘输入、关联表、测量法、计算法和推理法。键盘输入一般工作量大且易出错;关联表方法是通过公共项(字段)从已存在的元数据或数据中获取有关的;测量法容易使用且出错较少,如用全球定位系统测量数据空间点的位置等;计算方法指由其它元数据或数据计算得到的元数据,如水平位置可由仪器设置及时间计算得到;推理方法指根据数据的特征获取元数据。在元数据获取的不同阶段,使用的方法也有差异。在第一阶段主要是键入方法和关联表方法;第二阶段主要采样测量方法;第三阶段主要方法是计算和参考方法。
4.4.2空间数据元数据的管理
空间数据元数据的理论和方法涉及到数据库和元数据两方面。由于元数据的内容、形式的差异,元数据的管理与数据涉及的领域有关,它是通过建立在不同数据领域基础上的元数据信息系统实现的。在元数据管理信息系统中,物理层存放数据与元数据,该层由一些软件通过一定的逻辑关系与逻辑层关联起来。在概念层中用描述语言及模型定义了许多概念,如实体名称、别名等。通过这些概念及其限制特征,经过与逻辑层关联可获取、更新物理层的元数据及数据。
4.5元数据存储和功能实现
元数据系统用于数据库的管理,可以避免数据的重复存储,通过元数据建立的逻辑数据索引可以高效查询检索分布式数据库中任何物理存储的数据。减少数据用户查询数据库及获取数据的时间,从而减低数据库的费用。数据库的建设和管理费用是数据库整体性能的反映,通过元数据可以实现数据库的设计和系统资源的利用方面开支的合理分配,数据库许多功能(如数据库检索、数据转换、数据分析等)的实现是靠系统资源的开发来实现的,因而这类元数据的开发和利用将大大地增强数据库的功能并降低数据库的建设费用。
伴随着人类对数字地理信息重要性认识的加深,元数据标准化这一问题便逐渐成为共享地学信息的热点,而要研究元数据体系,则首先要对元数据的理论基础有一个正确的分析。事实上元数据标准依赖于信息共享标准的理论,它与自然科学中的许多学科都有交叉,几乎涉及数理化天地生中的所有方面,并依赖于现代科技的发展。计算机是它的基础平台,网络是它的通讯基础,没有数学模型和对各学科的综合认识,也就谈不上用遥感等技术研究地球机理。因此,从宏观角度来看,地理信息标准化涉及许多领域,似乎它的理论也枚不胜举;但从微观角度来考虑,数字地理信息所研究的共享体系理论则主要包括地理信息的模型建立表示理论、空间参照系理论、质量体系理论以及计算机通讯技术等方面的理论,它们是数据共享体系的基础。当然,其它能够促使地理信息共享的理论也将成为基于数字地球的元数据体系的有力支柱。