网络技术论文数字图书馆跨库检索的现状和发展
所属栏目:计算机网络论文
发布时间:2013-10-23 13:22:56 更新时间:2013-10-23 13:01:56
【摘要】:数字图书馆的跨库检索是一种近几年才兴起的服务方式,但也已成为数字图书馆领域的研究热点,无论是在功能还是技术上都发展迅速。文章探讨目前数字图书馆跨库检索的相关技术及其发展。
【关键词】:跨库检索,异构数据库,XML,中间件
1.跨库检索简介
跨库检索也称联邦检索(FederatedSearch),数据库检索(Multi-DatabaseSearch)或集成检索(IntegratedAccess),是以多个分布式异构数据源为对象的检索系统,这种系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式并发地检索本地的和广域网上多个分布式异构数据源,并对检索结果进行整合,在经过去重和排序等操作后,以统一结果呈现给用户。跨库检索的发展不仅方便了用户的信息获取,而且还在一定程度上提高了数据库的利用率,促进了资源共享。
目前,国内外已经有不少跨库统一检索系统,美国在这个领域处于领先地位,他们早先在跨库统一检索领域的研究成果之一就是提出了三个数字图书馆系统模型。第一个是伊利诺依大学的Interspace系统,第二个是斯坦福大学的Infobus系统,第三个是密执根大学的UMDL系统。另外还有后来的美国新墨西哥州莫斯阿拉莫斯国家实验室研究图书馆研究开发的FlashPoint系统,加利福尼亚大学的SearchLight系统等。
我国的数字图书馆研究起步较晚,但是也研究开发出了多个数字图书馆跨库检索系统,主要有清华大学的同方异构统一检索平台(USP)、中国科学院文献情报中心开发的集成检索系统(CSDL)、中国高等教育文献保障系统(CALIS)统一检索系统、CNKI知网技术有限公司开发的CNKI跨库检索系统等等。
2.跨库检索的相关技术
跨数据库检索需要用到数据的整合技术,目前对异构数据源的数据整合方式主要有以下两种:
一种是将各种异构数据库的部分数据导入一个数据库系统中,为了整合不同类型的数据,必须将一些非传统的数据类型转化成新的数据类型。这种方法的优点是检索反应速度快,不会因个别数据库访问失败而影响整体检索效率。缺点是收录的数据库数量不能太多,只能实现对有限数据库的集中和检索。
第二种方法是利用中间件技术进行异构数据库数据整合,这种方法不需要改变原始数据的存储和管理方式。采用中间件技术,对来自用户的查询请求,分解成对不同原始数据库的独立访问请求,通过标准或非标准的数据访问接口对原始数据库进行实时访问并将结果整合后通过发布系统(或直接)返回给用户。这种方式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据库的原文发布服务;但应用局限于原始数据库必须提供访问接口,而且由于各数据库的速度问题而影响到用户得到结果的时间。目前用于异构数据库数据集成的数据库中间件技术使用较为广泛的有:
2.1公共网关接口技术CGI
利用CGI可实现Web与数据库的连接,CGI(CommonGatewayInterface)是最早的Web程序设计方式,它提供一个外部应用程序与Web服务器交互的标准接口,遵循CGI标准编写的Web服务器端的可执行程序称为CGI程序。CGI最大的用处之一是其与浏览Web站点的用户之间的交互能力,使信息网关、反馈机制、访问数据库、查询等一系列灵活复杂的操作得以实现。利用CGI实现与数据库的连接,最大的优点在于其通用性。目前几乎所有的HTTP服务器都支持CGI。
2.2开放式数据库互连技术ODBC
ODBC(OpenDatabaseConnector)是由Microsoft推出的基于C语言的开放数据库互连技术,主要针对客户端/服务器结构的数据库。它包含访问不同数据库所要求的ODBC驱动程序及驱动程序所支持的函数,应用程序通过调用不同的驱动程序所支持的函数来操纵不同的数据库。若想使应用程序操作不同类型的数据库,就要动态地链接到不同的驱动程序上。
2.3JAVA数据库互连技术JDBC
JDBC(JavaDatabaseConnector)是JavaSoft公司设计的Java语言的数据库API(应用编程接口),主要针对浏览器/服务器结构的WEB数据库。JDBC的出现是Java编程中最重大的突破之一,它使得Java程序与数据库服务器的连接更加方便。与其他的数据库存取技术相比,JDBC继承了Java语言的所有特点,不仅具有独立于平台运行、面向对象、坚固性好的优点,而且具有多线程、内置检校器来防止病毒入侵等功能,更加适合网络应用。JDBC的这些特点也特别适合于实现对Web异构数据库的访问。JDBC是连接Internet上异构数据库的最好方法。使用JDBC能够方便地向任何关系数据库发送SQL语句。浏览器从服务器上下载含有JDBC接口的JavaApplet,由浏览器直接与数据库服务器连接,自行进行数据交换。
2.4ASP技术和JSP技术
ASP(ActiveServePage)是Microsoft公司于1997年推出的一个功能强大的WEB应用程序开发技术,ASP在Web服务器上解释脚本,可产生并执行动态交互式、高效率的站点服务器应用程序。ASP可以胜任基于微软Web服务器的各种动态数据发布。ASP脚本是在Web服务器端解释执行的,当遇到访问数据库的脚本命令时,ASP通过ActiveX组件ADO(ActiveXDataobjects)与数据库对话,通过ODBC与后台数据库相连,由数据库访问组件执行访库操作。并将执行结果动态生成一个HTML页面,返回web服务器端,以响应浏览器的请求。在用户端浏览器所见到的是纯HTML表现的画面,例如用表格来表现的后台数据库表中的字段内容。由于ASP结合了脚本语言,可以通过编程访问ActiveX组件,并且具有现场自动生成HTML的能力,所以它成为建立动态Web站点的有效工具。在结构关系上,ASP是通过ODBC与数据库打交道。因此,可向上层兼容各类数据。另一种相似的动态网页技术JSP由Sun公司于1999年发布,JSP支持的是完全的Java,可以充分发挥Java面向对象编程的强大功能,可以使用J2EE标准服务,使用大量的JavaAPI,如JDBCAPI。
2.5CORBA技术
CORBA(CommonObjectRequestBrokerArchitecture,公共对象请求代理体系结构)是由OMG(对象管理组织,ObjectManagementGroup)提出的应用软件体系结构和对象技术规范,其核心是一套标准的语言、接口和协议,以支持异构分布应用程序间的互操作性及独立于平台和编程语言的对象重用。目前也有许多基于CORBA中间件的异构数据库互联的研究。
2.6XML中间件技术
XML(ExtensibleMarkupLanguage,可扩展标记语言)是由W3C(WorldWideWebConsortium)组织于1998年2月制定的一种通用语言规范,它是专门为Web应用程序而设计的SGML的简化子集。开发基于XML动态应用(如动态信息发布、动态数据交换等)的前提是所支持的数据库必须能支持XML。XML自身的特点使其易于进行异构数据库间的数据集成和数据交换,因此可以很好的应用与跨库检索系统的构建。
3.基于XML中间件技术的跨库检索
上文介绍了目前常用的几种跨库检索技术,其中XML是近几年刚兴起的一种信息技术,随着XML技术的发展,基于XML的中间件技术已经成为目前数据库集成技术的研究热点,基于XML技术的跨库检索为数字图书馆的数据共享提供了有力的支持,国内外对基于XML的跨库检索的研究日益增多,成为跨库检索系统研究领域新的研究方向。XML虽然兴起的时间不长,但是却具有许多其他技术无法媲美的功能和优点。它在数据集成方面的优势主要表现在以下几个方面:
3.1自我描述性。XML具有基于Schema自描述语义的功能,容易描述数据的语义,在描述数据内容的同时突出对结构的描述,从而体现出数据之间的关系,这种描述能被计算机理解和自动处理,使计算机不依赖特定的数据解释程序自动识别文档的内容。
3.2互操作性和开放性。XML可以在多种平台上使用,而且可以用多种工具进行解释。XML标准自身在Web上是完全开放的,可以免费获得。W3C制定了XML标准,它不依赖于任何一家公司,而且许多软件开发平台都支持基于XML的应用。同时,XML并不禁止创建私有格式。微软公司、Oracle公司和其他一些著名的大公司以及W3C的工作组正共同努力以确保XML的互用性,以及为开发人员、处理人员和不同系统和浏览器的使用者提供支持,并进一步发展XML标准。
3.3可扩展性。作为一种标记语言,XML中的标记是没有预先定义的,使用可按需求定义自己的标记。
3.4平台独立性。XML文档是纯文本,独立于平台和应用。
3.5结构化。XML不仅可以描述结构化数据,还可有效描述半结构化,甚至非结构化数据。
3.6可交换性。XML是一种标准化的语言规范。DTD规范定义了XML文件的语法、语句和数据结构的标准,因此XML文件是一种规范的结构化的文档,具有很好的可交换性。这就使用户可以很容易地将文件的属性映射到数据结构或对象分级结构中,客户端浏览器和数据库之间来回传输文件也变得可靠,XML文件可以作为一种**让数据在两种数据库之间灵活地进行转移。
XML的这些优点使它在异构数据库之间的数据整合方面具有很强的优势。因此,使用XML作为中间件构建数字图书馆跨库检索系统是一个不错的应用方案。XML技术一直是信息技术领域的研究热点,与数据库结合方面的研究更是方兴未艾,发展迅速,已成为未来数据库技术的发展方向,XML技术在数字图书馆异构数据库跨库检索中的应用也将有不可估量的发展前景,跨库检索系统也将会得到长足的发展。
4.结束语
综上所述,数字图书馆的异构数据库集成是图书馆届关注的热点之一,促使跨库检索系统的开发成为必然趋势,目前常用的跨库检索技术有很多,其中,XML技术因其本身的特点使得它非常适用于异构数据库间的数据交换,因此,基于XML的中间件技术在数字图书馆跨库检索的研究中占有重要的地位,已得到图书情报届人士的广泛关注。
参考文献
[1]黄镝.异构数据库的跨库检索技术综述.图书情报工作,2003(6).
[2]李书宁.数字图书馆跨库检索技术研究.数字图书馆论坛,2005(2).
[3]申传斌.基于XML的数字图书馆异构数据库互连.现代情报,2005(7).
[4]黎宇.跨数据库文献检索统一平台的实现.