论数据挖掘技术与院校图书馆个性化服务
所属栏目:计算机信息管理论文
发布时间:2011-02-24 12:16:02 更新时间:2011-02-24 12:16:02
摘要:随着信息在社会中的作用增强,人们对信息的需求增加,信息需求更趋于个性化。图书馆用户服务的个性化是发展的客观要求和发展趋势。个性化服务是许多读者对图书馆服务的基本要求,个性化服务水平体现了图书馆的服务质量。图书馆日趋数字化的特点也易于实现个性化服务,介绍了数据挖掘技术与图书馆个性化服务之间的关系,在收集挖掘用户信息的基础上,通过分析和预测用户的行为来为用户提供个性化的定制服务。
关键词:数据挖掘;图书馆;个性化服务
当前各个院校图书馆所存储的信息量是非常大的,特别是网络的普及更是造成了现在信息爆炸的时代。而如何把图书馆中庞大的信息资源更好的推荐给读者,更为关键的的是如何具有针对性的推荐,这就是十分重要的!因为虽然现在图书馆大多都提供文献检索服务,并提供一些检索终端供读者查找信息,也可以通过图书馆主页提供各种检索服务,但读者往往由于检索专业知识的限制,无法从浩如烟海的馆藏信息中查找自己所需要的,也有一些读者没有太多的时间去查找信息。这就要求我们能有针对性的做好信息推送工作,把读者最可能需要的信息推荐给读者。而这就是图书馆个性化服务所要求做到的。
1 院校图书馆个性化服务概述
院校图书馆的个性化服务实际是针对在校师生在教学、科研方面的不同需要, 而进行的一种对应式的服务。院校图书馆的读者种类一般有以下几种:本科生、研究生、教师及科研人员。每个种类所关注的问题都是各不相同的。本科生由于处在基础学习阶段,对各种知识都比较感兴趣,关注面比较广,特别是对于社会科学类的信息关注度较高。研究生由于对本专业的知识已经打下了坚实的基础,并且也已有了明确的研究方向,所以特别关注了解本专业具体研究的各方面信息。而教师侧重于对教学参考资料的使用与教学方法的研究。科研人员要求掌握学科的前沿发展动态,为科学研究做好充足的知识储备。同时,现在高校专业设置比较广泛,一般涵盖多个学科门类,不同学科的读者之间,对于信息的需求也是不同的,这也要求了图书馆在信息推送服务方面必须要做到个性化服务,要针对每个读者来制定不同的信息推送方案。
图书馆个性化服务主要分为两种方法:一是按用户要求进行信息定制,属于被动提供服务;二是数字图书馆挖掘用户兴趣模式,属于主动提供服务。当前大多数图书馆所推出的读者个性化服务主要还是采用第一种方法,往往通过进行读者调查问卷以及读者自己选择的方式进行信息定制推送,这种方法好处是可以准确的获取读者的信息需求,信息推送比较准确,减少无用信息的干扰。缺点是对于图书馆来说提供的服务是被动式服务,如果用户不进行相应的问卷调查就无法对这写读者进行信息推送服务,会使相当一部分读者不能充分的利用图书馆的资源。而第二种方法则可以进行主动式的信息服务,主要采取的方法是通过对读者的各种相关信息进行数据挖掘,能够自动收集和统计读者的大量有用信息,并进行多维的特征分析和对用户信息行为的研究发现读者的信息需求。可以为读者提供更快速更有针对性的优质信息服务,提高读者对服务的满意度。还可以通过对读者的分类和分析,掌握读者的偏好、愿望和需求等方面情况,然后制定信息服务推荐策略,使信息服务更为有效。
2 数据挖掘技术概述
数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,而这些知识是隐含的、事先未知的并且是潜在有用信息。
虽然数据挖掘和信息检索同样是在数据库中查找一些有用的信息,但是数据挖掘与信息检索还是存在一定的区别的。信息检索的过程就是根据用户的输入,如关键词,查找相关文献信息的过程。它是通过查找数据库中的信息是否符合匹配用户输入的关键词,有就把这条信息提取出来,是一种查找信息表面特征的检索方法。而这种方法对于大量信息之间所隐藏蕴含的各种深层次的联系和信息却无法进行准确的表达。要发现这种深层次之间的联系和信息就必须要依靠数据挖掘技术了。也就是说,传统的数据库查询和检索只能提供你想要的信息,而数据挖掘技术则可以发现你没有意识到的未知信息。同时信息检索和数据挖掘是相辅相成的。我们可以利用数据挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的表达,使信息检索发展到一个新的水平。
按照处理对象的不同,可以将数字图书馆数据挖掘分为三大类:结构挖掘、内容挖掘和用户使用记录挖掘。结构挖掘指的是从文档的结构信息中推导知识,结构挖掘不仅仅局限于文档之间的连接结构,还包括文档内部的结构、文档中的目录路径结构等;内容挖掘指的是文档的内容信息中抽取知识,内容挖掘又分为对文本文档、多媒体文档和分布式数据的挖掘。用户使用记录挖掘主要是对服务器日志、用户注册数据、用户访问记录等数据的挖掘。对于图书馆对读者的个性化服务来讲,我们这里要研究的主要是用户使用记录挖掘。
3 数据挖掘技术在图书馆个性化服务中的应用
一般来说,读者如果想要获得图书馆的网络资源服务,首先进入图书馆主页网站,然后选择相应的服务链接,通过一站式检索或单个系统的逐步检索获得所需要的结果,比如图书借阅情况、新书通报、电子资源文献等。这种服务是被动式的服务,要求用户必须主动关心才能知道结果,同时对用户的计算机技术能力、检索基础知识和时间耗费都有很大的要求。所以图书馆个性化服务的核心是做好信息推送,尽可能的把读者最需要的信息推荐给读者。而信息推送服务具有明显的3个特征:主动性,针对性和高效性。而传统的信息推送服务大多依靠用户递交的需求文档来或者填写需求表来选择推送信息,无法做到主动地、智能地、及时地获取用户当前的信息需求,特别是部分读者疏于填写各种调查表格,这就给这类读者的信息推送造成了困难。从而形成了图书馆个性化服务的死角和盲区。同时在图书馆个性化服务中,信息推送要与信息反馈相结合,对这些反馈的信息进行分析,不断调整和完善,逐步逼近用户的信息需求。
数据挖掘技术就可以很好的满足上面所提出的问题,我们知道,当一个读者从**借书证开始,他的所有和图书馆有关的各种信息活动都可以作为一种记录保存在图书馆的数据库中。常用的有印本文献的借阅记录、电子文献的检索记录等等,这些都可以作为数据保存下来。而这些数据就是我们进行数据挖掘所需要的“材料”。目前来说,对于数据资源的利用主要有两种方式:一是数据资源的查询服务;二是数据资源的归纳。第一个不必多言,就是传统的对数据库进行检索,查找所需的信息。而第二个利用方式就需要数据挖掘技术了。
做好读者信息的数据挖掘工作前提和基础是拥有大量、真实的数据积累,没有数据积累,数据挖掘将无用武之地,因此要踏踏实实做好基础数据库的建设。在建库及数据挖掘的整个过程中,需要各方人员共同参与,通力合作,提取原始信息,收集用户特征。用户通过浏览器访问图书馆电子资源时,系统可以记录下来的用户访问数据有两类:用户信息和用户行为特征。用户信息包括用户的姓名、性别、年龄、专业、爱好、教育程度以及用户访问地址等。另一方面利用日志记录可获得用户的行为特征,如对信息的点击率、停留时间、访问次数、下载次数、搜索关键词及模式等信息,还有用户的主观信息,如网络调查、留言等。准确把握用户的行为特征和