一种基于知识图谱的联合搜索方法
所属栏目:高等教育论文
发布时间:2011-03-16 10:42:32 更新时间:2025-01-14 09:43:33
黄颖
中国电子科技集团公司第二十八研究所
摘要:为解决海量多领域信息高效搜索问题,本文提出一种基于知识图谱的联合搜索方法,描述了其技术架构,对知识构建融合、搜索请求智能转换、搜索源动态调度等关键技术进行阐述,并在试验中验证了效果。
关键词:知识图谱 联合信息搜索 知识库
0引言
互联网的迅速普及以数字信息的爆炸式增长带来了宝贵的信息财富,从海量、分散、繁杂的信息中有效、快速找到所需信息,对于信息搜索引擎也是一个较大的挑战,单源检索引擎已无法满足信息高效检索需求。
本文提出一种基于知识图谱的联合信息搜索方法,一方面通过元搜索集成管理模式,集成各类分领域、分主题的垂直搜索功能,可以提升搜索性能;另一方面以知识图谱为代表的知识工程技术应用可辅助提升搜索准确率,通过对信息的进一步组织和抽象,形成符合人类活动的语义和逻辑的知识[1]。
1技术架构
采用基于知识图谱的联合信息搜索方法,建立专业知识图谱,构建基于元搜索架构的联合搜索技术架构,实现分布式协同搜索。技术架构如图1所示。

图1 基于知识图谱的联合信息搜索技术体系架构
针对分布式存储的多源异构数据,无法采用单一的搜索引擎实现高效信息搜索,可通过构建统一的联合搜索框架,以及分别建立的各专业搜索引擎(称之为搜索源),实现分布式协同的联合搜索服务。在联合搜索中,要解决的核心问题是如何建立知识库,将搜索请求转化为更全面明确的查询条件,如何有序调度各搜索引擎,如何对搜索结果进行合并、除重、排序及推荐。利用知识图谱和联合搜索相关技术可解决这些问题
2 关键技术
2.1知识图谱构建
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系[2],与传统的基于关键字的搜索引擎工作原理不同,利用知识图谱利用概念、实体的匹配度返回给用户与搜索相关的更全面的知识体系[3]。
面向分布式异构数据源,采用半自动和人工相结合的方式,按照不同的领域,从各自对应的结构化、半结构化或非结构化化的语料库或数据源中提取概念、关系、公理、实例等,通过多模态语义抽取、异构本体融合、知识评估完善等形成不同的专业知识图谱,实现对海量异构数据资源进行语义标注和链接,建立以知识为中心的领域内资源语义集成服务。
基于不同领专业知识图谱,依靠同一框架规范,进行异构数据整合、消歧、加工、推理验证、更新等步骤,通过自动分类、聚类挖掘、动态索引等方式,建立分布式各业务的知识库;消除各知识库中本体概念的异构性,实现不同本体的跨域合并及映射规则的建立,将不同领域的数据、信息、方法、规则、经验、思想进行融合,形成全域知识库,为实现跨域协同知识服务提供支撑[4]。
2.2多源异构数据联合搜索框架
在联合搜索框架中,需规范统一的业务搜索引擎接口和搜索结果描述要求,通过服务化接口链接各专业搜索源。在联合搜索框架下,各专业搜索源可选择多元化的技术实现架构,只需要服务接口标准一致;同时面向用户,供全网统一的搜索入口,一次搜索可以获得更加全面的信息,显著提升用户搜索体验。
联合搜索框架具备跨域搜索源预选择功能,避免用户每次的搜索请求无需盲目的被分发的所有的搜索源。根据用户属性、热点分析、搜索情景分析等进行动态调度分配,将搜索请求会被分发到其最可能相关的源端,减少不必要的网络开销和等待时延,加快联合搜索响应速度。
搜索结果的合并去重也是联合搜索框架的关键技术点之一,将分散在各处的同类信息进行合并和去重,可以有效减少冗余;搜索结果的智能排序技术,将用户最关心的信息排在最前面,有效提高搜索的查准率。
2.3搜索请求智能转化
用户在联合检索时输入的查询条件,需要转换成各分布式搜索源可理解的查询表达式才可以进行检索。
由于不同的专业搜索源可能拥有不同的检索语法和操作符使用规则,因此需要针对每个专业搜索源建立相应的查询语句转化机制。在查询语句转化过程中,由联合搜索引擎结合专业搜索源的权限控制和处理能力,动态选择、匹配专业搜索源。进行查询请求时,如专业搜索源不支持词干提取技术,对于具有不同词缀的单词则不能进行相关词映射识别;针对该问题,利于联合搜索框架的问句语义分析功能进行预处理,提前提取单词词干,形成更完善的查询请求,达到提高查全率的目的。
2.4搜索源动态调度策略
在联合搜索中,调用一个业务搜索引擎,都需要消耗相应的网络带宽和服务器处理时间,但并不是每个搜索引擎都能搜索到有价值的信息。因此,采用搜索源动态调度策略,实现以较小的资源和时间损耗,调用合适的搜索源,使用户获得较高查询体验。
在搜索源调度策略中,除了采用针对特殊用户、特殊问句预先设置相应的搜索源之外,还可以采用基于学习的动态选择策略,以提升返回结果的质量。目前主要有静态学习、动态学习和混合学习三种方法:
静态学习方法即在系统上线运行前,预先选择大量关键词进行训练,逐一分析并得出各搜索源的统计参数,该方法无法及时跟踪查询关键词和搜索源的变化来调整策略。
动态学习方法是对通过用户点击率、结果反馈信息等持续学习,可适应变化且不断完善,但学习耗时较长,不能在系统一上线就给用户良好的查询体验。
混合学习方法是将两种方法结合起来使用,既通过训练查询词来获得最初的搜索引擎选择策略,又结合使用中对用户反馈的分析不断调整策略。
3结束语
基于知识图谱的联合搜索方法从一定程度上解决了海量信息搜索的性能和准确率问题,通过实际试验验证,在搜索效果方面,对于主题类搜索需求(即没有确定的检索目标,查找与某个主题相关的一组信息资源),信息搜索结果的前40条记录的平均准确率大于80%;对于事务类搜索需求(即具有确定的检索目标,一旦查找到指定的信息资源,则搜索事务结束),前10条记录的平均成功率大于80%,对比传统信息搜索方法有较高提升,后续还将面向不同领域、场景知识融合处理需求,在知识图谱云构建等方面展开进一步研究。
[1] 蒋锴,钱夔,郑玄. 基于知识图谱的军事信息搜索技术架构[J]. 指挥信息系统与技术,2016,7(1):47-52
[2] 李彭伟. 海量知识图谱分布式管理与查询[J]. 指挥信息系统与技术,2021,12(2):75-93
[3] 刘峤,李扬,段宏等. 知识图谱构建技术综述[J]. 计算机研究与发展,2016,53(3):582-600
[4] 吴运兵,阴爱英,开标等. 基于多数据源的知识图谱构建方法研究[J]. 福州大学学报(自然科学版),2017,45(3):329-335
月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!