基于本体的医疗信息检索技术的研究
所属栏目:计算机信息管理论文
发布时间:2014-02-22 14:17:22 更新时间:2014-02-22 14:03:21
中国互联网络信息中心2013年7月17日发布《第32次中国互联网络发展状况调查统计报告》显示,截至6月底,我国Ipv4地址数量为3.31亿,拥有IPv6地址数量较去年同期大幅增长16.5%。我国网民数量达到5.91亿,较去年底增加2656万人[3]。可见,在网络,电视,报纸,书籍等各种媒介中,网络具有其他媒介无法比拟的优势。医疗信息是与人们息息相关的领域,患有不同程度疾病的人群和亚健康人群不可能频繁去医院检查,都希望通过网络的快捷得到更多的指导。
【摘要】随着互联网在全球范围内的普及,网络数据正以前所未有的速度发展。从互联网上获取信息已经成为人们常用的方式。医疗领域是与人们生活密切相关的领域,各类人员都希望通过网络得到相应的指导。但是目前的医疗网信息内容繁杂,结构混乱,不能给相关人员提供较好的服务。本文将本体引入到医疗信息领域,分析和比较现有的本体构建方法,根据它们的特点,构建药品本体。
【关键词】本体,医疗,信息检索
一、本体在信息检索技术方面的研究现状
1.本体的概念
本体来自希腊词汇,onto表示being,logos表示toreason,最初是哲学上的一个分支,这个术语在17世纪诞生,是古希腊哲学家亚里士多德给出的定义,将Ontology定义为研究“存在”的科学,并将其分为两个方面,一方面研究存在的本质,另一方面研究客体对象的理论定义,即整个现实世界(本体)的基本特征。人工智能领域将本体的概念引入,用于知识表示和知识组织,其概念的内涵也因此发生了改变[1]。
2.国内外研究现状
本体在信息检索领域的应用研究在20世纪末至21世纪初展开,国外大量学者都在此领域进行了各种研究,如德国学者Nenad和Ljiljana提出了一种在基于本体的信息检索系统中使用基于逻辑的优化检索方法;巴西学者Regina等研制了一个检索代理系统;斯洛伐克的学者Jan和Ivan在同一个文本集中将全文检索方法、潜在语义索引方法和基于本体的方法进行对比研究等[2]。与国外相比,国内无论是在理论研究,实证研究,还是在技术手段的实用方面都相对落后,与国外高水平的研究相比存在很大差距,有关学者在本体的检索技术方面也进行了大量的研究。但是迄今为止,大量文章仍停留在翻译,综述国外研究的水平上,具有独立创新性的研究少之又少。
二、研究内容和意义
检索结果往往会返回大量无关的链接,使得用户将大量的时间耗费在排除无关信息上。同时,用户和网络文档对同一概念的表述形式往往会有差异,导致无法接收到有用信息。目前的关于药品的检索,其实质仍然停留在基于关键字的查询上。其查询方式相对简单、容易,但是不能很好地满足用户的真正需求,非常机械,不能够全面准确地检索到用户关心的药品信息。基于本体的检索可以充分利用本体对知识内容的结构化描述和概念之间的关系来实现智能化查询。针对传统信息检索技术存在的上述问题,本体检索还包括歧义信息和检索处理,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。通过对比现有构建本体的各种方法,根据它们的特点,并结合医疗领域的特点,立足于医疗信息的一个点,即药品,按照本方法建立药品本体。在构建药品本体的基础上,改进了一种基于药品本体的信息检索系统框架。
三、基于本体的医疗信息检索系统设计
1.设计目标
(1)具有传统信息查询系统的基本检索功能,也就是根据用户输入的查询条件,应该能够给用户返回相应的结果。这是最基本的查询功能。
(2)对查询条件的语义扩展的过程要借助于本体库中的信息,在具有传统信息查询系统的基本检索功能基础上,输入的查询条件进行同义、近义和上下位关系进行扩展,也可以对用户提出的查询请求进行规范化等操作,目的是为了使计算机更好的理解语义信息,提高信息检索的效率和准确性。
(3)采用传统的相关度算法,尽可能地把更好的反映用户真正意图的检索结果反馈给用户。
2.体系结构
结合药品本体,参考语义检索机理[4],信息检索框架包含五大模块,分别为用户接口、条件处理、医疗信息、信息检索和结果显示。如图1所示。
(1)用户接口:系统必须提供给用户一个友好的界面,在这里主要是用户输入的查询条件部分,可以采用单一的条件查询也可以采用多组合查询。
(2)条件处理部分:处理用户界面的输入查询信息,对查询条件进行预处理。
(3)医疗信息部分:建立医疗实例库。
(4)信息检索部分:对用户输入的查询条件进行处理,这里面含有推理规则。同时对查询条件进行语义扩展,实现进一步的查询。
(5)显示结果部分:经过信息检索部分,需要对所查询出来的结果进行汇总,并根据相关度算法对相关结果进行排序。将更贴近用户的查询结果靠前。
3.构建本体常见方法
目前常用的七种本体构建方法是:七步法、骨架法、IDEFS法、Methoniology法、TOVE法、SENSUS法和KACTUS法。这七种方法各有利弊,结合药品检索的现状,领域本体的建设处于探索性研究阶段,在这个过程中存在着很多问题,对不同问题的认识和解决会得出不同的方法论。主要问题分析如下[5]:
(l)需求不充分
本体构建特别是某个领域的本体构建的具体需求还很难描述清楚。没有充分的需求,直接导致本体建设过程的无计划性。
(2)建设过程无规范
目前,领域本体构建还没有成熟的方法论作为指导,更谈不上对构建过程的规范管理。借鉴软件开发过程的管理,可以看出文档的重要作用。因此,在领域本体构建过程中同样也得关注文档,从文档的编写中总结出规范。(3)成果没有评价标准
本体的评价方法没有统一的标准,也没有标准的测试集。不能对本体的建设成果进行合理评价,使整个构建过程的正确度,科学度大打折扣。
(4)忽视本体的共享和重用
领域本体构建的目的不是为某一个系统提供服务,而是为不同系统提供进行交流的语义基础。共享和重用是本体的本质要求,在领域本体的建设过程中,如何保证这一点就是个非常重要的问题。
在IT领域引入本体的概念,最终目的是希望计算机能够充分理解语义信息,更加智能的为人类服务,从某种意义上说,这是一类新的软件活动。因此,对于本体建设的过程,还需要不断的完善和创新。
4.药品本体的构建
目前互联网上关于药品的网站很多,但是从内容组织上看,大多都是将药品分为不同的类别,或者是将药品按身体各个部位进行分类。用户点击相关信息,了解相关治疗药物,所看到的药品内容繁多,且不规则,主要原因是没有对药品形成规范的查询体系。因此,针对药品本体的构建,首先应对此领域建立一个比较完善的信息集,对整个领域本体的数据流有一个清晰的认识。对领域本体的建设不是一朝一夕的,而应该是先建立核心本体,在构建时先找出领域中最基本的、最重要的概念和关系作为演化的种子,在此基础上可以不断完善,逐步建立起领域内的函数、公理和实例。
首先,确定好药品领域的概念分类。如“生物制品”、“解毒药”、“延缓衰老”、“避孕药”、“抗躁狂抑郁药”、“维生素类”等。在“生物制品”这个概念类中,又分为子类“疫苗”、“菌苗”、“类霉素”、“抗菌素抗血清”、“人血液制品”、“体内诊断制品”等。子类“疫苗”下又分为子类“基础免疫用疫苗”,并添加实例“乙脑疫苗”,“乙肝疫苗”、“狂犬疫苗”、“出血热疫苗”、“流脑疫苗”、“甲肝疫苗”、“腮腺炎疫苗”、“流感疫苗”等。其中在子类“基础免疫用疫苗”中添加了实例“卡介苗”、“脊髓灰质炎疫苗”、“百白破制剂”、“麻疹疫苗”等。其他概念类同此依次向下分类。
其次,定义类之间的关系。子类和父类之间是“is-a”的关系,脊髓灰质炎疫苗和脊灰糖丸是同义词的关系,卡介苗和基础免疫用疫苗是实例与概念之间的关系,在实际应用中充斥着大量的类似的关系,在此不一一列举。
最后,定义类的属性。例如概念类“疫苗”,它应具有的属性有“中文名称”、“英文名称”、“计量单位”、“使用指南”等。
5.系统关键技术处理
(1)查询扩展
本体可以看作是定义了类及类之间关系,同时添加了用于推理的规则集的分类体系。本体可以通过对用户检索进行领域内的概念及属性关联来扩展用户检索。比如用户以“艾滋病”关键字进行检索,与“获得性免疫缺陷综合症(AcquiredImmuneDeficiencySyndrome)”相关的信息也能检索出来。再如用户如果想要检索关于“Sars”的信息,同时本体中定义了“Sars”的关联概念“非典”,这时候用户的查询就扩展为“Sars”和“非典”。如果在本体的定义中还包含概念“非典”的子概念,那么这时候就扩展为“Sars”和“非典”及其子概念。
(2)检索推理
①谓词和关联的概念
这种方式通过找出与用户提供的关键字相关的谓词及概念对用户查询进行扩展。例如概念“疫苗专家”分别通过谓词“属于”及“在……工作”与概念“传染科室”及概念“医院”关联,则用户输入的查询“疫苗”可以用来形成新的查询条件“疫苗专家属于传染科室”及“疫苗专家在医院工作”。
②谓词特性
这种方式通过传递、翻转或对称谓词来扩展用户查询。例如:实例“卡介苗”属于概念“基础免疫用疫苗”,概念“基础免疫用疫苗”属于概念“疫苗”,由此可以推断出来实例“卡介苗”属于概念“疫苗”。
四、总结与展望
信息检索技术已经成为现在信息化时代不可或缺的重要技术,是人们获取信息和知识的重要手段,并随着数字化信息量的急速膨胀,人们将越发的依赖信息检索技术给我们提供的便利。本文在信息检索查询技术的研究中,引入本体的概念,以特定领域知识作为研究对象,建立起一个描述药品知识的本体。但是本体的语义化查询仍然是不够完善的,因此在未来的进一步研究中还有很多工作要做:如本体设计的完善和通用性问题,自然语言处理,推理功能的强化等。在未来的研究中则需要更加复杂的推理机制研究。相信未来基于本体的语义查询系统将会有着广泛的应用前景。
参考文献
[1]王淼洋.东西方哲学比较研究[M].上海教育出版社(第一版),1994:97-104.
[2]彭鹏.基于本体的信息检索策略优化研究[D].吉林大学,2007.
[3]http://news.daynews.com.cn/gnxw/1835394.html(山西新闻网)[OL].
[4]http://kmi.open.ac.uk/projects/ocml(OCML)[OL].
[5]http://www.w3c.org(W3C)[OL].
相关期刊推荐:《网络安全与技术应用》
期刊简介:本刊成立于2003年,先由中华人民共和国公安部主管、中国人民公安大学出版社主办。从2009年起,本刊改由中华人民教育部主管,北京大学出版社主办,是国内网络安全技术与应用领域行业指导性科技月刊,国内外公开发行。创刊以来,本刊与国内外近百家企业建立了良好的合作关系,具体合作方式包括:长期综合合作、协办、支持、栏目协办和中短期合作。今后,本刊愿与国内外业界权威机构、团体、政府官员及专家学者进一步建立、开展广泛的联系和交流,热忱欢迎业界同仁以多种形式加盟我们的事业。
办刊宗旨:本刊针对网络安全领域的“新人新潮新技术”,旨在传达与反映政府行业机构的政策、策略、方法,探索与追踪技术应用的最新课题、成果、趋势,透视与扫描企业、人物及产业项目的形象、风采、焦点,推动并引领行业整体进步和发展。