goback
月期刊咨询网
当前位置:首页>>电子技术论文>>正文

讲师论文范文全文检索引擎Lucene系统模型与应用研究


所属栏目:电子技术论文
发布时间:2015-07-02 16:57:41  更新时间:2015-07-02 16:52:36

已签订领域:化学工程/制药,医学题目:**作为抗癌剂***催化剂**取代苯丙***SCI四区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:用**电***生物传感器**癌症**SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:**氧化石墨烯纳米***材料的生物传感器***结肠癌生物**癌胚****SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:聚合物纳米***a-硫辛酸***在神经炎症***应用***临床分析SCI二区 直击了解更多选题

已签订领域:计算机视觉/遥感/智能驾驶/汽车题目:**深度学习***高分辨率遥感***车辆检***SCI三区 直击了解更多选题

已签订领域:企业管理题目:社会交流***领导***倾向***方向SSCI,SCI三区,二区 直击了解更多选题

已签订领域:企业管理题目:**中小企业社交媒体****可持续绩效***因素探析SSCI,SCI三区,二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:利用硫氨酸***石墨烯纳米***电化学***传感器实现癌胚抗原***SCI二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:基于抗***纳米复合***高性能***早起癌症诊断***SCI二区 直击了解更多选题

已签订领域:经济,能源题目:***政治冲突****绿色金融、金融**、气***化***SCI四区 直击了解更多选题

已签订领域:经济,能源题目:冲***中能源不安全对***和环境***SCI四区 直击了解更多选题

已签订领域:教育题目:大学生***社交媒体***成绩影响***SSCI三区 直击了解更多选题

已签订领域:教育题目:巴基斯坦***学习实施的***的**SSCI二区 直击了解更多选题

已签订领域:教育题目:大学生对****下网络教学**思***SSCI二区 直击了解更多选题

已签订领域:教育题目:**教师和学生对影响***医疗**效果的****看法SSCI三区 直击了解更多选题

已签订领域:计量经济学题目:**货币、黄金、**和美国***的波动***相互依赖性:**数据的分析SSCI一区 直击了解更多选题

已签订领域:计量经济学题目:东南亚***内**趋同***中等收入**:新**的***SSCI二区 直击了解更多选题

已签订领域:建筑,历史题目:历史景点在***旅游发***中的***影响**(**研究:**历史***)SSCI,SCI一区 直击了解更多选题

已签订领域:领导力,管理题目:量化**领导对角色绩效***响:**冲突与工作自主性***作用SCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:数字***环境对学生学习成绩***:游戏**和***现实在教育***作用SSCI四区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***续决策之间的***:创新***识的**作用SSCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:课程**对大学生***发展的影响:学习习惯和***的***作用SSCI一区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***与可持续决策**:高等***学生认知***作用SSCI二区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语****学**与人工智能****学习SCI三区 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐**对学生成绩***的影响SCI三区 直击了解更多选题

已签订领域:人体工程,心理学题目:基于预先处理模型***模式人体工程学***女生肌肉骨骼***预防行为*** 直击了解更多选题

已签订领域:人体工程,心理学题目:制定一个***人体工程学**,以识别、优先考虑***职业压力源的*** 直击了解更多选题

已签订领域:人体工程,心理学题目:多重工作**压力和工作***:***工效学方法的混合方法*** 直击了解更多选题

已签订领域:数学,经济题目:数学模型***结构调整和经济转型****研究 直击了解更多选题

已签订领域:数学,经济题目:***时间**数学模型在***媒体营销**中的应用*** 直击了解更多选题

已签订领域:数学,经济题目:***时间**模型在***物流运**能力***研究 直击了解更多选题

已签订领域:数学,经济题目:碳****经济的数学模型****研究 直击了解更多选题

已签订领域:农村经济题目:农****社区**发展***分**SCI四区 直击了解更多选题

已签订领域:农村经济题目:创业***对乡村****发展的****SCI四区 直击了解更多选题

已签订领域:农村经济题目:农村创业****的空间*****究SCI四区 直击了解更多选题

已签订领域:医学,电化学题目:纳米颗粒*****及其在癌症****和重金属*****检测中的应用SCI三区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****前列腺癌药物氟****检测方法的*****腺癌治疗SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:气海***********金纳米颗粒的新型****************粘土及其对胃癌********************抗癌SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于抗***********GCE纳米***********材料的高性能*******************早期癌症SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:用******电化学生物传感器*****癌症***************SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****石墨烯纳米****材料的生物传感******用于测定结肠*****生物*****SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:聚合***纳米复合电极*****疏辛酸电化学检测*********SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:利用****酸/**糖**石墨烯纳米复合修饰的电化学*****SCI二区 直击了解更多选题

已签订领域:环境能源,绿色投资题目:环境能源、绿色投资、城市化和环境类方向SCI三区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语教学**人工智能***习SCI 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐形式*学生***影响SCI三区 直击了解更多选题

已签订领域:经济,绿色投资题目:***能源效率***化之间的***SCI三区 直击了解更多选题

已签订领域:经济政策题目:***阐明**印度经济***的关系SCI三区 直击了解更多选题

已签订领域:经济,金融题目:***国家的能源***重***SCI 直击了解更多选题

已签订领域:经济,金融投资题目:***融新之间***直接投资***SCI三区 直击了解更多选题

已签订领域:经济,数学,统计学,管理学题目:非***想重限制下***袭评价***SSCI四区 直击了解更多选题

已签订领域:经济,数字,管理学题目:基干***生产系统***SSCI四区 直击了解更多选题

已签订领域:农业,土壤科学题目:不同***有机覆盖***养分循环SSCI 直击了解更多选题

已签订领域:电力与能源系统,管理题目:pv***氢定价的***随***型稀SSCI,SCI二区 直击了解更多选题

已签订领域:建筑规划,计算机题目:使用***因子分析法***可持续***SCI三区 直击了解更多选题

已签订领域:工程技术,纺织工程,材料科学题目:甘***淀粉酶的提取***退浆中的应用SCI四区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:饲料***镉毒性的交互***生长***病理学***SCI二区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:****鱼水源***起的生******SCI三区 直击了解更多选题

已签订领域:金融,环境经济题目:*****预算在能效、绿色***的作用SCI 直击了解更多选题

已签订领域:应用数学/计算物理题目:***非线性库***自相位调制***SCI三区 直击了解更多选题

已签订领域:计算机,医学检测题目:***COVID-19***力***算法***决策SCI三区 直击了解更多选题

已签订领域:计算机,物联网,智慧城市题目:基于***物联网****算法SCI三区 直击了解更多选题

  大数据是现如今非常流行的一种技术,人类已经逐步迈向大数据时代了,很多高校也都开设了这门专业。本文就是一篇软件开发专业的讲师论文范文,主要论述了全文检索引擎Lucene系统模型与应用研究。
  摘要:大数据时代下信息爆炸式增长,全文检索技术是提高信息检索效率的有效方法。Lucene是一个采用Java编写的全文搜索引擎框架,它运用了面向对象的设计思想,提供了丰富的API。对Lucene的系统结构、索引流程、索引机制进行了详细分析,对应用Lucene引擎搭建全文搜索系统的关键问题进行了研究。

  关键词:全文检索,Lucene,倒排索引,分词

  作者简介作者简介:张吴波(1977-),男,湖南邵阳人,湖北汽车工业学院电气与信息工程学院讲师,研究方向为软件开发。

  0 引言

  大数据时代,可利用的数据和信息量呈爆炸式增长,人们在获取更多信息的同时,也不可避免地增加了筛选信息的难度[1]。面对海量数据,如何使用户更好、更准确地抓取所需信息,已成为信息化技术中一个非常重要的课题。全文检索技术是为用户提供快速、准确获取有效信息的重要方法。

  1 全文检索技术

  全文检索是以各种计算机数据,诸如文字、声音、图像等为处理对象,提供按照数据资料的内容,而不是外在特征来实现的信息检索手段[2]。相对于一般的DBMS,可以将Word文档、邮件、网页等非结构化、半结构化数据作为检索对象。

  全文检索最初是以字符串匹配程序实现的,即在待查找的文件中,打开每个文件后,对文件内容从头到尾检索,如果其中包含需要查询的字符串,则将它作为结果文件。这种顺序检索效率较低,因此,全文检索都是通过“索引”技术实现的。其过程是由计算机索引程序扫描文件中的每一个词,然后对每个词建立一个索引,并指明该词在文章中出现的次数和位置。当用户查询时,由检索程序对已建立的索引进行查找,得到所需要的文件[3]。

  2 全文搜索引擎Lucene

  Lucene是一个非常优秀、成熟、开源、免费、采用Java语言编写的全文检索引擎工具。它提供了丰富的API,可以与存储在索引中的信息方便地交互,并能方便地嵌入到各种应用系统中,实现针对应用的全文索引/检索功能。

  Lucene运用了大量的面向对象设计思想。首先定义了一个与平台无关的索引文件格式,其次通过抽象系统的核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现,此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象式处理,最终达成一个低耦合、高效率、容易二次开发的检索引擎系统[4]。

  目前,Lucene得到了广泛应用,许多Java项目都使用了Lucene作为其后台的全文搜索引擎,比较著名的有:Jive(Web论坛系统)、Eyebrows(邮件列表HTML归档/浏览/查询系统)、Cocoon(基于XML的Web发布框架)等。

  3 Lucene系统模型

  3.1 Lucene系统结构

  Lucene搜索引擎由基础结构封装、索引核心、对外接口、查询分析器4大部分组成,如图1所示。

  索引核心是Lucene的重点,主要包括索引管理和数据存储管理。其中org.apache.lucene.index包实现对索引的建立、删除等操作[5],通过为每个分出的词建立索引,查询时只需遍历索引,从而极大地提高检索效率;org.apache.lucene.store包实现对索引文件的存储管理。基础结构封装是Lucene的基础,包括文档管理和公用类。其中org.apache.lucene.document实现对文档信息和域信息的管理;org.apache.lucene.util作为公共类,实现一些优化的数据结构和算法。对外接口包括检索和语言分析器,org.apache.lucene.analysis是语言分析器,主要用于切分词,把输入的文本分成一个个可供索引模块处理的“词语”。org.apache.lucene.search是检索管理器,提供用户检索接口,可以实现根据用户输入的查询条件进行查询。org.apache.lucene.QueryParser是查询分析器,其作用是解析用户输入的查询语句,对查询语句进行分析,然后返回一个查询对象(query),它还可以自定义查询规则,以实现像Google一样能支持查询条件的与、或、非等复合查询方式。

  3.2 Lucene检索流程

  基于Lucene的全文搜索,包含索引管理和搜索索引两个基本过程,其数据处理流程如图2所示。

  3.2.1 索引管理

  在创建索引时,先将被索引(待搜索的数据)的内容,作为文档(Document)信息,传给IndexWriter对象,在IndexWriter对象中,指定语言分析器Analyzer。语言分析器自动对文档进行分词处理,将文档分成一个个单独的单词,其中还要进行去除标点符号和停用词(像英语中的a、the、or等使用频率很多的冠词、介词、副词或连词)等处理,形成“词元(Token)”。词元传递给语言处理器进行相关处理,形成“词(Term)”,对于英语形式的词元进行语言处理时,一般做以下工作:将词元变为小写、将词元缩减为词根形式(例如“cars”转换成“car”)、将词元转变为词根形式(例如“drove”转换“drive”)等。最后索引组件依据语言处理产生的词形成词典,采用倒排索引法,形成一定数据结构的索引文件。

  3.2.2 搜索索引

  Lucene是针对索引进行查询的。先将用户输入的查询信息传递给QueryParser对象,该对象采用建立索引时类似的分词方法和语言处理方法,得到需要查询的单词和查询关键词;再根据查询语句的语法规则,进行语法分析,创建一棵语法树,形成Query对象;最后由IndexSearcher对象打开、读取索引目录中的索引文件,在反向索引表中,分别找出需要查询的单词文档链表,并根据语法树对文档链表进行交、差、并等操作,得到结果文档。   3.3 Lucene索引机制

  索引是Lucene进行全文搜索的基础,关系到检索的效率。在Lucene中,分析器只能对文本数据进行解析,并产生索引,对于其它类型的数据,需要将其转换成文本数据后,提交给分析器进行处理。Lucene在管理索引时,是通过索引文件管理的,在索引文件中既保存正向信息,也保存反向信息。

  3.3.1 正向信息

  在Lucene中,索引结构是一种层次结构。索引(index)由段(segment)组成,段由记录(document)组成,记录由域(field)组成,域由词(term)组成。每个层次都保存了本层次的信息以及下一层次的元信息,也即属性信息[6],其结构如图3所示。

  3.3.2 反向信息

  反向信息是索引文件的核心,记录的是倒排索引表。倒排索引源于实际应用中根据属性的值来查找记录的方式。索引表中的每一项都包括一个属性值和该属性值记录的地址。在Lucene中,索引表中的项是文档单词,其属性是包含单词的文档号、在文档中的出现频次及位置,如图4所示。反向信息主要包括倒排索引表中的词典(Term Dictionary)和倒排表(Posting List)。

  4 Lucene应用

  Lucen提供了全文检索框架,具备完整的查询引擎和索引引擎,为数据访问和管理提供了简单的函数调用接口。在应用Lucene搭建全文检索系统时,由于应用领域不同,需要进行二次开发,以扩展系统功能。

  4.1 构建数据采集器

  能被Lucene索引的数据是文本数据。实际应用中,待检索数据有许多种格式和来源,例如:PDF文件、Word文件、XML文件,以及互联网的网页文件。在具体实施时,需要按照应用需求,对这些不同格式的文件分别进行处理,从中提取出纯文本格式信息,并建立对应的Lucene文档,再提交给索引管理器进行索引。

  在处理PDF文件、Word文件等二进制文件时,可以借助第三方的接口和应用程序,对文件进行数据提取。例如在处理PDF文件时,可以使用PDFBox接口进行文件分析并提取数据;在处理Word文件时,可以使用JACOB、POI等从中提取数据等;在处理互联网上的网页时,可以通过网络爬虫等方式对网页数据抓取,并使用网页分析技术,先去掉其中的HTML标记,再提取网页内容。

  4.2 扩展分词器

  Lucene在org.apache.lucene.analysis中定义了接口,提供了可供应用系统使用的语言处理能力。Lucene默认已经实现了英文等语言的简单词法分析逻辑(按照空格分词,并去除常用的语法词,如英语中的is、am、are等)。但是,在具体应用时,由于每个语种的习惯和处理词的方法差异较大,例如在汉语中词语的分割与英语就有很大的不同。因此,使用Lucene提供的ChineseAnalyzer和CJKAnalyzer对中文分词效果并不明显,不能满足系统对中文的分词要求,此时可以采用analysis接口实现的方式,自定义分词算法,以实现对中文的个性化分词。

  5 结语

  Lucene本质上是一个信息检索的类库(Library),它具有高效、简洁、易用的特点,在信息检索中有着非常广泛的应用。Lucene采用了倒排索引技术,实现了高效的索引管理和检索。Lucene只以文本格式的数据作为索引对象,在实际应用中,可以开发针对各种不同类型数据的采集器,以扩展系统数据处理的广度;可以在Lucene提供的分词器基础上,针对语言系统特点,开发新的分词器,以扩展系统数据处理的深度。

  参考文献:

  [1]刘东君.基于Lucene非结构化文档全文检索系统研究与实现[J].软件导刊,2013,12(10):100102.

  [2]李永春.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):1215.

  [3]李明宙.Lucene全文检索引擎的结构机制与应用方式[J].广西科学院学报,2012,26(4):433435.

  [4]周平.Lucene全文检索引擎技术及应用[J].重庆工学院学报:自然科学版,2007,21(4):8688.

  [5]何伟.基于Lucene的全文搜索引擎的设计与实现[J].情报杂志,2006(9):8890.
  讲师论文发表期刊推荐《计算机与现代化》杂志成为“中国科技核心期刊”、“中国科技论文统计源期刊”! 《计算机与现代化》系《中国学术期刊综合评价数据库来源期刊》;《中国学术期刊(光盘版)》、《中国期刊网》、《中国数字化期刊群》、《中国核心期刊(遴选)数据库》全文引用期刊。



  • 职称晋升申请书范本2篇

    2025-02-22
    撰写职称晋升申请书时,您需要清晰、专业地展示您的工作成就、专业能力以及对职位提升的渴望。以下是 职称晋升申请书范本2篇 ,您可以根据实际情况进行调整: 1、医、护人员职称晋升申请书范文1篇 尊敬的领导: 本人于xxxx年毕业于xxxx护理专业,毕业后在医院中心监护
  • 高分子化学sci期刊一览 Q1-Q4都在这里

    2025-02-22
    在化学装爷领域中,高分子化学sci期刊众多,按照JCR分区,从Q1到Q4区都有涵盖,作者可根据单位和论文质量选择合适的期刊投稿。以下是 高分子化学sci期刊一览 Q1-Q4都在这里 ,供大家参考: 1、 CHINESE JOURNAL OF POLYMER SCIENCE JCR:Q2区 IF:4.1 致力于发表高分子
  • 2025年RCCSE期刊目录更新到第几版?第七版

    2025-02-22
    截至2025年2月22日,RCCSE期刊目录已经更新到了第七版 。第七版RCCSE中国学术期刊目录是在2024年12月6日至8日召开的第七届中国期刊质量与发展大会上正式发布的,具体详情如下: 1、RCCSE期刊是什么意思 RCCSE期刊是指被武汉大学中国科学评价研究中心(Research Center
  • 论文二审还会给原来的审稿人吗?接受率多少

    2025-02-22
    二审是论文发表期刊过程中最为严格且重要的环节之一,审稿周期较长,建议作者耐心等待。对于, 论文二审还会给原来的审稿人吗 ? 并没有一个统一的答案,可能是原来的审稿人,也可能是新的审稿人,具体取决于期刊的具体政策和审稿人的可用性。 关于论文二审是否还会送
  • 速看!审稿出版最快的教育学SSCI期刊及选题推荐

    2025-02-21
    在教育学领域,被ssci收录的期刊众多,想要选择审稿出版快的期刊,对于新手作者来说确实很难,而且出版周期长短与论文质量、期刊的影响力等因素有直接的关系。今天在这里为大家汇总整理了部分 审稿出版最快的教育学SSCI期刊及选题 ,供大家参考: 一、审稿出版最快的教
回到顶部