goback
月期刊咨询网
当前位置:首页>>电子技术论文>>正文

计算机信息论文面向协调搜索的文本相似度计算方法


所属栏目:电子技术论文
发布时间:2014-08-21 15:46:16  更新时间:2014-08-21 14:48:54

已签订领域:化学工程/制药,医学题目:**作为抗癌剂***催化剂**取代苯丙***SCI四区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:用**电***生物传感器**癌症**SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:**氧化石墨烯纳米***材料的生物传感器***结肠癌生物**癌胚****SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:聚合物纳米***a-硫辛酸***在神经炎症***应用***临床分析SCI二区 直击了解更多选题

已签订领域:计算机视觉/遥感/智能驾驶/汽车题目:**深度学习***高分辨率遥感***车辆检***SCI三区 直击了解更多选题

已签订领域:企业管理题目:社会交流***领导***倾向***方向SSCI,SCI三区,二区 直击了解更多选题

已签订领域:企业管理题目:**中小企业社交媒体****可持续绩效***因素探析SSCI,SCI三区,二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:利用硫氨酸***石墨烯纳米***电化学***传感器实现癌胚抗原***SCI二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:基于抗***纳米复合***高性能***早起癌症诊断***SCI二区 直击了解更多选题

已签订领域:经济,能源题目:***政治冲突****绿色金融、金融**、气***化***SCI四区 直击了解更多选题

已签订领域:经济,能源题目:冲***中能源不安全对***和环境***SCI四区 直击了解更多选题

已签订领域:教育题目:大学生***社交媒体***成绩影响***SSCI三区 直击了解更多选题

已签订领域:教育题目:巴基斯坦***学习实施的***的**SSCI二区 直击了解更多选题

已签订领域:教育题目:大学生对****下网络教学**思***SSCI二区 直击了解更多选题

已签订领域:教育题目:**教师和学生对影响***医疗**效果的****看法SSCI三区 直击了解更多选题

已签订领域:计量经济学题目:**货币、黄金、**和美国***的波动***相互依赖性:**数据的分析SSCI一区 直击了解更多选题

已签订领域:计量经济学题目:东南亚***内**趋同***中等收入**:新**的***SSCI二区 直击了解更多选题

已签订领域:建筑,历史题目:历史景点在***旅游发***中的***影响**(**研究:**历史***)SSCI,SCI一区 直击了解更多选题

已签订领域:领导力,管理题目:量化**领导对角色绩效***响:**冲突与工作自主性***作用SCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:数字***环境对学生学习成绩***:游戏**和***现实在教育***作用SSCI四区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***续决策之间的***:创新***识的**作用SSCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:课程**对大学生***发展的影响:学习习惯和***的***作用SSCI一区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***与可持续决策**:高等***学生认知***作用SSCI二区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语****学**与人工智能****学习SCI三区 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐**对学生成绩***的影响SCI三区 直击了解更多选题

已签订领域:人体工程,心理学题目:基于预先处理模型***模式人体工程学***女生肌肉骨骼***预防行为*** 直击了解更多选题

已签订领域:人体工程,心理学题目:制定一个***人体工程学**,以识别、优先考虑***职业压力源的*** 直击了解更多选题

已签订领域:人体工程,心理学题目:多重工作**压力和工作***:***工效学方法的混合方法*** 直击了解更多选题

已签订领域:数学,经济题目:数学模型***结构调整和经济转型****研究 直击了解更多选题

已签订领域:数学,经济题目:***时间**数学模型在***媒体营销**中的应用*** 直击了解更多选题

已签订领域:数学,经济题目:***时间**模型在***物流运**能力***研究 直击了解更多选题

已签订领域:数学,经济题目:碳****经济的数学模型****研究 直击了解更多选题

已签订领域:农村经济题目:农****社区**发展***分**SCI四区 直击了解更多选题

已签订领域:农村经济题目:创业***对乡村****发展的****SCI四区 直击了解更多选题

已签订领域:农村经济题目:农村创业****的空间*****究SCI四区 直击了解更多选题

已签订领域:医学,电化学题目:纳米颗粒*****及其在癌症****和重金属*****检测中的应用SCI三区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****前列腺癌药物氟****检测方法的*****腺癌治疗SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:气海***********金纳米颗粒的新型****************粘土及其对胃癌********************抗癌SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于抗***********GCE纳米***********材料的高性能*******************早期癌症SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:用******电化学生物传感器*****癌症***************SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****石墨烯纳米****材料的生物传感******用于测定结肠*****生物*****SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:聚合***纳米复合电极*****疏辛酸电化学检测*********SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:利用****酸/**糖**石墨烯纳米复合修饰的电化学*****SCI二区 直击了解更多选题

已签订领域:环境能源,绿色投资题目:环境能源、绿色投资、城市化和环境类方向SCI三区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语教学**人工智能***习SCI 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐形式*学生***影响SCI三区 直击了解更多选题

已签订领域:经济,绿色投资题目:***能源效率***化之间的***SCI三区 直击了解更多选题

已签订领域:经济政策题目:***阐明**印度经济***的关系SCI三区 直击了解更多选题

已签订领域:经济,金融题目:***国家的能源***重***SCI 直击了解更多选题

已签订领域:经济,金融投资题目:***融新之间***直接投资***SCI三区 直击了解更多选题

已签订领域:经济,数学,统计学,管理学题目:非***想重限制下***袭评价***SSCI四区 直击了解更多选题

已签订领域:经济,数字,管理学题目:基干***生产系统***SSCI四区 直击了解更多选题

已签订领域:农业,土壤科学题目:不同***有机覆盖***养分循环SSCI 直击了解更多选题

已签订领域:电力与能源系统,管理题目:pv***氢定价的***随***型稀SSCI,SCI二区 直击了解更多选题

已签订领域:建筑规划,计算机题目:使用***因子分析法***可持续***SCI三区 直击了解更多选题

已签订领域:工程技术,纺织工程,材料科学题目:甘***淀粉酶的提取***退浆中的应用SCI四区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:饲料***镉毒性的交互***生长***病理学***SCI二区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:****鱼水源***起的生******SCI三区 直击了解更多选题

已签订领域:金融,环境经济题目:*****预算在能效、绿色***的作用SCI 直击了解更多选题

已签订领域:应用数学/计算物理题目:***非线性库***自相位调制***SCI三区 直击了解更多选题

已签订领域:计算机,医学检测题目:***COVID-19***力***算法***决策SCI三区 直击了解更多选题

已签订领域:计算机,物联网,智慧城市题目:基于***物联网****算法SCI三区 直击了解更多选题

  经济的发展使得计算机走进了千家万户,成为了人们日常工作、生活中获取信息,了解新闻资讯,甚至是购物等的重要帮手。网络的发展给人们的生活带来了极大的便利,从网上查找信息与看报纸、听新闻相比更加快捷和全面,越来越多的网民习惯于一键上网,获取所需的资讯。

  摘要:近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中。该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性。更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工。

  关键词:计算机信息论文,空间向量,相似度,迭代搜索

  Text Similarity Calculation Based on Search System

  SUN Cheng-cheng, LI Ai-ping, HUANG Jiu-ming

  (National University of Defense Technology, Changsha 410000, China)

  Abstract: In recent years, text similarity calculation has played a decisive role in text clustering, Web intelligent information retrieval, question answering system, Webpage duplicate removal, Natural Language Processing and many other files, especially in the search engine. This article briefly discusses the commonly used methods of text similarity computing, as well as the system of how to use text similarity calculation to determine the same multiple text. More important thing is proposing the concept of the iterative search, which made further refining information retrieval, as far as possible to ensure correctness, information retrieval to improve the efficiency, the liberation of artificial.

  Key words: space vector; similarity; iterative search

  1 概述

  我们都曾经或正在遭受着TB级数据的困扰,如何快速在这浩如烟海的信息中,快速准确的获取相关信息不仅仅能够节省大量的时间,提高工作效率,也是测评搜索系统性能的关键。又由于汉语具有的不同于英文的独特的特点,使得针对于汉语言的具有针对性的搜索更加富有挑战性。为了提升系统性能,满足用户从互联网上得到对于特定问题更精确的答案,本系统应用余弦向量计算出依据用户搜索条件返回的文本之间的相似度,去除无关重要的噪音信息,确保系统的可靠性能。通常情况来说,由于搜索条件单一或者不准确等问题会影响初次搜索结果的准确性和深度,为了得到更多更全面的信息,我们往往要进行多次迭代搜索。传统做法中,一般都是利用人工在搜索返回的结果中反复比对,判断是否是相同信息,或者说是否是搜索的目标信息,为了保证结果的准确性,必然要耗费大量的人力和时间。

  本系统应用文本相似度计算就是要将人工从大量繁琐的信息检索和比对过程中释放出来,同时保证结果准确。虽然人工干预仍然是不可避免的,但是能够大大减少成本开销就是不容忽视的进步。我们用文本相似度来表示两个或者多个文本之间的匹配程度,相似度值是由0~1之间的数字来表示,相似度值越接近1,我们就认为待比较的文本之间的相似度就越高,反之,如果相似度值越接近0,我们则认为待比较文本之间的相似度就越低。文本相似度计算不仅仅应用在文本聚类、智能搜索等方面,更是在网页去重等很多自然语言处理领域中被广泛使用。能否有效的计算文本相似度是问题是否能解决的关键。本系统中文本相似度计算应用于判断搜索到的网页信息之间的相关程度,以提升智能化程度。

  2 传统的基于向量空间的文本相似度计算

  伴随着计算机技术的发展,人们越来越重视文本相似度的计算,到目前为止,已经完成了很多的算法研究,也有不同的侧重点,如Saton等研究的信息索引方法,用来计算短语与篇章之间的相似度[1];Willett研究的文档分类算法,用来计算篇章与篇章之间的相似度[2];Callan研究的文章段落检索等[3]。用到的文本相似度计算方法均是基于统计学的计算方法:向量空间模型、广义向量空间模型、隐性语义索引模型、基于属性论的方法、基于海明距离的计算方法、基于数字正文的重构方法等。这些方法均是基于大规模语料库和长时间的训练得到实验数据,具有很大的局限性。本系统中使用的是基于TF-IDF算法的空间向量模型,最大的不同之处在于,其他方法无论是研究篇章与篇章还是其他应用,都是判断较少文本之间的相似度,本系统立足于信息检索需求,围绕共同的事件或是其他搜索条件,进行信息搜索。相似度计算的目的是从返回的搜索返回的大量的文本中判断相似度,便于用户快速定位目的信息,给用户更好的使用体验。   在比较个两个文本相似度时,常用的基于向量空间的计算公式是根据欧几里得点积和量级公式推导:

  [a?b=a?b?cosθ]

  得到相似度计算公式:

  [Similarity=cosθ=A?BA?B=ni=1Ai+Bini=1Ai2ni=1Bi2]

  通过测量两个向量内机的夹角的余弦值来度量他们之间的相似性,如图1:

  图1 余弦向量相似度模型

  一般情况下来说,对于两篇给定的文档,如果经过文本预处理后得到的所有特征词都相同,那么我们就可以说,这两个文档相似度值为1;反之,如果所有特征值都不相同,我们就说,这两个文档相似度为0。通常来说,这种方法就可以判断出两篇或者少量文本之间的相似度。但是由于这种计算方法,忽略了同一特征词在不同文档中的词频,权重计算的策略过于简单,计算出来的结果往往不够准确。

  例如,A和B是两篇待计算的文档,表1中的两篇文档有三个词汇是相同的,根据以上算法,则两篇文档的相似度是极高的。但是从表中我们可以看到,文档A中词频数最高的是E,其次是D,在文档B中词频数都为0,文档B中词频数最高的是G,在文档A中的词频数同样为0,如果简单按照相同特征词数量进行比对必然会不恰当。

  表1 两篇文档词汇词频对照

  [文档 词汇\&D\&E\&F\&G\&H\&I\&A\&3\&5\&1\&0\&1\&1\&B\&0\&0\&1\&5\&1\&1\&]

  在现有系统中,如果只考虑词频数后的搜索结果如图1所示。

  3 基于TF-IDF算法的空间向量模型

  TF-IDF(term frequency―inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。它是一种基于统计的,评估某个字词对于特定的文件集或者语料集中某个文档的重要程度的方法。

  TF-IDF实际上是:TF * IDF,算法的主要思想是利用词频来进行分了,经常与Cosine算法一起来计算文本相似度。最常用的TF-IDF算法为:

  [TF-IDF= 某个词在文章中的出现次数文章的总次数 ×log文档总数包含该词的文档总数+1]

  将改进后的算法应用到系统中后,明显感觉到计算结果的改变。

  图2

  虽然引入TF-IDF后的结果,还有一定的不足,精确度还有待提升,但是我们可以很清楚的看到,在同一事件分类上,已经能够更大程度的减少人工干预,虽有不足,但依然可取。

  4 迭代查询中的文本相似度计算

  为了使检索结果更加精确化,我们在系统中引入了迭代搜索的概念。为了查找我们想要的信息,启动搜索系统后我们键入预先设定的搜索条件,由于搜索语言表述的不精确等原因,通常无法一次就能完成信息检索。我们在系统中提出了迭代搜索的功能,当用户再次搜索时,系统将根据初次检索的结果计算后得到的查询条件提供给用户,用户可以挑选这些查询条件进行迭代搜索,搜索结束后,系统将自动比对当次返回结果与最初返回结果的相似度,根据返回结果判断是否是同一事件。

  在保证准确性和提高效率的基础上,这一过程最大程度上节省了人力和时间开销,当然关键信息不可避免的要掺杂人工干预,虽然不能彻底将人工从信息检索过程中解放出来,但是对于搜索系统性能提升具有重大意义。这一信息检索提示功能类似于百度搜索引擎中的相关信息提示,不同的是,百度中的提示关键词是根据海量用户搜索整理出的词频算计的出,需要庞大的知识库做后盾,本系统中的搜索条件推荐,是根据用户的搜索意愿计算得出,具有鲜明的用户倾向。

  为了测试系统中条件生成策略是否正确,我们组织人力进行大量的实验。首先,从网络新闻中筛选出200个事件集,作为搜索的输入条件,经过大量反复的试验后,最终确定了推荐条件生成的最优策略。

  因此文本相似度计算的精确度是整个过程的关键点,是整个系统性能和效率的保证,在日后的工作中,将致力于文本相似度计算,尤其是在同一事件研判方面,以求极大程度将人工从浩瀚的数据中解放出来。

  (下转第4485页)

  (上接第4462页)

  5 结束语

  本文通过实验验证了不同算法下文本相似度计算的结果,证明了用这种方法判断同一事件的可行性,并指出了缺点。提出了多次搜索基础上的信息获取,当然有很多的不足之处,还亟待解决。后续工作将致力于解决实际应用过程中出现的各种问题,不断完善算法,期望得到更好的识别效果,提高效率和精确度,逐步将人工从信息搜索中解放出来。

  参考文献:

  [1] SALTONG, BUCKLEYC. Term-Weightingapproaches in automatic text retrieval[J]. Inf Processand Manage,1988,24(5):513-523.

  [2] WILLETTP.Recent trends in hierarchicaldocument clustering, a criticalrevieW [J]. Inf Processand Manage,1988,24(5):577-597.

  [3] CALLAN JP.Passage-levelevidenceindocumentretrieval [C]//Proceedings of the SeventeenthAnnualInternational ACM SIGIR Conference on Researchand Developmentin Information Retrieval.Dublin,1994:302-310.

  [4] 李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009(8):1966-1968.

  [5] 苟恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006(1):43-48.

  [6] 涂新辉,张红春.中文维基百科的结构化信息抽取及词语相关度计算方法[J].中文信息学报,2012(5):109-115.

  [7] Clement Farabet,Camille Couprie,Laurent Najman,et al.Learning Hierarchical Features for Scene Labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013.



  • 985和211副教授评职称认可的刊物推荐

    2024-11-28
    985和211院校的副教授评职称,对于个人学术声誉和职业发展是非常重要的,一般副教授发表期刊论文认可的刊物具有较高的学术水平和影响力。以下是对 985和211副教授评职称认可的刊物推荐 ,供大家参考: 1、SCI期刊 SCI期刊,即科学引文索引期刊,是国际学术界公认的权威
  • Sustainability期刊版面费多少

    2024-11-28
    《Sustainability》是一本由MDPI出版社出版的国际性、跨学科的开放获取学术期刊,专注于环境、文化、经济和社会可持续性的研究。那么, Sustainability期刊版面费多少 ? 从1900瑞士法郎上涨至2400瑞士法郎(约19266元人民币),适用于同行评审后接受的论文,该费用于
  • EI期刊论文查重的要求是什么

    2024-11-28
    能够在EI期刊论文发表论文,除了要有高质量的研究成果外,还要通过严格的查重审核。那么, EI期刊论文查重的要求是什么 ?详情如下: EI期刊作为国际学术期刊,对论文的原创性要求较高。查重作为确保论文原创性的手段,可有效避免学术不端行为发生,维护学术界的公平和
  • 评职称,国内高校认可scopus期刊吗?scopus期刊列表

    2024-11-28
    评职称,国内高校认可scopus期刊吗 ? 不同国内高校对scopus期刊评职称认可度可能存在一定的差异性。一些高校和科研机构确实认可scopus收录的期刊,尤其是研究生、博士生和教师晋升职称等方面,但也有一些高校是不认可的,因此在选择发表scopus期刊之前,一定要了解清
  • 解答SCI论文被语言拒稿的技巧

    2024-11-28
    对于国内作者来说,其中一大原因是语言表达,如sci论文出现大量的语法错误、中式英语表达,造成编辑或审稿人对文章内容的理解偏差,导致sci论文被拒稿。以下是 解答SCI论文被语言拒绝的技巧 ,希望能够帮助到你快速发表sci论文。 1、对sci论文专业润色和翻译 为了确保S
  • 中科院院士:94%中国科研SCI论文发表国外期刊,仅5.88%在国内期刊发表

    2024-11-18
    在2024上海科技与期刊高质量发展大会上,中国科学院院士、上海市科协主席张杰指出:2023年,我国科研人员共发表SCI(科学引文索引)论文73.96万篇,其中只有4.35万篇发表在国内期刊,占比5.88%,其余94.12%的论文都发表在国外期刊上。。 开幕式上,上海市科技期刊学会
  • 励志!安徽“扭扭车少年”在《Applied Intelligence》期刊上发表论文

    2024-11-15
    2024年11月, 张亮在国际人工智能领域高水平期刊《Applied Intelligence》(应用智能)上发表题为《Robot Motion Planning Algorithm Based on Deep Learning Optimization》(基于深度学习优化机器人运动规划的算法研究)的论文。 11月19日,张亮创办的公司首款外骨骼
  • 恭喜!《中国财政》入选长安街读书会学习核心来源期刊

    2024-11-14
    《中国财政》确实被正式选为长安街读书会干部学习的核心来源期刊之一。在2024年10月8日发布的《长安街读书会干部学习核心期刊目录》中,《中国财政》被列为核心期刊之一,其关注点在于中华民族现代文明。因此,可以确认《中国财政》正式入选长安街读书会干部学习核心来
  • 恭喜!上海科技期刊三本齐发,影响因子登顶学科王座

    2024-11-13
    据SCI数据库,2023年世界科技论文总数达248万篇,其中收录中国科技论文74万篇,数量居全球之首,占比30%;排名第二的美国,收录论文53万篇,占比21%。 目前,上海共有科技期刊358本,其中英文期刊82本,占比约20%,是全国平均的两倍;SCI期刊54本,其中Q1区期刊35本。
  • 西安交大:主办期刊《药物分析学报(英文)》入选百强榜单,总排名第七

    2024-11-12
    《2024中国英文科技期刊海外媒体传播影响力报告》的发布,彰显了中国科技期刊在国际舞台上的影响力。西安交通大学主办的《药物分析学报(英文)》(Journal of Pharmaceutical Analysis, JPA)在该报告中取得了显著成就,不仅成功进入百强榜单,而且取得了总排名第七的
回到顶部