论文降重

基于语义的搜索引擎算法研究[范文]

时间:2018-02-24 08:22:57 编辑:知网查重入口 www.cnkiid.cn

摘 要:随着科技的逐步发展,海量的信息充斥在人们的工作、生活中,让人们在享受便利的同时,也感觉到了困扰。在互联网领域中,针对如何快速的进行对搜索内容的检索以及对信息快速准确的捕捉这一问题,逐渐成为互联网领域的一个研究热点。

针对中文传统搜索引擎无法满足用户更快、更准确的查找自己所需信息的问题,文中对基于语义搜索引擎与传统搜索引擎的工作原理、服务对象以及服务内容进行了讨论,阐述了基于语义搜索引擎的模型结构和特点,又分别从空间向量模型和基于语义词典相似度两方面对基于语义搜索引擎的文本相似度算法进行了分析。文本相似度可以分为词语相似度、句子相似度和段落相似度,本文从实际应用出发,通过同义词词林以及知网词汇相似度两个方面对词语相似度展开了讨论,从不同的角度分析了词语相似度的具体计算方法。在查阅了大量文献、资料的基础上,通过空间向量模型,使用C#语言实现了计算文本相似度的功能。

链接关系矩阵公式

链接关系矩阵公式

通过讨论基于语义的搜索引擎以及文本相似度算法,基本上完成了对基于语义搜索引擎文本相似度算法的分析,初步达到了预期的效果,并通过程序实现了文本相似度的计算。为教育、数字图书馆、药品信息提取、医学领域等方面信息的快速、准确的检索提供了参考,为基于语义搜索引擎其他算法的深入学习提供了坚实的基础。

1、 序言

随着科技的逐步发展,海量的信息充斥在人们的工作、生活中,让人们在享受便利的同时,也感觉到了困扰。在互联网领域中,针对如何快速的进行对搜索内容的检索以及对信息快速准确的捕捉这一问题,吸引了更多专家学者的研究目光。

相较于传统搜索引擎,基于语义的搜索引擎的出现大大提高了搜索引擎的召回率和查找精度。其中,构成算法作为搜索引擎结构的基础,对用户类型信息的剖析、扩展和搜寻起到了决定性的作用。本文将重点介绍基于语义的搜索引擎和基于语义的文本相似性算法。

1.1 研究的背景和意义

随着互联网时代的飞速发展,如何快速对信息进行捕捉已然成为互联网领域研究的一个热点内容。然而传统搜索引擎[1](全文搜索引擎、分类目录搜索引擎和元搜索引擎)无法满足时代的发展,查全率和查准率欠佳。这时,出现的基于语义的搜索引擎,能够对用户输入的关键词的真正含义进行概念上的捕获(包括同义扩展检索和相关概念联想检索两个方面),使得搜索范围更准确、搜索效率也进一步提高,从而更准确地向用户返回结果,提高搜索引擎的查全率和查准率。

与传统搜索引擎相比,基于语义的搜索引擎有更高的易用性,其智能的分词系统,使得查询变得更加简单和快捷,减少了对无用信息的检索,让信息检索更具智能型,同一个词可以有不同的表达方式,对搜索范围更加明确,能够更好更快的满足用户的需求。

文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,其相似度主要表现在字面的重复度上,是一个比较系统且基础的工程。文本相似度算法有着比较广泛的应用,如:文本查重。一般情况下论文会被要求不能出现重复,这时,应用文本相似度算法对文章过进行重复性检测,就会查出相似度高的文本。因此,通过对搜索引擎文本相似度算法的研究,有利于掌握文本中词语、句子以及段落之间的联系,实现信息的形式化、语义化表示,并且可以通过对词语的语义扩展,将信息检索从关键词方面提升到基于概念方面,然后根据文本之间相似度的高低,对网页的信息进行快速筛选,找到适合自己的信息,更好地实现与用户之间的交互.对教育、数字图书馆、药品信息抽取、医学领域等方面信息的快速、准确检索提供参考。

 论文写好后想知道重复率是多少?更多论文查重经验请查看本站的论文查重频道。