基于本体的元搜索结果聚类算法的设计与实现

[复制链接]
查看: 371|回复: 0

4万

主题

4万

帖子

13万

积分

论坛元老

Rank: 8Rank: 8

积分
137733
发表于 2022-4-11 20:20:12 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
随着互联网上信息的激增,人们通常利用搜索引擎来查询信息。然而,单一搜索引擎的网页覆盖率往往比较低,用户有时需要查询多个搜索引擎并将其结果进行人工综合。另外,现有的搜索引擎对于用户的查询返回一个长而无层次的列表,这种结果展示方式在用户易用性方面往往达不到预期目标。因为用户需要逐条阅读判断以寻找自己所需的信息,而在对多义词进行检索时,这种结果展示方式给用户带来的不便显得尤为突出。带有在线聚类功能的元搜索引擎可以解决现有搜索引擎存在的上述缺陷。元搜索引擎将多个成员搜索引擎的结果进行收集整合,提高了检索结果的查全率。而Web文档聚类功能又可以自动将搜索引擎返回的结果进行聚类,帮助用户缩小查询范围并快速定位所需信息。本文对现有的元搜索引擎和带有在线聚类功能的搜索引擎进行了研究,提出了一种基于本体的元搜索结果聚类算法。与传统的聚类算法不同,本文采用的方法首先对搜索引擎返回的结果进行预处理,分别提取出每条检索结果的标题、摘要和链接信息。然后利用广义后缀数组提取出检索结果两两之间的最长公共子串并对最长公共子串进行切词。为了使聚类标签更具可读性,本方法随后结合hownet中的语义信息计算最长公共子串里词语间的相似度并构建词汇链,利用词汇链提取出最能代表文档内容的特征词并在此基础上建立文档特征模型。在聚类过程中,本文采用一种具有较低复杂度的改进的Chameleon算法实现了Web文档的聚类。对于科技类垂直搜索引擎的网页聚类,本文结合科技领域本体,采用一种基于字典树结构的特征词语匹配算法,实现了对特定领域网页的聚类。本文最后对算法进行了编码实现,并将其与其他具有类似功能的系统进行了比较。通过对比实验可以发现,采用本文描述的方法实现的系统比基于分词的中文Web文档聚类算法和传统的STC算法在性能和聚类效果方面具有一定的优势,从而证明了该算法的可行性和有效性。





上一篇:无线网络分布式仿真系统的设计与实现
下一篇:推力矢量飞机敏捷性研究
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图