面向文献检索结果的聚类技术研究和实现

[复制链接]
查看: 177|回复: 0

2万

主题

3万

帖子

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
72345
发表于 2023-10-6 19:25:05 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
随着互联网的快速发展,网络上的信息量正在呈爆炸式的增长,学术搜索引擎的出现为科研工作者检索学术信息带来了便利。然而,海量的信息资源以及查询信息不容易用简短词组准确表达,导致学术搜索引擎一次检索返回的结果过多,使用户不能迅速定位到自己感兴趣的信息结果。如何有效地组织检索结果对于学术搜索引擎来说是一项具有挑战性的工作。目前,大多数学术搜索引擎对于用户的查询仅仅通过关键词匹配和检索结果排序,输出一个冗长且无层次结构关系的线性列表。这样一个列表通常达不到用户检索的期望,尤其对多义词的查询,用户需要翻阅很多页才能查找到自己感兴趣的结果。如果能够对学术搜索引擎每次的检索结果集中的文本进行相应的过滤,并根据文本间的语义关系将结果集中的文本组织成不同的主题类,将能很好的引导用户完成信息浏览的过程,快速定位到其所需要的信息。为此,本文重点研究面向文献检索结果聚类的相关技术来改进传统文献检索结果的组织方式。首先,本文通过研究和分析相关文本过滤技术,给出一种基于潜在语义索引的文本过滤方法,实现对文献检索结果集的过滤。该方法通过分析用户的感兴趣示例文献来构建一个训练文本集,然后使用潜在语义分解技术构造用户兴趣模型,使文本过滤从关键词匹配上升到主题匹配。其次,该方法还可以根据用户的反馈来不断的改进和完善用户的兴趣模型,保证了模型的时效性。实验结果说明该方法在过滤的准确率和召回率方面都取得了相对较好的效果。其次,在研究相关聚类算法的基础上,本文给出了一种基于特征值学习的半监督k-means聚类方法。一方面,该方法利用特征权值学习方法来挖掘文本集中词项之间的潜在语义关系,为每个词项设置一个合适的权值参数,优化每个词在聚类中起到的作用;另一方面,该方法将有关聚类文本集的先验知识融入到文本聚类过程中来改善文本聚类的结果;从实验结果看,该聚类方法相比于标准的k-means,在聚类安排的准确性和聚类结果的质量上都有了大幅度的提高。然后,本文结合以上工作给出了面向文献检索结果的聚类方法,重点突出该方法的中心思想和簇标签的选取。该方法分为三个阶段:第一个阶段的主要工作是对要聚类的文献检索结果集进行预处理,抽取文本中的词项和关键词,将文献检索结果集中的文本向量化表示;第二个阶段是利用k-means算法对文本向量进行聚类处理,概括文本集中相关的主题类;第三个阶段是使用文本集中的关键词为每个簇生成相应的簇标签,并对簇排序。实验结果说明该方法有效地提高了用户的满意度,改善文献检索结果的组织方式。最后,通过应用以上方法和技术,实现了一个面向文献检索结果的聚类系统。该系统主要由基础支持、文本聚类、聚类结果可视化等模块组成,可以向用户展示具有清晰层次结构关系的检索结果,也可以为用户的二次检索提供线索。





上一篇:快速凝固TiNiCu合金的组织与性能
下一篇:基于Petri网的BPMN模型合理性分析技术研究与实现
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图