|
题目:
雅宝题库答案:
****此区域为收费内容**** 需支付 1 知识币后可查看,1币=0.01元查看答案
雅宝题库解析:
随着信息技术的不断进步,互联网上的信息量迅速增长,全球网页总量更是爆炸般地膨胀。搜索引擎作为互联网的一个入口,已经成为人们从互联网获取信息的不可或缺的工具。然而,由于网页的转载、复制和分享等原因产生的大量重复网页给搜索结果带来了很大的干扰;另一方面,重复网页也加重了人们的浏览负担,因此,检测并剔除重复网页有着十分重要的意义。本文首先设计了一种基于“行块”的网页正文抽取方法。该方法不必将网页的HTML源码解析成DOM树,直接从原始的HTML源码中提取正文内容,通用性好,而且有着较高的查全率和查准率。更重要的是,该方法的低时间复杂度,使得网页正文提取的效率大大提升。经正文抽取后,网页的重复检测题目就变为文本的重复检测。在对主流网页排重方法进行深入的研究和分析后,本文将基于SimHash思想的算法在MapReduce框架下进行了设计实现并予以改进。首先利用TF-IDF理论,将文本转换为由一系列二元组所组成的向量。为了降低计算量,本文设计了一种基于划分思想的预分类方法,将大规模的集合划分为多个规模较小的类簇,然后在每个类簇内部进行重复检测。基于SimHash思想的重复检测方法,将网页转换成指纹串,压缩的信息量较大,故准确率较低。针对这一题目,本文将SimHash方法检测出来的重复网页定义为“潜在重复网页”,潜在重复网页意味着高的重复概率但不一定是重复网页,然后对潜在重复网页采用基于最长公共子串的方法进行过滤,通过实验证明,在查全率保持不变的前提下,查准率提升约4%。本文设计的网页排重方法在Hadoop平台上进行了实现,在面对千万量级的网页时,重复检测工作能在可接受的时间内完成,并且方法有着很好的可扩展性。 |
上一篇:一种用于服务隔离的沙箱机制的研究与实现下一篇:氢氧气气喷注器燃烧流动显示及仿真
|