一种轻量级Web网络爬虫的研究与实现

[复制链接]
查看: 175|回复: 0

2万

主题

3万

帖子

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
72887
发表于 2024-1-13 14:08:36 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
搜索引擎作为一种信息检索技术在互联网时代的应用,使人们能够快速的获取各种资源,而网络爬虫做为搜索引擎的核心无疑有着举足轻重的作用。        本文首先对网络爬虫做了全面的分析介绍,包括通用网络爬虫和主题网络爬虫两种,并且对通用爬虫中google crawler和mercator做了详细介绍,另外还对网络爬虫的一些关键技术进行了介绍。基于这些关键技术,本文设计了一个轻量级的分布式网络爬虫系统LWWC,重点介绍了其中的各个模块。        LWWC爬虫系统具体包括以下部分:1.        爬虫控制节点;在分布式爬虫系统中,控制节点就相当于是系统的核心中枢,需要它来协调各个下载节点,同时控制节点还需要对链接进行统一的管理,即对URL的路由转发。2.        爬虫下载节点;爬虫下载HTML页面的实际工作是由下载节点来具体完成的,它的主要任务就是不断的从控制节点获取URL,然后不断的从Internet下载Web页面,并且将解析的URL传送给控制节点。3.        MRER算法;是LWWC系统使用的链接去重算法,它是基于Map-Reduce模型,采用分治的磁盘管理方法来对URL进行过滤去重.4.        其它模块,包括页面解析器、过滤器和使用的一些其它技术。        在实验部分中,除了对LWWC系统的整体性能进行验证外,还对MRER算法进行了验证。通过对最终实验数据进行分析,从而得出最后的结论。





上一篇:涉密企业文档密级标识和安全控制技术的研究与实现
下一篇:用户上网行为审计系统的设计与实现
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图