[南开大学(本部)]《网络爬虫与信息提取》20春期末考核(参考答案)

[复制链接]
查看: 859|回复: 5

5万

主题

8万

帖子

18万

积分

论坛元老

Rank: 8Rank: 8

积分
189561
发表于 2020-9-4 10:43:31 | 显示全部楼层 |阅读模式
答案来源:雅宝题库交流网(www.ybaotk.com)-[南开大学(本部)]《网络爬虫与信息提取》20春期末考核
试卷总分:100    得分:100
第1,如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()
A、列表
B、元组
C、字典
D、集合
正确答案:


第2题,使用UI Automatorr输入文字的操作是得到相应控件后使用命令()
A、settext
B、set
C、set_text
D、text
正确答案:


第3题,在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:


第4题,HTTP常用状态码表明服务器正忙的是()
A、500
B、503
C、403
D、404
正确答案:


答案来源:雅宝题库交流网(www.ybaotk.com),如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A、XSS
B、DOS
C、DDOS
D、跨域
正确答案:


第 题,使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A、exist
B、exists
C、isnull
D、contains
正确答案:


第1题,带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
A、Cookie
B、Html
C、Headers
D、CSS
正确答案:


第8题,Redis中查看一个列表长度,使用关键字()
A、len
B、length
C、llen
D、count
正确答案:


第9题,使用Xpath获取文本使用()
A、text
B、text()
C、content
D、content()
正确答案:


答案来源:雅宝题库交流网(www.ybaotk.com),使用python定制mitmproxy,下面的语句请求的是()。{re .headers[& uot;User-Agent& uot;]}
A、headers
B、文本内容
C、目标网站
D、user-agent
正确答案:


第11题,Python中Object={1, 2, 3, 4, 5},则Objcet是()
A、列表
B、元组
C、字典
D、集合
正确答案:


答案来源:雅宝题库交流网(www.ybaotk.com),在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:


第13题,Redis是一个开源的使用()语言编写
A、ANSI C
B、C++
C、JAVA
D、Python
正确答案:


第14题,某些网站在发起Ajax请求时会携带()字符串用于身份验证
A、Token
B、Cookie
C、Re Time
D、sum
正确答案:


答案来源:雅宝题库交流网(www.ybaotk.com),使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
A、wakeup
B、light
C、bright
D、sleep
正确答案:


第1 题,Chrome的开发者工具中哪个选项可以查找到cookies
A、Elements
B、Sources
C、Network
D、Peformance
正确答案:


第11题,Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A、列表
B、元组
C、字典
D、集合
正确答案:


第18题,以下哪个命令是创建文件夹命令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:


第19题,可以通过()绕过网站登录。
A、session
B、cookies
C、moonpies
D、localstorage
正确答案:


答案来源:雅宝题库交流网(www.ybaotk.com),Python中把列表转换为集合需要使用##函数
A、set
B、list
C、convert
D、change
正确答案:


第21题,Python中的容器有()
A、列表
B、元组
C、字典
D、集合
正确答案:,B,C,D


第22题,HTTP常用状态码表明表明服务器本身发生错误的有()
A、403
B、404
C、500
D、503
正确答案:,D


第23题,Python中哪种容器生成后可以修改内容
A、列表
B、元组
C、字典
D、集合
正确答案:,C,D


第24题,最常见的HTTP请求类型有()
A、GET
B、POST
C、SEND
D、RECEIVE
正确答案:,B


答案来源:雅宝题库交流网(www.ybaotk.com),BS4可以用来从()中提取数据
A、HTML
B、XML
C、数据库
D、JSON
正确答案:,B


第2 题,在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
T、对
F、错
正确答案:F


第21题,使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
T、对
F、错
更多答案下载:雅宝题库交流网(www.ybaotk.com)


第28题,process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案:F


第29题,Robo 3T与RoboMongo是完全不一样的软件
T、对
F、错
正确答案:F


答案来源:雅宝题库交流网(www.ybaotk.com),Python正则表达式中& uot;.*?& uot;是非贪婪模式,获取最短的能满足条件的字符串。
T、对
F、错
更多答案下载:雅宝题库交流网(www.ybaotk.com)


第31题,Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
T、对
F、错
正确答案:F


第32题,爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
T、对
F、错
正确答案:F


第33题,在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
T、对
F、错
正确答案:F


第34题,middlewares.py是下载器中间件
T、对
F、错
正确答案:F


第35题,在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
T、对
F、错
正确答案:F


第3 题,使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控##中的数据,并不读取start_urls中的数据。
正确答案:


第31题,一般通过##表达式来解析网页数据
正确答案:


第38题,实现异步加载需要利用##技术
正确答案:


第39题,Python中定义函数关键字为##
正确答案:


第40题,Python正则表达式中search和findall方法比较
正确答案:


第41题,在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?
正确答案:


第42题,multiprocessing
正确答案:


第43题,URI
正确答案:


第44题,CSS
正确答案:


第45题,HTML
正确答案:





上一篇:[南开大学(本部)]《管理会计》20春期末考核(参考答案)
下一篇:[南开大学(本部)]《程序设计基础(上)》20春期末考核(参考答案)
回复

使用道具 举报

0

主题

2万

帖子

4万

积分

论坛元老

Rank: 8Rank: 8

积分
40028
发表于 2020-9-4 10:44:08 | 显示全部楼层
老师告诉我的蛮不错!
回复

使用道具 举报

0

主题

2万

帖子

4万

积分

论坛元老

Rank: 8Rank: 8

积分
40028
发表于 2020-9-4 10:44:58 | 显示全部楼层
下载一份试试!
回复

使用道具 举报

0

主题

3482

帖子

5226

积分

论坛元老

Rank: 8Rank: 8

积分
5226
发表于 2022-3-12 14:31:53 | 显示全部楼层
四川电大形考作业可以做吗?
回复

使用道具 举报

0

主题

3401

帖子

5102

积分

论坛元老

Rank: 8Rank: 8

积分
5102
发表于 2022-3-14 01:45:48 | 显示全部楼层
雅宝题库就是不错!
回复

使用道具 举报

0

主题

3443

帖子

5165

积分

论坛元老

Rank: 8Rank: 8

积分
5165
发表于 2022-3-14 08:38:34 | 显示全部楼层
奥鹏四川大学作业可以做吗?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图