[南开大学（本部）]《网络爬虫与信息提取》20春期末考核（参考答案）

bb20920d · 发表于 2020-9-4 10:43:31

答案来源：雅宝题库交流网（www.ybaotk.com）-[南开大学（本部）]《网络爬虫与信息提取》20春期末考核
试卷总分:100 得分:100
第1题,如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()
A、列表
B、元组
C、字典
D、集合
正确答案:

第2题,使用UI Automatorr输入文字的操作是得到相应控件后使用命令()
A、settext
B、set
C、set_text
D、text
正确答案:

第3题,在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:

第4题,HTTP常用状态码表明服务器正忙的是()
A、500
B、503
C、403
D、404
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A、XSS
B、DOS
C、DDOS
D、跨域
正确答案:

第题,使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A、exist
B、exists
C、isnull
D、contains
正确答案:

第1题,带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
A、Cookie
B、Html
C、Headers
D、CSS
正确答案:

第8题,Redis中查看一个列表长度,使用关键字()
A、len
B、length
C、llen
D、count
正确答案:

第9题,使用Xpath获取文本使用()
A、text
B、text()
C、content
D、content()
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,使用python定制mitmproxy,下面的语句请求的是()。{re .headers[& uot;User-Agent& uot;]}
A、headers
B、文本内容
C、目标网站
D、user-agent
正确答案:

第11题,Python中Object={1, 2, 3, 4, 5},则Objcet是()
A、列表
B、元组
C、字典
D、集合
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:

第13题,Redis是一个开源的使用()语言编写
A、ANSI C
B、C++
C、JAVA
D、Python
正确答案:

第14题,某些网站在发起Ajax请求时会携带()字符串用于身份验证
A、Token
B、Cookie
C、Re Time
D、sum
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
A、wakeup
B、light
C、bright
D、sleep
正确答案:

第1 题,Chrome的开发者工具中哪个选项可以查找到cookies
A、Elements
B、Sources
C、Network
D、Peformance
正确答案:

第11题,Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A、列表
B、元组
C、字典
D、集合
正确答案:

第18题,以下哪个命令是创建文件夹命令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:

第19题,可以通过()绕过网站登录。
A、session
B、cookies
C、moonpies
D、localstorage
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,Python中把列表转换为集合需要使用##函数
A、set
B、list
C、convert
D、change
正确答案:

第21题,Python中的容器有()
A、列表
B、元组
C、字典
D、集合
正确答案:,B,C,D

第22题,HTTP常用状态码表明表明服务器本身发生错误的有()
A、403
B、404
C、500
D、503
正确答案:,D

第23题,Python中哪种容器生成后可以修改内容
A、列表
B、元组
C、字典
D、集合
正确答案:,C,D

第24题,最常见的HTTP请求类型有()
A、GET
B、POST
C、SEND
D、RECEIVE
正确答案:,B

答案来源：雅宝题库交流网（www.ybaotk.com）,BS4可以用来从()中提取数据
A、HTML
B、XML
C、数据库
D、JSON
正确答案:,B

第2 题,在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
T、对
F、错
正确答案:F

第21题,使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第28题,process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案:F

第29题,Robo 3T与RoboMongo是完全不一样的软件
T、对
F、错
正确答案:F

答案来源：雅宝题库交流网（www.ybaotk.com）,Python正则表达式中& uot;.*?& uot;是非贪婪模式,获取最短的能满足条件的字符串。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第31题,Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
T、对
F、错
正确答案:F

第32题,爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
T、对
F、错
正确答案:F

第33题,在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
T、对
F、错
正确答案:F

第34题,middlewares.py是下载器中间件
T、对
F、错
正确答案:F

第35题,在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
T、对
F、错
正确答案:F

第3 题,使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控##中的数据，并不读取start_urls中的数据。
正确答案:

第31题,一般通过##表达式来解析网页数据
正确答案:

第38题,实现异步加载需要利用##技术
正确答案:

第39题,Python中定义函数关键字为##
正确答案:

第40题,Python正则表达式中search和findall方法比较
正确答案:

第41题,在MacOS下安装Scrapy，当pip的网络受到干扰导致安装的速度很慢时，应该如何应对？
正确答案:

第42题,multiprocessing
正确答案:

第43题,URI
正确答案:

第44题,CSS
正确答案:

第45题,HTML
正确答案:

A天热扇扇子 · 发表于 2020-9-4 10:44:08

老师告诉我的蛮不错！

A天热扇扇子 · 发表于 2020-9-4 10:44:58

下载一份试试！

韬123 · 发表于 2022-3-12 14:31:53

四川电大形考作业可以做吗？

wzz8211 · 发表于 2022-3-14 01:45:48

雅宝题库就是不错！

yuannn · 发表于 2022-3-14 08:38:34

奥鹏四川大学作业可以做吗？

[南开大学（本部）]《网络爬虫与信息提取》20春期末考核（参考答案）

天涯海角也要找到Ni：[南开大学（本部）]《网络爬虫与信息提取》20春期末考核（参考答案）

相关帖子

QQ微信同步：1144766066。

服务

网站

战略合作