答案来源:雅宝题库交流网(www.ybaotk.com)-[南开大学(本部)]《网络爬虫与信息提取》20春期末考核
试卷总分:100 得分:100
第1题,如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()
A、列表
B、元组
C、字典
D、集合
正确答案:
第2题,使用UI Automatorr输入文字的操作是得到相应控件后使用命令()
A、settext
B、set
C、set_text
D、text
正确答案:
第3题,在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:
第4题,HTTP常用状态码表明服务器正忙的是()
A、500
B、503
C、403
D、404
正确答案:
答案来源:雅宝题库交流网(www.ybaotk.com),如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A、XSS
B、DOS
C、DDOS
D、跨域
正确答案:
第 题,使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A、exist
B、exists
C、isnull
D、contains
正确答案:
第1题,带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
A、Cookie
B、Html
C、Headers
D、CSS
正确答案:
第8题,Redis中查看一个列表长度,使用关键字()
A、len
B、length
C、llen
D、count
正确答案:
第9题,使用Xpath获取文本使用()
A、text
B、text()
C、content
D、content()
正确答案:
答案来源:雅宝题库交流网(www.ybaotk.com),使用python定制mitmproxy,下面的语句请求的是()。{re .headers[& uot;User-Agent& uot;]}
A、headers
B、文本内容
C、目标网站
D、user-agent
正确答案:
第11题,Python中Object={1, 2, 3, 4, 5},则Objcet是()
A、列表
B、元组
C、字典
D、集合
正确答案:
答案来源:雅宝题库交流网(www.ybaotk.com),在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:
第13题,Redis是一个开源的使用()语言编写
A、ANSI C
B、C++
C、JAVA
D、Python
正确答案:
第14题,某些网站在发起Ajax请求时会携带()字符串用于身份验证
A、Token
B、Cookie
C、Re Time
D、sum
正确答案:
答案来源:雅宝题库交流网(www.ybaotk.com),使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
A、wakeup
B、light
C、bright
D、sleep
正确答案:
第1 题,Chrome的开发者工具中哪个选项可以查找到cookies
A、Elements
B、Sources
C、Network
D、Peformance
正确答案:
第11题,Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A、列表
B、元组
C、字典
D、集合
正确答案:
第18题,以下哪个命令是创建文件夹命令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:
第19题,可以通过()绕过网站登录。
A、session
B、cookies
C、moonpies
D、localstorage
正确答案:
答案来源:雅宝题库交流网(www.ybaotk.com),Python中把列表转换为集合需要使用##函数
A、set
B、list
C、convert
D、change
正确答案:
第21题,Python中的容器有()
A、列表
B、元组
C、字典
D、集合
正确答案:,B,C,D
第22题,HTTP常用状态码表明表明服务器本身发生错误的有()
A、403
B、404
C、500
D、503
正确答案:,D
第23题,Python中哪种容器生成后可以修改内容
A、列表
B、元组
C、字典
D、集合
正确答案:,C,D
第24题,最常见的HTTP请求类型有()
A、GET
B、POST
C、SEND
D、RECEIVE
正确答案:,B
答案来源:雅宝题库交流网(www.ybaotk.com),BS4可以用来从()中提取数据
A、HTML
B、XML
C、数据库
D、JSON
正确答案:,B
第2 题,在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
T、对
F、错
正确答案:F
第21题,使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
T、对
F、错
更多答案下载:雅宝题库交流网(www.ybaotk.com)
第28题,process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案:F
第29题,Robo 3T与RoboMongo是完全不一样的软件
T、对
F、错
正确答案:F
答案来源:雅宝题库交流网(www.ybaotk.com),Python正则表达式中& uot;.*?& uot;是非贪婪模式,获取最短的能满足条件的字符串。
T、对
F、错
更多答案下载:雅宝题库交流网(www.ybaotk.com)
第31题,Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
T、对
F、错
正确答案:F
第32题,爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
T、对
F、错
正确答案:F
第33题,在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
T、对
F、错
正确答案:F
第34题,middlewares.py是下载器中间件
T、对
F、错
正确答案:F
第35题,在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
T、对
F、错
正确答案:F
第3 题,使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控##中的数据,并不读取start_urls中的数据。
正确答案:
第31题,一般通过##表达式来解析网页数据
正确答案:
第38题,实现异步加载需要利用##技术
正确答案:
第39题,Python中定义函数关键字为##
正确答案:
第40题,Python正则表达式中search和findall方法比较
正确答案:
第41题,在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?
正确答案:
第42题,multiprocessing
正确答案:
第43题,URI
正确答案:
第44题,CSS
正确答案:
第45题,HTML
正确答案: |