一 、单选题
1. 下列关于Python的说法错误的是( )。
A. Python是一种面向对象的解释型高级编程语言
B. 可移植性和可扩展性不强
C. 结构简单,语法和代码定义清晰明确
D. 易于学习和维护
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
2. 如需在Python中安装第三方工具库或包(packages),可以在终端使用的 命令是( )。
A. install (package的名称)
B. install pip (package的名称)
C. pip install (package的名称)国开一网一平台
D. pip (package的名称)
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
3. 下列关于抽样的说法错误的是( )。
A. 抽样有多种方法,如有放回抽样、无放回抽样等
B. 无放回抽样则将抽出来的个体从抽样对象中去除
C. 有放回抽样有可能对同一个个体抽中了多次
D. 无放回抽样会有重复的个体
答案:D
- 关注公众号【】,对话框内发送试题,获得答案。
4. 下列代码可以将数据data转换成数值型数据的是( )。
A. pd.to_numeric(data)
B. pd.to_num(data)
C. pd.to_number(data)国开一网一平台
D. pd.to_string(data)
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
5. 平稳时间序列的自相关系数图p阶截尾, 偏自相关系数图拖尾,可以识别为( )
A. MA(p)
B. ARIMA(p,q),q>0
C. AR(p)
D. ARMA(p,q),q>0
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 如图是某模型最小信息数值,根据结果可以选择最优模型是( )。
A. MA(1)
B. ARMA(1,1)
C. AR(1)
D. ARMA(0,1)
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列关于性能评估的指标说法错误的是( )。
A. 对于预测任务的数据挖掘,性能评估的指标包括平均绝对误差和均方根误差等,我们的目标是要做全覆盖、全正确的答案搜索服务。
B. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到
C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容
D. ROC曲线不是常用的评价方法
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于期望预测误差的说法错误的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下列不属于回归模型评价指标的是( )。
A. 平均绝对误差
B. 平均相对误差
C. 平均平方误差
D. 决定系数
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列属于聚类模型评价的内部指标的是( )。
A. DB指数
B. Jaccard系数
C. FM指数
D. Rand指数
答案:关注公众号【】,对话框内发送试题,获得答案。,我们的目标是要做全覆盖、全正确的答案搜索服务。
11. 下面哪个原则不是聚类过程中的类需要遵从的原则( )。
A. 同质性原则
B. 互斥性原则
C. 完备性原则
D. 充分性原则
答案:关注公众号【】,对话框内发送试题,获得答案。
12. 下列哪一项不属于聚类分析( )。
A. 系统聚类
B. 决策树
C. Kmeans
D. DBSCAN聚类
答案:关注公众号【】,对话框内发送试题,获得答案。
13. 当数据具有尖峰厚尾的分布特征或有离群点(即异常值)时,模型的稳健性( )。
A. 没有影响
B. 较好
C. 较差
D. 无法判断
答案:关注公众号【】,对话框内发送试题,获得答案。
14. 离散因变量具有两个选项或两种属性,离散因变量的属性往往是对立或互斥的模型是( )
A. 线性概率模型
B. 计数模型
C. 二元选择模型
D. 多重选择模型
答案:关注公众号【】,对话框内发送试题,获得答案。
15. 假定隐变量的随机误差项服从Logit分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
16. 下列关于相关系数r的说法不正确的是( )。
A. r具有对称性
B. r的数值的大小与x和y的计量尺度无关
C. r无法反映两个变量之间的因果关系
D. r≥0时,表明两个变量之间存在负线性相关关系
答案:关注公众号【】,对话框内发送试题,获得答案。
17. 若关联规则为{牛奶,尿布}→{啤酒}:{牛奶,尿布,啤酒},项集的支持度计数为2,而事务总数为5,则该项集的支持度为( )。
A. 0.4
B. 10
C. 2
D. 5
答案:关注公众号【】,对话框内发送试题,获得答案。
18. 变量或数据之间的两种主要关系的是( )。
A. 因果关系和相关关系
B. 因果关系和依存关系
C. 函数关系和相关关系
D. 函数关系和依存关系
答案:关注公众号【】,对话框内发送试题,获得答案。
19. 试想有如图的两类数据,“1”点表示一类数据,“0”点表示另一类数据,当k=1时,请问图中实心的圆点(从左到右)各自属于哪一类。( )
A. “1”;“1”
B. “1”;“0”,我们的目标是要做全覆盖、全正确的答案搜索服务。
C. “0”;“0”
D. “0”;“1”
答案:关注公众号【】,对话框内发送试题,获得答案。
20. (假定在某个节点)如果数据已经只有一类了,则该节点为叶节点,否则进行下一步。该算法是:( )
A. Hunt
B. ID3
C. CART
D. C4.5
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、多选题
1. 下面能够进行时间序列平稳性检验的是( )。
A. 自相关系数
B. 自相关图检验
C. 单位根检验
D. DW检验
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 下列关于随机森林算法,说法正确的是( )。
A. 建立决策树的过程中,需要注意采样和完全分裂两点;
B. 建立决策树过程中需要两个随机采样,即行采样和列采样;
C. 对于行采样,采样无放回的方式;国开一网一平台
D. 采用完全分裂的方式构建决策树,这样决策树的某个叶节点要么无法继续分裂,要么里面的所有样本都指向同一个分类。
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 下列不是判别分析的方法( )。
A. 距离判别国开一网一平台
B. 协方差阵判别
C. 聚类判别
D. 贝叶斯判别
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 下列关于期望预测误差的说法正确的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 下列属于由混淆矩阵导出的评价准则的是( )。
A. 准确率
B. 精确率
C. 召回率
D. F1 score
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 下列关于抽样的说法正确的是( )。
A. 抽样有多种方法,如有放回抽样、无放回抽样等
B. 无放回抽样则将抽出来的个体从抽样对象中去除
C. 有放回抽样有可能对同一个个体抽中了多次
D. 无放回抽样会有重复的个体
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 依据离散因变量选项的含义和次序的不同,可以将多重选择模型分为( ).
A. ordinal probit模型
B. 有序模型
C. 无序模型
D. ordinal logit模型,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列方法无法降低频繁项集的计算复杂度的是( )。
A. 减少候选项集的数目
B. 减少比较次数
C. 增加候选项集的数目
D. 增加比较次数
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下列关于类间距确定方法说法正确的是( )。
A. 离差平方和法要求样本间距离必须采用欧氏距离;
B. 重心法没有考虑每一类中所包含的样本点数目;
C. 类平均法没有充分利用各个样本的信息;
D. 使用离差平方和作为类间距离时,如果聚类聚得恰当,类内样本点之间的离差平方和应该较小,类间离差平方和应该较大。
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 统计和数据挖掘的主要区别是( )。
A. 统计侧重于从样本到总体的推断
B. 统计侧重于预测个体记录
C. 数据挖掘侧重于从样本到总体的推断
D. 数据挖掘侧重于预测个体记录
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、判断题
1. 白噪声序列是平稳时间序列。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 在调用statsmodels进行数据分析时,往往采用数据分析接口(api)的方式进行。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. Pearson相关系数是反映两个变量的线性相关程度,但它并不能够度量变量之间的非线性相关程度。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 对含有虚拟变量的回归方程进行分析,应当先确定分析的参照方程。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 模型越复杂,偏差越大,方差越小;模型越简单,偏差越小,而方差越大。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
6. DB指数刻画的是一个平均距离,该指数越大,说明聚类越好。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 快速聚类要事先确定聚类个数,但是运算速度很快,适合少量数据的情况。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. duplicated()函数会返回一个布尔数组,表明每一行是否与前面行有重复。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 决策树中,C4.5算法是ID3算法的延伸,可以处理缺失值、连续变量及剪枝等。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 决策树中,ID3算法只能处理定性变量,且一个变量使用过后就不能再次使用了。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、配伍题
1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。
A. ①真正类 ->
B. 如果一个点属于负类并且被预测到正类中
C. 如果一个点属于正类并且被预测到正类中
D. ②假正类 ->
E. 如果一个点属于正类并且被预测到负类中
F. ③真负类 ->
G. 如果一个点属于负类并且被预测到负类中
H. ④假负类 ->
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案