一 、单选题
1. 决策树算法中,将当前样本划分为两个子样本,使得生成的每个非叶节点都有两个分支的算法是( )
A. Hunt
B. ID3
C. CART
D. C4.5
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
2. 如图分别为k=1,k=10,k=30时,训练集数据与测试集数据的分布,说法正确的是( )
k=1
k=10
k=30,我们的目标是要做全覆盖、全正确的答案搜索服务。
A. 近邻选得越多,模型越容易受敏感点的影响。
B. 近邻选得越少,模型越容易受敏感点的影响。
C. 近邻选得越少,模型越稳健,但是不容易发现一些敏感部分。
D. 近邻选得越少,模型越稳健,越容易发现一些敏感部分。
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
3. 在回归学习中常用的损失函数是( )。
A. 0-1损失函数
B. 平方损失函数
C. 指数损失函数
D. 负二项损失函数
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
4. 下列关于决定系数的说法不正确的是( )。
A. 越接近于0说明模型拟合得越好
B. 决定系数是指模型解释了的数据波动的比例
C. 取值区间为[0,1]
D. 越接近于1说明模型拟合得越好
答案:A
- 关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于期望预测误差的说法错误的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 下列关于AUC的说法不正确的是( )。
A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分
B. 通常取值在0.5~1
C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值
D. AUC值(面积)越小的分类器,性能越好
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列关于聚类方法说法正确的是( )
A. DBSCAN聚类可以用于数据分布不均匀,呈块状分布,并且聚集形态是任意形状的情况。
B. 快速聚类要事先确定聚类个数,但是运算速度很快,适合少量数据的情况。
C. 系统聚类可以给出聚类过程,但是要事先确定聚类个数。
D. 聚类分析中,快速聚类一般用于小样本情况下的样本聚类。
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 在聚类分析中,如果新类与其他类别之间存在多个点与点之间的距离,将公式Dkn= Dkp+Dkq2-Dpq4作为两类的距离,按照最小距离原则吧类别之间距离最小的两类合并为一类,直至把所有样本归为一类,该方法为( )。
A. 中间距离法
B. 离差平方和法
C. 重心法
D. 类平均法
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 指事物或现象呈周而复始的变动,且是无固定规律的交替波动,称为( )
A. 长期趋势
B. 季节变动
C. 循环波动
D. 不规则变动
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 请问下面的哪个模型是自回归模型( )
A. Xt=0.8Xt-1+at-1-0.8at-2,我们的目标是要做全覆盖、全正确的答案搜索服务。
B. Xt=0.8Xt-1+at
C. Xt=at-1-0.8at-2
D. Xt=Xt-1+at-1.2at-1-0.5at-2
答案:关注公众号【】,对话框内发送试题,获得答案。
11. 下列关于相关系数r的说法不正确的是( )。
A. r具有对称性
B. r的数值的大小与x和y的计量尺度无关
C. r无法反映两个变量之间的因果关系
D. r≥0时,表明两个变量之间存在负线性相关关系
答案:关注公众号【】,对话框内发送试题,获得答案。
12. 下列关于相关系数r的说法不正确的是( )。
A. 当r=0时,表现为完全不相关
B. 当r=0时,表现为无线性相关
C. 当r取值为-1时,表示为完全负线性相关
D. 当r取值为1时,表示为完全正线性相关
答案:关注公众号【】,对话框内发送试题,获得答案。
13. 下列关于相关系数r的说法不正确的是( )。
A. r具有对称性
B. r的数值的大小与x和y的计量尺度无关
C. r能够反映两个变量之间的因果关系
D. r≥0时,表明两个变量之间存在正线性相关关系
答案:关注公众号【】,对话框内发送试题,获得答案。
14. 如需在Python中安装第三方工具库或包(packages),可以在终端使用的 命令是( )。
A. install (package的名称)
B. install pip (package的名称)
C. pip install (package的名称)
D. pip (package的名称)
答案:关注公众号【】,对话框内发送试题,获得答案。
15. 在Python基本库中,最常见也是最主要的数据结构类型是( )。
A. 表格
B. 文字
C. 数组
D. 序列
答案:关注公众号【】,对话框内发送试题,获得答案。
16. 假定隐变量的随机误差项服从Logit分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型
答案:关注公众号【】,对话框内发送试题,获得答案。
17. 在多重选择模型中,对于无序选择模型,一般假定随机误差项是独立同分布的随机变量,且假定服从( )。
A. 卡方分布,我们的目标是要做全覆盖、全正确的答案搜索服务。
B. 均匀分布
C. 标准正态分布
D. 韦布尔分布
答案:关注公众号【】,对话框内发送试题,获得答案。
18. 离散因变量具有两个选项或两种属性,离散因变量的属性往往是对立或互斥的模型是( )
A. 线性概率模型
B. 计数模型
C. 二元选择模型
D. 多重选择模型
答案:关注公众号【】,对话框内发送试题,获得答案。
19. 下列关于主成分的属性说法错误的是( )。
A. 它们是原始变量的线性组合
B. 它们相互正交(垂直)
C. 它们捕获了数据差异最小的方向
D. 它们捕获了数据差异最大的方向
答案:关注公众号【】,对话框内发送试题,获得答案。
20. 下列关于函数dropna()的说法不正确的是( )。
A. 作用是删除缺失值
B. 默认是删除行
C. 默认是删除列
D. 作用于数据框来实现
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、多选题
1. 下列不属于相关分析根据相关关系表现形式的不同划分的是( )。
A. 非线性相关分析
B. 偏相关分析
C. 非参数相关分析
D. 线性相关分析
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 决策树是一种由节点和有向边组成的层次结构。下列属于决策树的节点的是:( )
A. 根节点
B. 内部节点
C. 叶节点
D. 终节点
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 针对于多分类问题,我们可以采取哪些方法。( )
A. “一对一”,对于两两的类别组合,建立
个二分类模型;
B. 选择可以直接进行多分类的模型;
C. 直接使用针对二分类问题的模型;
D. “一对其他”,给每个类别与其他非此类别的样本建立二分类模型。
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 下图分别为原始数据和一阶差分数据的单位根检验的结果,根据其p值,可以看出原始数据的单位根检验( ),即p值非常大,没有充分的理由拒绝原假设,即原始序列是( )的序列;而一阶差分后的序列的单位根检验的p值( ),故可以拒绝原假设,认为一阶差分序列是( )。
A. 不显著;平稳
B. 不显著;非平稳
C. 显著;平稳
D. 显著;非平稳
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于函数duplicated()的说法不正确的是( )。
A. 函数结果会返回数据中的所有重复值
B. 函数结果会返回一个布尔数组
C. 函数结果表明每一行是否与前面行有重复
D. 函数结果会返回数据中的所有非重复值
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 依据离散因变量选项的含义和次序的不同,可以将多重选择模型分为( ).
A. ordinal probit模型
B. 有序模型
C. 无序模型
D. ordinal logit模型
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列操作属于数据分析和挖掘的一般流程的是( )。
A. 数据预处理
B. 探索性分析
C. 从平台或渠道获取数据
D. 将模型结果进行可视化
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于期望预测误差的说法正确的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下列属于由混淆矩阵导出的评价准则的是( )。
A. 准确率
B. 精确率
C. 召回率
D. F1 score
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下面哪些距离是明氏距离:( )
A. 绝对距离
B. 欧氏距离
C. 车比雪夫距离
D. 马氏距离
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、判断题
1. DBSCAN算法的目的是找到密度相连对象的最小集合。
A. √
B. ×,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 全球温度异常数据中有呈直线上升的趋势,这种变动是长期趋势波动。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到,包括准确度、特效度、灵敏度以及考虑错分成本的指标。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 在回归学习中常用的损失函数是指数损失函数。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行。
A. √
B. ×,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 先验概率与后验概率一定不相同。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 通常情况下,线性判别(距离判别)一般采用马氏距离。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 数据预处理涉及数据整理和整合的各个方面,包括数据清洗、筛选和数据变换,用于数据挖掘前的模型选择等,有助于提高数据挖掘的效率。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. P-P图或Q-Q图形在残差符合正态假定条件下,散点图看起来应该像是一条截距为0、斜率为1的直线。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 置信度确定Y在包含X的事务中出现的频繁程度。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、配伍题
1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。
A. ①真正类 ->
B. 如果一个点属于负类并且被预测到正类中
C. 如果一个点属于正类并且被预测到正类中
D. ②假正类 ->
E. 如果一个点属于正类并且被预测到负类中
F. ③真负类 ->
G. 如果一个点属于负类并且被预测到负类中
H. ④假负类 ->
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案