一 、单选题
1. 下列操作不属于数据分析和挖掘的一般流程的是( )。
A. 数据预处理
B. 探索性分析
C. 从平台或渠道获取数据
D. 将模型结果进行可视化
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
2. 下列关于Python的说法错误的是( )。
A. Python是一种面向对象的解释型高级编程语言
B. 可移植性和可扩展性不强
C. 结构简单,语法和代码定义清晰明确
D. 易于学习和维护
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
3. 下列关于主成分分析的说法错误的是( )。
A. 主成分分析一种经典的减少分析变量的方法
B. 它将数据从原始的低维空间投影到高维空间
C. 它将数据从原始的高维空间投影到低维空间
D. 所有原始变量可通过变换的方式得到综合变量,称为主成分
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
4. 删除缺失值的函数dropna(),默认是删除行,如果要对列进行删除,则需要添加参数( )。
A. axis=null
B. axis=-1
C. axis=0
D. axis=1
答案:D
- 关注公众号【】,对话框内发送试题,获得答案。
5. 事物或现象在一年内随着季节更换而形成的有规律变动,称为( B )
A. 长期趋势
B. 季节变动
C. 循环波动
D. 不规则变动
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 请问下面的哪个模型是移动平均模型( )
A. Xt=0.8Xt-1+at-1-0.8at-2
B. Xt=0.8Xt-1+at
C. Xt=at-1-0.8at-2
D. Xt=Xt-1+at-1.2at-1-0.5at-2
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列关于偏差和方差的说法不正确的是( )。
A. 偏差和方差受模型的复杂度影响
B. 模型越复杂,偏差越小,方差越大
C. 模型越复杂,偏差越大,方差越小
D. 模型越简单,偏差越大,而方差越小
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列不属于聚类模型评价的外部指标的是( )。
A. DB指数
B. Jaccard系数
C. FM指数
D. Rand指数
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下列属于聚类模型评价的内部指标的是( )。
A. DB指数
B. Jaccard系数
C. FM指数
D. Rand指数
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列关于AUC的说法不正确的是( )。国开一网一平台
A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分
B. 通常取值在0.5~1
C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值
D. AUC值(面积)越小的分类器,性能越好
答案:关注公众号【】,对话框内发送试题,获得答案。
11. 多元统计分析中的聚类分析方法可以对样本进行分类,记为( )。
A. S型分类
B. H型分类
C. Q型分类
D. R型分类国开一网一平台
答案:关注公众号【】,对话框内发送试题,获得答案。
12. 快速聚类中,要确定数据到底聚成几个类合适,我们可以设定K从1到K的变化,计算相应的SSE,下图设定了K的取值为1,2,3,4,5,6。K选( )最为合适。
A. 1
B. 2
C. 3
D. 6
答案:关注公众号【】,对话框内发送试题,获得答案。
13. 假定隐变量的随机误差项服从Logit分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型
答案:关注公众号【】,对话框内发送试题,获得答案。
14. 对于某个时间、空间等范围内事情发生次数的计数数据,一般都认为其近似服从( )。
A. 卡方分布
B. 韦布尔分布
C. 标准正态分布
D. 泊松分布,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
15. 离散因变量具有两个选项或两种属性,离散因变量的属性往往是对立或互斥的模型是( )
A. 线性概率模型
B. 计数模型
C. 二元选择模型
D. 多重选择模型
答案:关注公众号【】,对话框内发送试题,获得答案。
16. 相关分析根据相关关系表现形式的不同可以分为( )。
A. 简单相关分析和复杂相关分析
B. 偏相关分析和非偏相关分析
C. 线性相关分析和非线性相关分析
D. 参数相关分析和非参数相关分析
答案:关注公众号【】,对话框内发送试题,获得答案。
17. 相关分析根据其分析方法和处理对象不同可以分为( )。
A. 简单相关分析、偏相关分析和非参数相关分析
B. 简单相关分析、复杂相关分析和非参数相关分析
C. 线性相关分析和非线性相关分析
D. 简单相关分析和复杂相关分析
答案:关注公众号【】,对话框内发送试题,获得答案。
18. 若关联规则为{牛奶,尿布}→{啤酒}:{牛奶,尿布,啤酒},项集的支持度计数为2,而事务总数为5,则该项集的支持度为( )。
A. 0.4
B. 10
C. 2
D. 5
答案:关注公众号【】,对话框内发送试题,获得答案。
19. 对每个样本,先计算判别函数得分,然后根据先验概率和判别函数得分的条件概率,计算出该样本被判为每一类的后验概率,被判入哪一类的后验概率最大,则把样本判为哪一类。该分类方法是( )
A. 聚类判别
B. 决策树
C. 贝叶斯判别
D. 线性判别
答案:关注公众号【】,对话框内发送试题,获得答案。
20. 下列哪一个方法适用于类域的交叉或重叠较多的待分样本集( )
A. 决策树
B. 随机森林
C. KNN算法
D. 支持向量机
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、多选题
1. 下面白噪声序列说法正确的是( )。
A. 具有零均值,我们的目标是要做全覆盖、全正确的答案搜索服务。
B. 具有同方差性
C. 协方差为零
D. 不是平稳时间序列
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 下列关于KNN算法说法错误的是( )。
A. 随着k值的增加,模型的复杂度增大。
B. 在实际应用中,一般采用交叉验证的方法来估计预测误差,找出使得估计的预测误差最小的k。
C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表。
D. 近邻选得少,模型则比较稳健。
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 下列关于贝叶斯判别和线性判别,说法正确的是( )
A. 贝叶斯判别考虑每个分类的观察值不同时,每类出现的机会是不同的。
B. 贝叶斯判别与距离判别的结果总是一样的。
C. 线性判别简单、直观且实用。
D. 线性判别考虑了误判所造成的损失差异。
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 下列属于聚类模型评价的内部指标的是( )。
A. DB指数
B. Jaccard系数
C. Dunn指数
D. Rand指数
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 期望预测误差主要包括( )。
A. 模型假设失误带来的误差
B. 采用某种方法估计最优值时,估计值的平均可能偏离了真实值
C. 估计值自身由于数据的随机性产生一个波动部分
D. 一些主观人为因素
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 下列关于函数duplicated()的说法不正确的是( )。
A. 函数结果会返回数据中的所有重复值
B. 函数结果会返回一个布尔数组
C. 函数结果表明每一行是否与前面行有重复
D. 函数结果会返回数据中的所有非重复值
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列属于二元选择模型的模型检验方法的是( ).
A. Z统计量对回归系数检验
B. LR似然比对模型的拟合优度进行χ2检验
C. AIC、BIC信息指数
D. Wald统计量对多个系数进行χ2检验
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于Apriori算法和FP-growth算法的说法不正确的是( )。
A. Apriori算法效率较低
B. Apriori算法效率较高
C. FP-growth算法效率较低
D. FP-growth算法效率较高,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下列关于聚类方法说法错误的是( )
A. DBSCAN聚类可以用于数据分布不均匀,呈块状分布,并且聚集形态是任意形状的情况。
B. 快速聚类要事先确定聚类个数,但是运算速度很快,适合大量数据的情况。,我们的目标是要做全覆盖、全正确的答案搜索服务。
C. 系统聚类可以给出聚类过程,但是要事先确定聚类个数。
D. 聚类分析中,快速聚类一般用于小样本情况下的样本聚类。
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列关于Python的说法正确的是( )。
A. Python是一种面向对象的解释型高级编程语言
B. 可移植性和可扩展性不强
C. 结构简单,语法和代码定义清晰明确
D. 易于学习和维护
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、判断题
1. 单位根检验用于检验一个时间序列的平稳性。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 关联规则的强度可以用支持度和置信度度量。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 如果在存在非线性关系的情况下使用线性回归拟合曲线,则会丢失数据之间的大量有用信息,甚至会得出错误的结论。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 在回归学习中常用的损失函数是平方损失函数。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 聚类分析中,重心法没有考虑每一类中所包含的样本点数目。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 设定虚拟变量时,对于每个样本而言,同一个定性变量对应虚拟变量的值之和不超过1。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. KNN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 决策树中,ID3算法只能处理定性变量,且一个变量使用过后就不能再次使用了。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、配伍题
1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。
A. ①真正类 ->
B. 如果一个点属于负类并且被预测到正类中
C. 如果一个点属于正类并且被预测到正类中
D. ②假正类 ->
E. 如果一个点属于正类并且被预测到负类中
F. ③真负类 ->
G. 如果一个点属于负类并且被预测到负类中
H. ④假负类 ->
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案