【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包新05期末考试押题试卷与答案

[复制链接]
查看: 31|回复: 0

19万

主题

19万

帖子

59万

积分

论坛元老

Rank: 8Rank: 8

积分
597069
发表于 2024-4-22 00:35:54 | 显示全部楼层 |阅读模式
23春大数据分析与挖掘技术试卷包-新-05
关注公众号【】,回复【试】获取试题答案


一 、单选题
1. 下列关于随机森林算法,说法错误的是( )
A. 建立决策树的过程中,需要注意采样和完全分裂两点;
B. 建立决策树过程中需要两个随机采样,即行采样和列采样;
C. 对于行采样,采样无放回的方式;
D. 采用完全分裂的方式构建决策树,这样决策树的某个叶节点要么无法继续分裂,要么里面的所有样本都指向同一个分类。
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
2. 对每个样本,先计算判别函数得分,然后根据先验概率和判别函数得分的条件概率,计算出该样本被判为每一类的后验概率,被判入哪一类的后验概率最大,则把样本判为哪一类。该分类方法是( )
A. 聚类判别
B. 决策树
C. 贝叶斯判别
D. 线性判别
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
3. 下列不属于回归模型评价指标的是( )。
A. 平均绝对误差
B. 平均相对误差
C. 平均平方误差
D. 决定系数
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
4. 下列关于决定系数的说法不正确的是( )。
A. 越接近于0说明模型拟合得越好
B. 决定系数是指模型解释了的数据波动的比例
C. 取值区间为[0,1]
D. 越接近于1说明模型拟合得越好
答案:A
- 关注公众号【】,对话框内发送试题,获得答案。
5. 下列属于聚类模型评价的内部指标的是( )。国开一网一平台
A. DB指数
B. Jaccard系数
C. FM指数
D. Rand指数
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 下列关于AUC的说法不正确的是( )。
A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分
B. 通常取值在0.5~1
C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值
D. AUC值(面积)越小的分类器,性能越好
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 在聚类过程中的类需要遵从的原则中,保证了类别之内个体特征的共性的原则是( )。
A. 同质性原则
B. 互斥性原则
C. 完备性原则
D. 充分性原则
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 快速聚类中,要确定数据到底聚成几个类合适,我们可以设定K从1到K的变化,计算相应的( ),选择其最( )的类别个数。
A. SSE;大
B. SSE;小
C. SSR;大
D. SSR;小
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 平稳时间序列的自相关系数图拖尾, 偏自相关系数图p阶截尾,可以识别为( )模型
A. MA(p)
B. ARIMA(p,q),q>0
C. AR(p)
D. ARMA(p,q),q>0
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 如图是某模型最小信息数值,根据结果可以选择最优模型是( )。

A. MA(1)
B. ARMA(1,1)
C. AR(1)
D. ARMA(0,1)
答案:关注公众号【】,对话框内发送试题,获得答案。
11. 按相关因素(变量)的多少,可以将相关关系分为( )。
A. 单相关和复相关
B. 正相关和负相关
C. 线性相关和非线性相关
D. 偏相关和参数相关
答案:关注公众号【】,对话框内发送试题,获得答案。
12. 相关分析根据相关关系表现形式的不同可以分为( )。
A. 简单相关分析和复杂相关分析
B. 偏相关分析和非偏相关分析
C. 线性相关分析和非线性相关分析
D. 参数相关分析和非参数相关分析
答案:关注公众号【】,对话框内发送试题,获得答案。
13. 相关分析根据其分析方法和处理对象不同可以分为( )。
A. 简单相关分析、偏相关分析和非参数相关分析
B. 简单相关分析、复杂相关分析和非参数相关分析
C. 线性相关分析和非线性相关分析
D. 简单相关分析和复杂相关分析
答案:关注公众号【】,对话框内发送试题,获得答案。
14. 关于统计和数据挖掘,下列说法错误的是( )。
A. 统计侧重于从样本到总体的推断
B. 数据挖掘侧重于预测个体记录
C. 经典统计中强调的推断在数据挖掘中已不存在
D. 经典统计中强调的推断在数据挖掘中依然存在
答案:关注公众号【】,对话框内发送试题,获得答案。
15. 下列关于Python的说法错误的是( )。
A. Python是一种面向对象的解释型高级编程语言
B. 可移植性和可扩展性不强
C. 结构简单,语法和代码定义清晰明确
D. 易于学习和维护
答案:关注公众号【】,对话框内发送试题,获得答案。
16. 对于分析多个属性的离散因变量与自变量的关系的模型是( )。
A. 线性概率模型
B. 计数模型
C. 二元选择模型
D. 多重选择模型
答案:关注公众号【】,对话框内发送试题,获得答案。
17. 假定隐变量的随机误差项服从标准正态分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型
答案:关注公众号【】,对话框内发送试题,获得答案。
18. 要考虑与运动会上获得的奖牌数相关的因素,比如参赛队总人数、运动员平均年龄、参与项目数等,此时最适合的模型是( )。
A. 线性回归模型
B. Logistic回归模型
C. 分位数回归
D. 计数模型
答案:关注公众号【】,对话框内发送试题,获得答案。
19. 下列代码可以将数据data转换成数值型数据的是( )。
A. pd.to_numeric(data)
B. pd.to_num(data)
C. pd.to_number(data)
D. pd.to_string(data)
答案:关注公众号【】,对话框内发送试题,获得答案。
20. 下列关于抽样的说法正确的是( )。
A. 抽样有多种方法,如有放回抽样、无放回抽样等
B. 有放回抽样则将抽出来的个体从抽样对象中去除
C. 无放回抽样有可能对同一个个体抽中了多次
D. 无放回抽样会有重复的个体
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、多选题
1. 按相关因素(变量)之间的相关方向,可以将相关关系分为( )。
A. 单相关
B. 复相关
C. 正相关
D. 负相关
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 下列关于KNN算法说法错误的是( )。
A. 随着k值的增加,模型的复杂度增大。
B. 在实际应用中,一般采用交叉验证的方法来估计预测误差,找出使得估计的预测误差最小的k。
C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表。
D. 近邻选得少,模型则比较稳健。
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 决策树算法的C4.5算法可以处理( )。
A. 定性变量
B. 缺失值
C. 连续变量
D. 剪枝
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 确定ARMA模型p、q的过程即为模型的识别过程,也称ARMA模型的定阶。下列属于模型识别的方法是( )。
A. 自相关系数
B. 协方差矩阵
C. 偏自相关系数图
D. 最小信息准则
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于主成分分析的说法错误的是( )。
A. 主成分分析一种经典的减少分析变量的方法
B. 主成分分析一种经典增加分析变量的方法
C. 它将数据从原始的高维空间投影到低维空间
D. 它将数据从原始的低维空间投影到高维空间
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 线性概率模型的缺点是( )
A. 解释变量的合理变化会导致预测概率溢出[0,1]区间;
B. 使用加权最小二乘法修正异方差性也无法保证概率预测值在[0,1]区间;
C. 随机误差项的分布未知;
D. 模型误差具有异方差性,异方差性使参数估计不具有时效性。
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列操作属于数据分析和挖掘的一般流程的是( )。
A. 数据预处理
B. 探索性分析
C. 从平台或渠道获取数据
D. 将模型结果进行可视化
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于决定系数的说法正确的是( )。
A. 越接近于0说明模型拟合得越好
B. 决定系数是指模型解释了的数据波动的比例
C. 取值区间为[0,1]
D. 越接近于1说明模型拟合得越好
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下列属于聚类模型评价的外部指标的是( )。
A. DB指数
B. Jaccard系数
C. FM指数
D. Rand指数
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列关于类间距确定方法说法正确的是( )。
A. 离差平方和法要求样本间距离必须采用欧氏距离;
B. 重心法没有考虑每一类中所包含的样本点数目;
C. 类平均法没有充分利用各个样本的信息;
D. 使用离差平方和作为类间距离时,如果聚类聚得恰当,类内样本点之间的离差平方和应该较小,类间离差平方和应该较大。
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、判断题
1. 聚类分析中,离差平方和法要求样本间距离必须采用欧氏距离。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 白噪声序列可以对时序模型拟合进行检验。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. Dunn指数刻画了所有类两两之间的最短距离与最大类的“直径”之比,该指数越大,说明类与类之间分得越开。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. DB指数刻画的是一个平均距离,该指数越小,说明聚类越好。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. Python中的注释会被执行但不显示结果。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
6. CART的结果不受自变量的单调变换的影响。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 先验概率与后验概率一定不相同。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 设定虚拟变量时,对于有k个表现值的定性变量,只设定(k-1)个虚拟变量。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 多项式回归类似于可线性化的非线性模型,可通过变量代换的方式使用普通最小二乘对参数进行估计。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 变量之间的影响不能够用具体的函数来度量,但变量之间的关系确实存在数量上不是严格对应的相互依存关系,则称这种关系为相关关系。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、配伍题
1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。 设dij表示第i个样本与第j个样本之间的距离。
A. ①绝对距离 ->
B. dij∞=max1≤k≤p⁡xik-xjk
C. ②切比雪夫距离 ->
D. dij1=∑k=1pxik-xjk
E. dij=Xi-Xj'∑-1Xi-Xj
F. ③马氏距离 ->
G. ④欧氏距离 ->
H. dij2=∑k=1pxik-xjk21/2
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案





上一篇:【国开搜题】国家开放大学 一网一平台24春大数据技术导论试卷包01期末考试押题试卷与答案
下一篇:【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包新04期末考试押题试卷与答案
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图