【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包05期末考试押题试卷与答案

[复制链接]
查看: 16|回复: 0

19万

主题

19万

帖子

59万

积分

论坛元老

Rank: 8Rank: 8

积分
594010
发表于 2024-4-22 00:28:43 | 显示全部楼层 |阅读模式
23春大数据分析与挖掘技术试卷包-05
关注公众号【】,回复【试】获取试题答案


一 、单选题
1. 在Python基本库中,最常见也是最主要的数据结构类型是( )。
A. 表格
B. 文字
C. 数组
D. 序列
答案:D
- 关注公众号【】,对话框内发送试题,获得答案。
2. 下列关于Python中的注释说法正确的是( )。
A. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行
B. Python中可以使用“#”进行一行或多行注释
C. Python中注释下的一切内容会被执行但不显示
D. Python中只有使用“#”这一种注释方法
答案:A
- 关注公众号【】,对话框内发送试题,获得答案。
3. 删除缺失值的函数dropna(),默认是删除行,如果要对列进行删除,则需要添加参数( )。
A. axis=null
B. axis=-1
C. axis=0国开一网一平台
D. axis=1
答案:D
- 关注公众号【】,对话框内发送试题,获得答案。
4. 下列关于主成分分析的说法错误的是( )。
A. 主成分分析一种经典的减少分析变量的方法
B. 它将数据从原始的低维空间投影到高维空间
C. 它将数据从原始的高维空间投影到低维空间
D. 所有原始变量可通过变换的方式得到综合变量,称为主成分
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
5. 请问下面的哪个模型是移动平均模型( )
A. Xt=0.8Xt-1+at-1-0.8at-2
B. Xt=0.8Xt-1+at
C. Xt=at-1-0.8at-2
D. Xt=Xt-1+at-1.2at-1-0.5at-2
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 事物或现象在一年内随着季节更换而形成的有规律变动,称为( B )
A. 长期趋势
B. 季节变动
C. 循环波动
D. 不规则变动
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列关于AUC的说法不正确的是( )。
A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分
B. 通常取值在0.5~1
C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值
D. AUC值(面积)越小的分类器,性能越好
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列属于聚类模型评价的内部指标的是( )。
A. DB指数
B. Jaccard系数
C. FM指数
D. Rand指数
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 在回归学习中常用的损失函数是( )。
A. 0-1损失函数
B. 平方损失函数
C. 指数损失函数
D. 负二项损失函数
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列关于决定系数的说法不正确的是( )。
A. 越接近于0说明模型拟合得越好
B. 决定系数是指模型解释了的数据波动的比例
C. 取值区间为[0,1]
D. 越接近于1说明模型拟合得越好
答案:关注公众号【】,对话框内发送试题,获得答案。
11. 当不知道哪些花是同一品种,哪些花不同品种时,考虑按照花瓣长宽与花萼长宽将不同品种的花分类。通常采用( )。
A. 聚类分析
B. 分类
C. 回归分析
D. 关联分析
答案:关注公众号【】,对话框内发送试题,获得答案。
12. 按照经济发展、教育水平、面积大小、人口等诸多方面对我国地市级以上城市进行分类。通常采用( )。
A. 回归分析
B. 分类
C. 关联分析
D. 聚类分析
答案:关注公众号【】,对话框内发送试题,获得答案。
13. 定性因素对因变量的影响在进行回归分析的过程中,需要进行特殊的处理是( )。
A. 把定性变量取对数再做分析
B. 把定性变量转化为虚拟变量之后再引入回归模型中进行分析
C. 把定性变量去掉
D. 无需做任何处理
答案:关注公众号【】,对话框内发送试题,获得答案。
14. 假定隐变量的随机误差项服从标准正态分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型
答案:关注公众号【】,对话框内发送试题,获得答案。
15. 在多重选择模型中,对于无序选择模型,一般假定随机误差项是独立同分布的随机变量,且假定服从( )。
A. 卡方分布
B. 均匀分布
C. 标准正态分布
D. 韦布尔分布
答案:关注公众号【】,对话框内发送试题,获得答案。
16. 下列关于关联规则的说法不正确的是( )。
A. 关联规则的强度可以用支持度和置信度度量
B. 支持度确定规则可以用于给定数据集的频繁程度
C. 置信度确定Y在包含X的事务中出现的频繁程度
D. 支持度确定Y在包含X的事务中出现的频繁程度
答案:关注公众号【】,对话框内发送试题,获得答案。
17. 下列关于相关关系的说法不正确的是( )。
A. 相关关系主要体现为变量之间的相互依存关系
B. 主要考察变量之间的相互影响,这种影响不存在方向性
C. 相关关系是确定性的
D. 相关关系是不确定的
答案:关注公众号【】,对话框内发送试题,获得答案。
18. 下列关于相关系数r的说法不正确的是( )。
A. r具有对称性
B. r的数值的大小与x和y的计量尺度无关
C. r能够反映两个变量之间的因果关系
D. r≥0时,表明两个变量之间存在正线性相关关系
答案:关注公众号【】,对话框内发送试题,获得答案。
19. 关于混淆矩阵,如果一个点属于正类并且被预测到正类中,称为:( )
A. 真正类;
B. 假正类;
C. 真负类;
D. 假负类。
答案:关注公众号【】,对话框内发送试题,获得答案。
20. 样品和哪个总体距离最近,就判它属于哪个总体的分类方法是:( )
A. 支持向量机
B. 决策树
C. 最近邻分类
D. 线性判别
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、多选题
1. AR(p)模型的基本假设有( )。
A. 假设Xt仅与Xt-1, Xt-2,……,Xt-p有线性关系;
B. 在Xt-1, Xt-2,……,Xt-p已知的条件下,Xt与Xt-p-1,Xt-p-2……线性相关
C. 随机误差项是一个白噪声;
D. 在Xt-1, Xt-2,……,Xt-p已知的条件下,Xt与Xt-p-1,Xt-p-2……无关;
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 常用的核函数有( )。
A. 线性核
B. 高斯核
C. 神经网络核
D. 多项式核
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 下列关于KNN算法说法正确的是( )。
A. 随着k值的增加,模型的复杂度增大
B. 在实际应用中,一般采用交叉验证的方法来估计预测误差,找出使得估计的预测误差最小的k。
C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表
D. 近邻选得少,模型则比较稳健。
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 期望预测误差主要包括( )。
A. 模型假设失误带来的误差
B. 采用某种方法估计最优值时,估计值的平均可能偏离了真实值
C. 估计值自身由于数据的随机性产生一个波动部分
D. 一些主观人为因素国开一网一平台
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于聚类模型评价的外部指标说法错误的是( )。
A. Dunn指数越小,说明类与类之间分得越开
B. Dunn指数越大,说明类与类之间分得越开
C. DB指数刻画的是一个平均距离,该指数越小,说明聚类越好
D. DB指数刻画的是一个平均距离,该指数越大,说明聚类越好
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 下列关于函数duplicated()的说法正确的是( )。
A. 函数结果会返回数据中的所有重复值
B. 函数结果会返回一个布尔数组
C. 函数结果表明每一行是否与前面行有重复
D. 函数结果会返回数据中的所有非重复值
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列关于线性概率模型,说法正确的是( )
A. 解释变量的合理变化会导致预测概率溢出[0,1]区间;
B. 使用加权最小二乘法修正异方差性可以保证概率预测值在[0,1]区间。
C. 当样本量充分大时,普通最小二乘法参数估计量的结果近似服从正态分布,可以克服随机误差项分布未知的缺陷。
D. 模型误差具有异方差性,但异方差性不影响参数估计。
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 按相关因素(变量)的多少,可以将相关关系分为( )。
A. 单相关
B. 复相关
C. 线性相关
D. 非线性相关
答案:关注公众号【】,对话框内发送试题,获得答案。
9. DBSCAN算法中的直接密度可达、密度可达与密度相连理解正确的是( )
A. 只有核心对象之间相互密度可达
B. 密度相连是对称关系
C. DBSCAN目的是找到密度相连对象的最大集合
D. 密度可达也是对称关系
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列操作属于数据分析和挖掘的一般流程的是( )。
A. 数据预处理
B. 探索性分析
C. 从平台或渠道获取数据
D. 将模型结果进行可视化
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、判断题
1. 如果时间序列的一阶矩、二阶矩存在,而且对任意时刻t满足均值为常数,协方差为时间间隔的函数,则称该序列为严平稳时间序列。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 经典统计中强调的推断在数据挖掘中依然存在。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 关联规则是指形如X→Y的蕴含表达式,其中X和Y是不相交的项集。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 如果在存在非线性关系的情况下使用线性回归拟合曲线也是可以的,不会影响结论。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 聚类分析中,类平均法充分利用各个样本的信息。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 一些数据集是由合并数据源形成的,这就使其有可能含有重复数据或者近似重复的个体。
A. √,我们的目标是要做全覆盖、全正确的答案搜索服务。
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 先验概率与后验概率一定不相同。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 判别规则所依据的最简单的原则是,新样本离哪一个类别中心的距离最近,那么它就属于哪一类。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、配伍题国开一网一平台
1. 请为名词选择①-⑥表示其含义的描述,将配好的A-F填写到括号中。
A. ①最小距离法 ->
B. Dkn=NpDkp+NqDkqNn
C. ②最长距离法 ->
D. Dkn=Dkp+Dkq2-Dpq4
E. Dkn=NpDkp+NqDkqNn-NpNqDpqNn2
F. ③中间距离法 ->
G. Dkn=MaxDkpDkq
H. ④重心法 ->
I. Dkn=Nk+NpDkp+Nk+NqDkq-NkDpqNk+Nn
J. ⑤类平均法 ->
K. ⑥离差平方和法 ->
L. Dkn=MinDkpDkq
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案





上一篇:【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包02期末考试押题试卷与答案
下一篇:【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包01期末考试押题试卷与答案
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图