【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷04期末考试押题试卷与答案

[复制链接]
查看: 14|回复: 0

19万

主题

19万

帖子

59万

积分

论坛元老

Rank: 8Rank: 8

积分
594010
发表于 2024-4-20 18:03:50 | 显示全部楼层 |阅读模式
20230506大数据预处理试卷-04
关注公众号【】,回复【试】获取试题答案


一 、单选题
1. 下列对定性变量的描述中,不正确的是()。
A. 顺序型变量可以转变为哑变量。
B. 连续型数据很难转变为定性数据。
C. 多分类定性变量可以转变为哑变量。
D. 顺序型变量可以转变成得分变量。,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
2. 下列表述中,正确的是()。
A. 含有缺失值的变量必须被剔除
B. 数据缺失的原因是该数据不存在。
C. 数据缺失会造成模型解释能力下降。
D. 非随机缺失类型是指数据的缺失仅仅依赖于其它变量。
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
3. 关于哑变量与one-hot码,下列说法正确的是()。
A. 任何一个k个类别的定性变量都可以转换为k−1个哑变量
B. 任何一个k个类别的定性变量都可以转换为k−1个比特的one-hot码。
C. 哑变量与one-hot码是完全相同的概念。
D. 哑变量既有两个类别形式的,又有多个类别形式的。
答案:A
- 关注公众号【】,对话框内发送试题,获得答案。
4. Robust缩放公式为()。
A. Xscaled=X−X-S。
B. Xscaled=X−X-。
C. Xscaled=XXmax。
D. Xscaled=X−MedianIQR。
答案:D
- 关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于数据归约的表述中,不正确的是()。
A. 过多的数据会导致模型训练效率低下。
B. 初学者需要通过数据归约简化数据,专业数据分析师则不需要。
C. 进行数据归约时,需要保证数据集的信息不过多损失。
D. 在样本量增加到一定程度后,信息含量趋近于不变。
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 下列关于异常值处理的表述中,不正确的是()。
A. 异常值可能是准确的数据
B. 由于录入数据时的错误所造成的的异常值,可以删除
C. 删除异常值不会改变数据集的样本量
D. 截断方法没改变样本容量
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列哪个选项不是大数据预处理的主要内容()。
A. 完善数据
B. 简化数据
C. 建模分析
D. 提高数据信息含量
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于Robust缩放方法的表述中,不正确的是()。
A. Robust缩放方法的理念是“首先中心化,然后除以尺度”。
B. Robust缩放方法用到的指标不易受极端值影响。
C. Robust缩放方法用中位数代替了标准化方法里的均值指标。
D. Robust缩放方法用方差代替了标准化方法里的标准差指标。
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下图是某分类变量各类别计数分布的箱线图,从图中可知()。

A. 少部分分类计数很低。
B. 该变量类别数量非常多。
C. 这个变量不存在低频分类现象。
D. 绝大多数分类计数很高。
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 关于日期时间型数据,下列说法正确的是()。
A. 在计算机系统中,日期时间型数据是以文本形式存储的。
B. 在计算机系统中,日期时间型数据是以数值形式存储的。
C. 在计算机系统中,日期时间型数据是以因子形式存储的。
D. 在计算机系统中,日期时间型数据是以缺失值形式存储的。
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、判断题
1. 异常值必定是由于数据获取过程中出现错误造成的。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 经过Max-ABS缩放后,数据的正负不会发生改变。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. Pearson相关系数为大于0时,两个变量正相关。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 哑变量与one-hot码完全相同。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 在数据预处理时,数据集里面变量的数量不能发生变化。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 在数据存储过程中,由于设备故障造成存储失败而导致的数据缺失,属于主观条件原因。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. “分箱”是主观法数据离散化的方法。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 数据错误是指数据集中的数据与其真值不一致的情况。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 在进行变量选择时需要遵循的原则是,剔除的变量必须对数据分析影响较大。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 数据标准化是数据中心化的第一个步骤。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、问答题
1. 请简述异常值的含义。
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 请简述数据归约的意义。
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、填空题
1. 在使用GBDT模型进行变量选择时,使用训练集数据train的全部变量建立了模型m,现需要提取重要程度最大的9个变量: fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. sort_values (ascending=False).head(9).
A. index
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 将数据集data中的变量y缩放到区间[0,10],结果保存在y1中: scaler = MinMaxScaler(feature_range =(0,10)) y1 = scaler.fit_transform( )
A. data[["y"]]
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 对序列B进行Min-Max缩放,缩放至区间[0,1],结果保存在B1中: B1 = (B)
A. minmax_scale
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,并将结果存储于数据框df中: df = pd.get_dummies(s, prefix= )国开一网一平台
A. "d"
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 使用boston数据集实现线性回归模型填补。首先初始化一个线性回归模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型: train = boston.dropna(subset=["LSTAT"]) = LinearRegression() reg.fit(X=train.drop ("LSTAT",axis=1 ), y=train["LSTAT"])国开一网一平台
A. reg
答案:关注公众号【】,对话框内发送试题,获得答案。,我们的目标是要做全覆盖、全正确的答案搜索服务。
6. 计算变量y与x的Pearson相关系数: Pearson_xy = (y, x)
A. pearsonr
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 对数据序列d1采用等宽分箱,分组数为7组,结果保存在d2中: d2 = pd. (d1, bins=7)
A. cut
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 将数据集data中变量v1的缺失值使用其众数进行填补,将填补完的变量保存在v1_fill中: v1_fill = data["v1"].fillna(data["v1"]. [0])
A. mode()
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 计算car_data数据集中的make变量每一个类别的频数,将计算结果存储在make_count中: make_count = car_data["make"].
A. value_counts()
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取日信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") day = d2.
A. dt. day
答案:关注公众号【】,对话框内发送试题,获得答案。
五 、综合题
1. 请写出下方代码的功能 car_data = pd.read_csv(r"d:cardata.csv",header=0) v1_fill = car_data["v1"].fillna(car_data["v1"].median())
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 已知变量x为数值型变量,请写出下方代码的功能,并说明操作结果1和操作结果2输出的内容。 x_bin = x.eq(0) | x.isna() x_bin = x_bin.astype(int) d1 = {"X":x, "bin":x_bin} p1 = pd.DataFrame(data = d1) print(“操作结果1: %s”%p1) print(“操作结果2: %s”%x_bin.value_counts())
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案





上一篇:【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷05期末考试押题试卷与答案
下一篇:【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷03期末考试押题试卷与答案
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图