【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷39期末考试押题试卷与答案

[复制链接]
查看: 10|回复: 0

19万

主题

19万

帖子

59万

积分

论坛元老

Rank: 8Rank: 8

积分
594010
发表于 2024-4-20 18:08:51 | 显示全部楼层 |阅读模式
20230506大数据预处理试卷-39
关注公众号【】,回复【试】获取试题答案


一 、单选题
1. 下列选项中,属于将连续型变量离散化为定性变量具有的作用的是()。
A. 填补数据中的缺失值。
B. 消除数据中的异常值。
C. 克服连续型变量中隐藏的缺陷。
D. 提高数据的准确性。
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
2. 下列表述中,正确的是()。
A. 含有缺失值的变量必须被剔除
B. 数据缺失的原因是该数据不存在。
C. 数据缺失会造成模型解释能力下降。
D. 非随机缺失类型是指数据的缺失仅仅依赖于其它变量。
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
3. 关于哑变量与one-hot码,下列说法正确的是()。
A. 哑变量与one-hot码是完全相同的概念。
B. 任何一个k个类别的定性变量都可以转换为k−1个哑变量。
C. 任何一个k个类别的定性变量都可以转换为k−2个哑变量。
D. 任何一个k个类别的定性变量都可以转换为k−1个比特的one-hot码。
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
4. 下列数据特征缩放的公式中,正确的是()。
A. 数据中心化公式为:Xscaled=X−X-S。
B. 数据标准化公式为:Xscaled=X−X-。
C. Min-Max缩放公式为:Xscaled=XXmax。,我们的目标是要做全覆盖、全正确的答案搜索服务。
D. Robust缩放公式为:Xscaled=X−MedianIQR。国开一网一平台
答案:D
- 关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于数据归约的意义中,不正确的是()。
A. 可以降低无效、错误数据对数据建模的影响,提高建模准确性
B. 大幅缩减模型的训练时间,在需要反复训练模型的场景下能够极大地提高建模效率。
C. 可以降低数据存储的空间成本。
D. 有利于不同量纲数据之间的比较,也避免了自变量的不同量纲对建模的影响。
答案:关注公众号【】,对话框内发送试题,获得答案。国开一网一平台
6. 确定某个数据是否为异常值时,需要比较该值与()的距离。
A. 平均值
B. 中值
C. 最大值
D. 最小值
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 数据分析项目的基本工作流程是()。,我们的目标是要做全覆盖、全正确的答案搜索服务。
A. 数据预处理->数据获取(采集)->数据分析(建模)->数据分析结果的展示和应用。
B. 数据获取(采集)->数据分析(建模)->数据预处理->数据分析结果的展示和应用。
C. 数据获取(采集)->数据预处理->数据分析(建模)->数据分析结果的展示和应用。
D. 数据获取(采集)->数据预处理->数据分析结果的展示和应用 ->数据分析(建模)。
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于数据标准化的表述中,不正确的是()。
A. 标准化后,正负号代表了原始值是大于(+)还是小于(-)均值。
B. 标准化后,可以避免数据尺度差异对后续建模造成负面影响。
C. 标准化后,数据的标准差并没有变化,只有均值发生变化。
D. 标准化后,通过新值可以发现原始数据中的异常值。
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下图是某分类变量各类别计数分布的箱线图,从图中可知()。

A. 少部分分类计数很低。
B. 该变量类别很少,可以清晰的用箱线图展示各类别的频数。
C. 这个变量不存在低频分类现象。
D. 绝大多数分类计数很低。
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 关于计算机系统中的日期时间型数据,下列说法不正确的是()。
A. 日期时间型数据是以数值形式存储的。
B. 日期时间型数据以“1970年1月1日0时0分0秒”这个时间点为0。
C. 日期时间型数据是以缺失值形式存储的。
D. 在Python中,datetime模块可支持日期和时间的数学运算。
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、判断题
1. 一个变量的最大值和最小值就是该变量的异常值。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 经过Min-Max缩放,数据的正负不会发生改变。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. Spearman相关系数的值在[-1,1]之间分布。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 哑变量可以有多个类别。()?
A. √
B. ×,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 数据预处理是指在对数据进行分析前需要对数据进行的处理工作。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。国开一网一平台
6. 包含缺失值的数据集表现出来的不确定性与不包含缺失值的数据集相比显著减小。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 数据离散化可以分为客观法和主观法两种。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。国开一网一平台
8. 所有的数据错误都可以被发现并纠正。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 模型预测准确度总是随着样本数量的增加而同步增加。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。国开一网一平台
10. 某变量的数据中心化结果以0为中心对称分布。()?,我们的目标是要做全覆盖、全正确的答案搜索服务。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。,我们的目标是要做全覆盖、全正确的答案搜索服务。
三 、问答题
1. 请简述数据缺失的原因。
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 请简述使用Lasso算法选择变量的思想。
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、填空题
1. 使用Lasso算法进行变量选择: Lasso_model = Lasso(alpha=0.03, random_state=0) lasso_model. (train_x, train_y) coef = pd.Series(lasso_model.coef_,index=train_x.columns) var_lasso = coef[coef.ne(0)].index
A. fit
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 将数据集data中的变量y缩放到区间[0,10],结果保存在y1中: scaler = MinMaxScaler(feature_range =(0,10)) y1 = scaler.fit_transform( )
A. data[["y"]]
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 对序列B进行标准化,结果保存在B1中: scaler = () B1 = scaler.fit_transform(B)
A. StandardScaler
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,且不以某一类别为全0项(即每个类别均对应一个哑变量),并将结果存储于数据框df中: df = pd.get_dummies(s, prefix="d", drop_first= )
A. False
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 使用boston数据集实现线性回归模型填补。首先初始化一个线性回归模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型: train = boston.dropna(subset=["LSTAT"]) = LinearRegression() reg.fit(X=train.drop ("LSTAT",axis=1 ), y=train["LSTAT"])
A. reg
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 计算序列y与数据集X中每一个变量的Pearson相关系数,并将结果依次存储在序列p中: for i in X: p = (y, X)[0]
A. pearsonr
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 使用客观法离散化data,设定了参数为bins = [0, 10000, 100000, 200000, np.inf],标签为["new", "used", "old", "worn"],结果保存在result中: result=pd.cut(data, ,labels=["new", "used", "old", "worn"],include_lowest=True)
A. bins=[0,10000,100000,200000,np.inf]
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 对boston数据集中的变量LSTAT进行处理,随机选择10个值将其赋值为缺失值: sample = random.sample(range(boston.shape[0]), 10) boston.loc[sample, "LSTAT"] =
A. np.nan
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 对数据data计算标准分数,data_mean是data的平均值,data_std是data的标准差,结果保存在result中: result=(data- )/ data_std
A. data_mean
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取日信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") day = d2.
A. dt. day
答案:关注公众号【】,对话框内发送试题,获得答案。
五 、综合题
1. 已知x为一个包含了不规范数字形式的变量,请写出下方代码的功能 x = x.str.replace("[^\.\d]*", "") x.replace("", np.nan, inplace=True) x = x.astype(float)
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 已知变量x为数值型变量,请写出下方代码的功能,并说明操作结果1和操作结果2输出的内容。 x_bin=pd.cut(x,bins=5) d1={“X”:x,”bin”:x_bin} p1=pd.DataFrame(data=d1) print(“操作结果1: %s”%p1) print(“操作结果2: %s”%x_bin.value_counts())
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案





上一篇:【国开搜题】国家开放大学 一网一平台20230506数据结构(本)试卷01期末考试押题试卷与答案
下一篇:【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷14期末考试押题试卷与答案
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图