22春学期（高起本1709、全层次1803-2103）《数据科学导论》在线作业答案答卷 (2)

123456aa · 发表于 2022-5-6 02:18:24

22春学期（高起本1709-1803、全层次1809-2103）《数据科学导论》在线作业答案-00002
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.聚类是一种()。
A.有监督学习
B.雅监督学习
C.强化学习
D.半监督学习
答案:

2.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:

3.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大，分类效果越好
D.通常采用多数表决的分类决策规则
答案:

4.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台，单位成本增加100元
B.产量每增加一台，单位成本减少1.2元
C.产量每增加一台，单位成本平均减少1.2元
D.产量每增加一台，单位平均增加100元
答案:

5.哪一项不属于规范化的方法()
A.最小-最大规范化
B.零-均值规范化
C.小数定标规范化
D.中位数规范化
答案:

6.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们雅法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
答案:

7.在回归分析中,自变量为(),因变量为()。
A.离散型变量，离散型变量
B.连续型变量，离散型变量
C.离散型变量，连续型变量
D.连续型变量，连续型变量
答案:

8.层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
答案:

9.BFR聚类是用于处理数据集()的k-means变体。
A.大
B.中
C.小
D.所有
答案:

10.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
答案:

11.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
答案:

12.根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
答案:

13.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
答案:

14.在k近邻法中,选择较小的k值时,学习的"近似误差"会(),"估计误差"会()。
A.减小，减小
B.减小，增大
C.增大，减小
D.增大，增大
答案:

15.特征选择的四个步骤中不包括()
A.子集产生
B.子集评估
C.子集搜索
D.子集验证
答案:

16.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差#最小化标准差
B.最小化残差平方和
C.最大化信息熵
答案:

17.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
答案:

18.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
答案:

19.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
答案:

20.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
答案:

二、多选题 (共 10 道试题,共 20 分)
21.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
答案:BC

22.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
答案:BCD

23.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
答案:BCD

24.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
答案:BC

25.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答案:BCD

26.聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
答案:BC

27.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
答案:BD

28.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
答案:B

29.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
答案:

30.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空，或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
答案:BC

三、答案来源：雅宝题库QV同步1144766066网（www.ybaotk.com） (共 20 道试题,共 40 分)
31.数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
答案:正确

32.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的"近似误差"会减小,"估计误差"会增大,预测结果会对近邻的点实例点非常敏感。
答案:正确

33.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
答案:错误

34.平均减少的不纯度越大,则特征重要度越高。
答案:正确

35.使用SVD方法进行图像压缩不可以保留图像的重要特征。
答案:错误

36.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
答案:错误

37.关联规则可以用枚举的方法产生。
答案:正确

38.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式
答案:正确

39.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
答案:正确

40.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
答案:正确

41.当特征为离散型时,可以使用信息增益作为评价统计量。
答案:正确

42.由不同的距离度量所确定的最近邻点是不同的
答案:正确

43.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
答案:正确

44.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。
答案:错误

45.分拆方法是自底向上的方法。
答案:错误

46.随着特征维数的增加,样本间区分度提高。
答案:错误

47.两个对象越相似,他们的相异度就越高。
答案:错误

48.k值增大意味着整体模型变得复杂。
答案:错误

49.交叉表可以帮助人们发现变量之间的相互作用。
答案:正确

50.具有双隐层的感知机足以用于解决任何复杂的分类问题。
答案:正确

22春学期（高起本1709、全层次1803-2103）《数据科学导论》在线作业答案答卷 (2)

天涯海角也要找到Ni：22春学期（高起本1709、全层次1803-2103）《数据科学导论》在线作业答案答卷 (2)

相关帖子

QQ微信同步：1144766066。

服务

网站

战略合作