南开20春学期（2003）《数据分析》在线作业

bb20920d · 发表于 2020-5-9 15:47:35

【奥鹏】-[南开大学]20春学期（1709、1803、1809、1903、1909、2003）《数据分析》在线作业
试卷总分:100 得分:100
第1题,任何故意提高网页在搜索引擎结果中的位置，使其与网页的（）不相符的行为，称为Web作弊
A、访问量
B、实际价值
C、搜索量
D、用户数量
正确答案:

第2题,最小类间距离是（）
A、两类中各个个体距离的最小值
B、两类中心距离
C、两类所有样本对距离的平均值
D、所有样本对之间距离的平均值
正确答案:

第3题,大数据的特点不包含
A、数据体量大
B、价值密度高
C、处理速度快
D、数据不统一
正确答案:

第4题,类的Q型聚类是指（）
A、对样本个体进行聚类
B、对指标变量进行聚类。
正确答案:

第5题,以下哪个会降低Apriori算法的挖掘效率（  ）
A、支持度阈值增大
B、项数减少
C、事务数减少
D、减小硬盘读写速率
正确答案:

第6题,基于MapReduce的Apriori算法，共进行几轮MapReduce（）
A、1
B、2
C、3
D、4
正确答案:

第7题,评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。
A、准确率
B、精确率
C、召回率
D、F1值
正确答案:

第8题,逻辑斯谛分布的分布函数范围在（）
A、(-∞，+∞)
B、(0,1)
C、(-1/2,1/2)
D、(-1,1)
正确答案:

第9题,闵式距离参数是（）时代表曼哈顿距离
A、0
B、1
C、2
D、无穷
正确答案:

第10题,置信度(confidence)是衡量兴趣度度量（  ）的指标
A、简洁性
B、确定性
C、实用性
D、新颖性
正确答案:

第11题,维克托?迈尔-舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（）
A、K-means
B、Bayes Network
C、C4.5
D、Apriori
正确答案:

第12题,非频繁模式（  ）
A、其置信度小于阈值
B、令人不感兴趣
C、包含负模式和负相关模式
D、对异常数据项敏感
正确答案:

第13题,向量空间的度量，表示文本之间的（）。
A、关系
B、相似度
C、语义关系
D、语义相似度
正确答案:

第14题,话题向量空间模型中，用（）的一个向量表示该文本。
A、特征词
B、话题空间
C、语义空间
D、词向量空间
正确答案:

第15题,朴素贝叶斯中，给定输入x，求解在x出现的前提下各个类别出现的概率，哪个最大，就认为x属于哪个类别。即选择（）最大的类别。
A、后验概率
B、先验概率
C、极大似然估计
正确答案:

第16题,在文本信息处理系统中，所处理的原始数据是（）
A、结构化的自然语言文本
B、非结构化的自然语言文本
C、非结构化的编码
D、结构化的编码
正确答案:

第17题,k近邻法中的分类决策规则往往是（）
A、依权重表决
B、多数表决
C、前提设定
D、随机决定
正确答案:

第18题,数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段（  ）。
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
正确答案:

第19题,支持向量机的MapReduce实现要进行几轮MapReduce（）
A、1
B、2
C、3
D、自行规定
正确答案:

第20题,以下属于关联分析的是（  ）
A、CPU性能预测
B、购物篮分析
C、自动判断鸢尾花类别
D、股票趋势建模
正确答案:

第21题,概率潜在语义分析中，模型生成的是（），但观测到的是（）。
A、单词-话题-文本三元组
B、话题-文本二元组
C、单词-话题二元组
D、单词-文本二元组
正确答案:

第22题,层次方法中，自底向上的方法是哪种（）
A、凝聚法
B、分裂法
C、K-均值算法
D、K-中心点算法
正确答案:

第23题,聚类方法包括（）
A、划分方法
B、层次方法
C、对象方法
D、基于密度的方法
正确答案:

第24题,统计学习的重要性（）
A、统计学习是处理海量数据的有效方法
B、统计学习是计算机智能化的有效手段
C、统计学习是计算机科学发展的一个重要组成部分
正确答案:

第25题,聚类的核心是（）
A、相似度
B、距离
C、特征
D、数据
正确答案:

第26题,下面哪些属于分类算法（）
A、SVM
B、决策树
C、KMeans
D、朴素贝叶斯
正确答案:

第27题,链接分析是对网络链接的（）等各种现象进行分析
A、自身属性
B、链接对象
C、链接网络
正确答案:

第28题,潜在语义分析中，要同时决定两部分内容，是（），使两者的乘积是原始矩阵数据的近似。
A、话题空间
B、文本在话题空间的表示
C、话题维度
D、词向量空间
正确答案:

第29题,连续性变量的距离可用以下（）方法衡量
A、曼哈顿距离
B、切比雪夫距离
C、.Jaccard相似系数
D、皮尔森相关系数
正确答案:

第30题,随机游走的马尔可夫链中，互联网中的每一个网页就是马尔可夫链中的一个（）；该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的（）。
A、序列
B、隐变量
C、状态
D、重要程度
正确答案:

第31题,L2正则相较于L1正则可获得更稀疏的模型
T、对
F、错
正确答案:

第32题,决策树模型的缺点是分类效率低。（）
T、对
F、错
正确答案:

第33题,FP-growth算法可以避免冗余的IO读写
T、对
F、错
正确答案:

第34题,大数据分析模型讨论的问题是从大数据中发现什么
T、对
F、错
正确答案:

第35题,单词-文本矩阵是一个稀疏矩阵。（）
T、对
F、错
正确答案:

第36题,通过大数据的分析将会更精确地预测未来的天气，帮助农民做好自然灾害的预防工作，帮助政府实现农业的精细化管理和科学决策。
T、对
F、错
正确答案:

第37题,同义词可以表示同一个话题，而多义词可以表示不同的话题。（）
T、对
F、错
正确答案:

第38题,支持向量机是所有知名的数据挖掘算法中最健壮、最准确的方法之一。（）
T、对
F、错
正确答案:

第39题,大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
T、对
F、错
正确答案:

第40题,不满足给定评价度量的关联规则是无趣的。
T、对
F、错
正确答案:

第41题,Apriori算法采用了逐层搜索的迭代方法。（）
T、对
F、错
正确答案:

第42题,效用矩阵的数据可以通过隐式方法获得，得到的数值中0相比较1表示受喜欢度较低
T、对
F、错
正确答案:

第43题,PageRank可以定义在任何有向图上，后来被应用到社会影响力分析、文本摘要等多个问题。
T、对
F、错
正确答案:

第44题,HITS的性能跟PageRank相差较多。（）
T、对
F、错
正确答案:

第45题,切比雪夫距离计算是取哥哥坐标数值的绝对值的最大值。（）
T、对
F、错
正确答案:

第46题,推荐系统经常被应用于在线商城、个性化阅读以及电影推荐
T、对
F、错
正确答案:

第47题,决策树学习的分类规则不能根据学习归纳得出。（）
T、对
F、错
正确答案:

第48题,大数据规则性分析用于预测未来时间发生的概率和演化趋势
T、对
F、错
正确答案:

第49题,大数据技术也能帮助政府进行支出管理，透明合理的财政支出将有利于提高公信力和监督财政支出。
T、对
F、错
正确答案:

第50题,推荐与用户喜欢的演员、导演相同或流派相似的电影，是一种基于内容的推荐算法
T、对
F、错
正确答案:

13167283786 · 发表于 2022-3-13 16:43:43

电大广东开放大学形考作业有答案吗？

南开20春学期（2003）《数据分析》在线作业

天涯海角也要找到Ni：南开20春学期（2003）《数据分析》在线作业

相关帖子

QQ微信同步：1144766066。

服务

网站

战略合作