|
【奥鹏】-[南开大学]20春学期(1709、1803、1809、1903、1909、2003)《数据分析》在线作业
试卷总分:100 得分:100
第1题,任何故意提高网页在搜索引擎结果中的位置,使其与网页的()不相符的行为,称为Web作弊
A、访问量
B、实际价值
C、搜索量
D、用户数量
正确答案:
第2题,最小类间距离是()
A、两类中各个个体距离的最小值
B、两类中心距离
C、两类所有样本对距离的平均值
D、所有样本对之间距离的平均值
正确答案:
第3题,大数据的特点不包含
A、数据体量大
B、价值密度高
C、处理速度快
D、数据不统一
正确答案:
第4题,类的Q型聚类是指()
A、对样本个体进行聚类
B、对指标变量进行聚类。
正确答案:
第5题,以下哪个会降低Apriori算法的挖掘效率( )
A、支持度阈值增大
B、项数减少
C、事务数减少
D、减小硬盘读写速率
正确答案:
第6题,基于MapReduce的Apriori算法,共进行几轮MapReduce()
A、1
B、2
C、3
D、4
正确答案:
第7题,评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A、准确率
B、精确率
C、召回率
D、F1值
正确答案:
第8题,逻辑斯谛分布的分布函数范围在()
A、(-∞,+∞)
B、(0,1)
C、(-1/2,1/2)
D、(-1,1)
正确答案:
第9题,闵式距离参数是()时代表曼哈顿距离
A、0
B、1
C、2
D、无穷
正确答案:
第10题,置信度(confidence)是衡量兴趣度度量( )的指标
A、简洁性
B、确定性
C、实用性
D、新颖性
正确答案:
第11题,维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A、K-means
B、Bayes Network
C、C4.5
D、Apriori
正确答案:
第12题,非频繁模式( )
A、其置信度小于阈值
B、令人不感兴趣
C、包含负模式和负相关模式
D、对异常数据项敏感
正确答案:
第13题,向量空间的度量,表示文本之间的()。
A、关系
B、相似度
C、语义关系
D、语义相似度
正确答案:
第14题,话题向量空间模型中,用()的一个向量表示该文本。
A、特征词
B、话题空间
C、语义空间
D、词向量空间
正确答案:
第15题,朴素贝叶斯中,给定输入x,求解在x出现的前提下各个类别出现的概率,哪个最大,就认为x属于哪个类别。即选择()最大的类别。
A、后验概率
B、先验概率
C、极大似然估计
正确答案:
第16题,在文本信息处理系统中,所处理的原始数据是()
A、结构化的自然语言文本
B、非结构化的自然语言文本
C、非结构化的编码
D、结构化的编码
正确答案:
第17题,k近邻法中的分类决策规则往往是()
A、依权重表决
B、多数表决
C、前提设定
D、随机决定
正确答案:
第18题,数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
正确答案:
第19题,支持向量机的MapReduce实现要进行几轮MapReduce()
A、1
B、2
C、3
D、自行规定
正确答案:
第20题,以下属于关联分析的是( )
A、CPU性能预测
B、购物篮分析
C、自动判断鸢尾花类别
D、股票趋势建模
正确答案:
第21题,概率潜在语义分析中,模型生成的是(),但观测到的是()。
A、单词-话题-文本三元组
B、话题-文本二元组
C、单词-话题二元组
D、单词-文本二元组
正确答案:
第22题,层次方法中,自底向上的方法是哪种()
A、凝聚法
B、分裂法
C、K-均值算法
D、K-中心点算法
正确答案:
第23题,聚类方法包括()
A、划分方法
B、层次方法
C、对象方法
D、基于密度的方法
正确答案:
第24题,统计学习的重要性()
A、统计学习是处理海量数据的有效方法
B、统计学习是计算机智能化的有效手段
C、统计学习是计算机科学发展的一个重要组成部分
正确答案:
第25题,聚类的核心是()
A、相似度
B、距离
C、特征
D、数据
正确答案:
第26题,下面哪些属于分类算法()
A、SVM
B、决策树
C、KMeans
D、朴素贝叶斯
正确答案:
第27题,链接分析是对网络链接的()等各种现象进行分析
A、自身属性
B、链接对象
C、链接网络
正确答案:
第28题,潜在语义分析中,要同时决定两部分内容,是(),使两者的乘积是原始矩阵数据的近似。
A、话题空间
B、文本在话题空间的表示
C、话题维度
D、词向量空间
正确答案:
第29题,连续性变量的距离可用以下()方法衡量
A、曼哈顿距离
B、切比雪夫距离
C、.Jaccard相似系数
D、皮尔森相关系数
正确答案:
第30题,随机游走的马尔可夫链中,互联网中的每一个网页就是马尔可夫链中的一个();该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的()。
A、序列
B、隐变量
C、状态
D、重要程度
正确答案:
第31题,L2正则相较于L1正则可获得更稀疏的模型
T、对
F、错
正确答案:
第32题,决策树模型的缺点是分类效率低。()
T、对
F、错
正确答案:
第33题,FP-growth算法可以避免冗余的IO读写
T、对
F、错
正确答案:
第34题,大数据分析模型讨论的问题是从大数据中发现什么
T、对
F、错
正确答案:
第35题,单词-文本矩阵是一个稀疏矩阵。()
T、对
F、错
正确答案:
第36题,通过大数据的分析将会更精确地预测未来的天气,帮助农民做好自然灾害的预防工作,帮助政府实现农业的精细化管理和科学决策。
T、对
F、错
正确答案:
第37题,同义词可以表示同一个话题,而多义词可以表示不同的话题。()
T、对
F、错
正确答案:
第38题,支持向量机是所有知名的数据挖掘算法中最健壮、最准确的方法之一。()
T、对
F、错
正确答案:
第39题,大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
T、对
F、错
正确答案:
第40题,不满足给定评价度量的关联规则是无趣的。
T、对
F、错
正确答案:
第41题,Apriori算法采用了逐层搜索的迭代方法。()
T、对
F、错
正确答案:
第42题,效用矩阵的数据可以通过隐式方法获得,得到的数值中0相比较1表示受喜欢度较低
T、对
F、错
正确答案:
第43题,PageRank可以定义在任何有向图上,后来被应用到社会影响力分析、文本摘要等多个问题。
T、对
F、错
正确答案:
第44题,HITS的性能跟PageRank相差较多。()
T、对
F、错
正确答案:
第45题,切比雪夫距离计算是取哥哥坐标数值的绝对值的最大值。()
T、对
F、错
正确答案:
第46题,推荐系统经常被应用于在线商城、个性化阅读以及电影推荐
T、对
F、错
正确答案:
第47题,决策树学习的分类规则不能根据学习归纳得出。()
T、对
F、错
正确答案:
第48题,大数据规则性分析用于预测未来时间发生的概率和演化趋势
T、对
F、错
正确答案:
第49题,大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。
T、对
F、错
正确答案:
第50题,推荐与用户喜欢的演员、导演相同或流派相似的电影,是一种基于内容的推荐算法
T、对
F、错
正确答案: |
上一篇:南开20春学期(2003)《操作系统原理》在线作业下一篇:南开20春学期(2003)《数据可视化》在线作业
|