国家开放大学2023年春《大数据技术概论》形考作业实验1234参考答案

[复制链接]
查看: 73|回复: 0

19万

主题

19万

帖子

59万

积分

论坛元老

Rank: 8Rank: 8

积分
594010
发表于 2024-6-8 08:38:21 | 显示全部楼层 |阅读模式
参考答案包含四个实验文件,下载后记得解压,不知道怎么解压压缩包的自己百度一下





实验1:Linux系统下Hadoop安装与使用(4学时)
目的:演示Linux系统下如何使用Hadoop进行一些常用操作
  内容:
  1. Linux虚拟机的安装
  2. 常用的Linux命令
  3. Linux虚拟机环境下完成Hadoop伪分布式环境的搭建
  4. 常用的Hadoop操作
  要求:理解Hadoop生态系统及其组件,熟悉Linux系统下Hadoop的安装和使用

实验2:MapReduce的应用(4学时)
  目的:在Hadoop平台编写基本的MapReduce   程序实现数据分析
  内容:
  1.从分布式文件系统中读入数据
  2.执行Map任务执行中间结果
  3.通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
  4.执行Reduce任务得到最终结果并写入分布式文件系统
  要求:理解MapReduce的工作流程,了解MapReduce的具体应用,了解如何处理解决常见的数据处理问

实验3:数据可视化(6学时)
  目的:展示使用Python或PySpark进行数据可视化的过程
  内容:
  1. Python的展示和简单介绍
  2. 数据的读入与简介
  3. 数据的预处理
  4. 选择合适的可视化图形
  5. 图形解读、分析和结论
  要求:理解如何通过数据可视化的技术进行探索数据的特征和模式,发现数据中潜在的价值信息


实验4:大数据的分析与挖掘(4学时)
  目的:展示数据挖掘方法如何解决实际问题
  内容:
  1. 数据的读入与理解
  2. 数据的预处理
  3. 模型的训练
  4. 模型的预测与评价
  要求:了解大数据分析方法用来解决实际问题时的思路,了解大数据分析的处理流程和处理方法,





上一篇:国家开放大学2023年春《教学设计-新疆》第一至十七讲和期末考试参考答案
下一篇:国家开放大学2023年春《法学概论-西安》形考作业一二三四参考答案
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图