Hadoop教程之从HDP开始

简介

本教程描述如何使用Hortonworks数据平台为一个卡车物联网数据探索用例提炼数据。 这个物联网探索案例包含车辆、设备和人等在地图或者类似表面移动。 我们的分析将兴趣点放在将位置信息和我们的分析数据绑定。 开发人员通常通过建立简单程序实现Hello World来理解新的概念。 本教程通过让参与者开始使用Hadoop和HDP来获得类似效果。 我们使用一个物联网(loT)用例来构建我们的第一个HDP应用。 为了本教程,我们找到了一个卡车足迹的用例。没辆车装备了随时记录位置和时间数据的装置。 这些事件数据以流的方式传回我们将要处理数据的数据中心。公司将立勇这些数据更好低理解风险。 这是分析位置数据的视频,向你展示接下来我们在本课程中要做什么。

准备

  • 下载并安装最新版Hortonworks Sanbox
  • 在进入hello HDP实验室请,我们强烈建议你过一下学习Hortonworks Sandbox的线索,在虚拟机和Ambari界面中熟悉Sandbox。
  • 用到的数据集合: Geolocation.zip
  • 可选:安装和配置Hortonworks ODBC驱动--参考为Windows或者OS X安装ODBC驱动教程。请参考:
  • 在本课程中,Hortonworks Sandbox是安装在Oracle VirtualBox虚拟机(VM)上的--你的屏幕可能看起来有所不同。
  • 安装和您使用的Excel版本匹配的ODBC驱动程序(32位或64位)。
  • 我们会用到Microsoft Excel 2013的Power View特性来可视化传感器数据。Power View目前仅仅在Microsoft Office 专业版+和Microsoft Office 365 专业版+上可用。
  • 注意,其他版本的Excel也可以,但是可视化会被限制在表格或图表。你也可以使用其他可视化工具,比如Zeppelin和Zoomdata。

教程预览

在本教程,我们会提供已经收集的位置和卡车信息。我们将会导入这些数据到HDFS并在Hive上构建派生表。然后我们会使用Pig、Hive和Spark处理数据。然后把处理过的数据导入到用于可视化处理的Microsoft Excel中。提炼和分析位置数据,接下来:

  • 回顾某些Hadoop基础。
  • 下载并解压位置数据文件。
  • 上传采集到的数据到Hortonworks Sandbox。
  • 运行Hive,Pig和Spark脚本来计算卡车历程和司机风险因素。
  • 使用Microsoft Excel提炼传感器数据
  • 使用Excel Power View,Zeppelin或Zoomdata可视化传感器数据。

教程目标

本接的目标是让大家熟悉如下基础:

  • Hadoop和HDP
  • Ambari文件用户界面和HDFS
  • Ambari Hive用户界面和Apache Hive
  • Ambari Pig用户界面和Apache Pig
  • Apache Spark
  • Excel数据可视化(可选)
  • Zeppelin数据可视化(可选)
  • Zoomdata数据可视化(可选)

大纲


教程名称: Hadoop教程之从HDP开始-简介

HCC教程标签:tutorial-100HDP-2.4