Hadoop教程之从HDP开始

简介

本教程描述如何使用Hortonworks数据平台为一个卡车物联网数据探索用例提炼数据。这个物联网探索案例包含车辆、设备和人等在地图或者类似表面移动。我们的分析将兴趣点放在将位置信息和我们的分析数据绑定。开发人员通常通过建立简单程序实现Hello World来理解新的概念。本教程通过让参与者开始使用Hadoop和HDP来获得类似效果。我们使用一个物联网（loT）用例来构建我们的第一个HDP应用。为了本教程，我们找到了一个卡车足迹的用例。没辆车装备了随时记录位置和时间数据的装置。这些事件数据以流的方式传回我们将要处理数据的数据中心。公司将立勇这些数据更好低理解风险。这是分析位置数据的视频，向你展示接下来我们在本课程中要做什么。

准备

下载并安装最新版Hortonworks Sanbox
在进入hello HDP实验室请，我们强烈建议你过一下学习Hortonworks Sandbox的线索，在虚拟机和Ambari界面中熟悉Sandbox。
用到的数据集合: Geolocation.zip
可选：安装和配置Hortonworks ODBC驱动--参考为Windows或者OS X安装ODBC驱动教程。请参考:
- 为Windows 7安装和配置Hortonworks ODBC驱动
- 为Mac OX S安装和配置Hortonworks ODBC驱动
- Windows 7以上版本需要Microsoft Excel 2013 专业版+。
在本课程中，Hortonworks Sandbox是安装在Oracle VirtualBox虚拟机（VM）上的--你的屏幕可能看起来有所不同。
安装和您使用的Excel版本匹配的ODBC驱动程序(32位或64位)。
我们会用到Microsoft Excel 2013的Power View特性来可视化传感器数据。Power View目前仅仅在Microsoft Office 专业版+和Microsoft Office 365 专业版+上可用。
注意，其他版本的Excel也可以，但是可视化会被限制在表格或图表。你也可以使用其他可视化工具，比如Zeppelin和Zoomdata。

教程预览

在本教程，我们会提供已经收集的位置和卡车信息。我们将会导入这些数据到HDFS并在Hive上构建派生表。然后我们会使用Pig、Hive和Spark处理数据。然后把处理过的数据导入到用于可视化处理的Microsoft Excel中。提炼和分析位置数据，接下来:

回顾某些Hadoop基础。
下载并解压位置数据文件。
上传采集到的数据到Hortonworks Sandbox。
运行Hive，Pig和Spark脚本来计算卡车历程和司机风险因素。
使用Microsoft Excel提炼传感器数据
使用Excel Power View，Zeppelin或Zoomdata可视化传感器数据。

教程目标

本接的目标是让大家熟悉如下基础:

Hadoop和HDP
Ambari文件用户界面和HDFS
Ambari Hive用户界面和Apache Hive
Ambari Pig用户界面和Apache Pig
Apache Spark
Excel数据可视化(可选)
Zeppelin数据可视化(可选)
Zoomdata数据可视化(可选)

大纲

简介
准备
- 用到的数据集合: Geolocation
- 最新版Hortonworks Sandbox
- 学习Hortonworks Sandbox的线索 - 熟悉Sandbox和Ambari。
教程预览
教程目标(成果)
Hadoop数据平台的概念(对Hadoop或HDP新的-往下看)
- Apache Hadoop和HDP（5个核心）
- Apache Hadoop分布式文件系统（HDFS）
- Apache YARN
- Apache Mapreduce
- Apache Hive
- Apache Pig
开始进入HDP实验（Labs）
下一步/Try
- 专业人士之旅 - 作为Hadoop从业者，你可以采用如下的学习路径
  - Hadoop 开发者 - 点这里
  - Hadoop 管理员 - 点这里
  - 数据分析师 - 点这里
- 案例学习 - 学习其他企业是如何使用Hadoop的。
参考文档和资源

教程名称: Hadoop教程之从HDP开始-简介

HCC教程标签:tutorial-100和HDP-2.4