Hadoop教程之从HDP开始
简介
本教程描述如何使用Hortonworks数据平台为一个卡车物联网数据探索用例提炼数据。 这个物联网探索案例包含车辆、设备和人等在地图或者类似表面移动。 我们的分析将兴趣点放在将位置信息和我们的分析数据绑定。 开发人员通常通过建立简单程序实现Hello World来理解新的概念。 本教程通过让参与者开始使用Hadoop和HDP来获得类似效果。 我们使用一个物联网(loT)用例来构建我们的第一个HDP应用。 为了本教程,我们找到了一个卡车足迹的用例。没辆车装备了随时记录位置和时间数据的装置。 这些事件数据以流的方式传回我们将要处理数据的数据中心。公司将立勇这些数据更好低理解风险。 这是分析位置数据的视频,向你展示接下来我们在本课程中要做什么。
准备
- 下载并安装最新版Hortonworks Sanbox
- 在进入hello HDP实验室请,我们强烈建议你过一下学习Hortonworks Sandbox的线索,在虚拟机和Ambari界面中熟悉Sandbox。
- 用到的数据集合: Geolocation.zip
- 可选:安装和配置Hortonworks ODBC驱动--参考为Windows或者OS X安装ODBC驱动教程。请参考:
- 为Windows 7安装和配置Hortonworks ODBC驱动
- 为Mac OX S安装和配置Hortonworks ODBC驱动
- Windows 7以上版本需要Microsoft Excel 2013 专业版+。
- 在本课程中,Hortonworks Sandbox是安装在Oracle VirtualBox虚拟机(VM)上的--你的屏幕可能看起来有所不同。
- 安装和您使用的Excel版本匹配的ODBC驱动程序(32位或64位)。
- 我们会用到Microsoft Excel 2013的Power View特性来可视化传感器数据。Power View目前仅仅在Microsoft Office 专业版+和Microsoft Office 365 专业版+上可用。
- 注意,其他版本的Excel也可以,但是可视化会被限制在表格或图表。你也可以使用其他可视化工具,比如Zeppelin和Zoomdata。
教程预览
在本教程,我们会提供已经收集的位置和卡车信息。我们将会导入这些数据到HDFS并在Hive上构建派生表。然后我们会使用Pig、Hive和Spark处理数据。然后把处理过的数据导入到用于可视化处理的Microsoft Excel中。提炼和分析位置数据,接下来:
- 回顾某些Hadoop基础。
- 下载并解压位置数据文件。
- 上传采集到的数据到Hortonworks Sandbox。
- 运行Hive,Pig和Spark脚本来计算卡车历程和司机风险因素。
- 使用Microsoft Excel提炼传感器数据
- 使用Excel Power View,Zeppelin或Zoomdata可视化传感器数据。
教程目标
本接的目标是让大家熟悉如下基础:
- Hadoop和HDP
- Ambari文件用户界面和HDFS
- Ambari Hive用户界面和Apache Hive
- Ambari Pig用户界面和Apache Pig
- Apache Spark
- Excel数据可视化(可选)
- Zeppelin数据可视化(可选)
- Zoomdata数据可视化(可选)
大纲
- 简介
- 准备
- 用到的数据集合: Geolocation
- 最新版Hortonworks Sandbox
- 学习Hortonworks Sandbox的线索 - 熟悉Sandbox和Ambari。
- 教程预览
- 教程目标(成果)
- Hadoop数据平台的概念(对Hadoop或HDP新的-往下看)
- 开始进入HDP实验(Labs)
- 下一步/Try
- 参考文档和资源
教程名称: Hadoop教程之从HDP开始-简介
HCC教程标签:tutorial-100和HDP-2.4