云计算与大数据技能培训 - 安码科技
首页 >培训班 >云计算与大数据技能培训> 正文

云计算与大数据技能培训

来源:北京安码科技有限公司     发布时间: 2015-01-13

一.前言

    近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。百度目前的总数据量已超过1000PB,每天需要处理的网页数据达到10PB~100PB;淘宝累计的交易数据量高达100PB;Twitter每天发布超过2亿条消息,新浪微博每天发帖量达到8000万条;中国移动一个省的电话通联记录数据每月可达0.5PB~1PB;一个省会城市公安局道路车辆监控数据三年可达200亿条、总量120TB。据世界权威IT信息咨询分析公司IDC研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB(1ZB=1000000PB),10年将增长44倍,年均增长40%。

为了紧跟全球大数据技术发展的浪潮,我国政府、学术界和工业界对大数据也予以了高度的关注。央视着名“对话”节目2013年4月14日和21日邀请了《大数据时代——生活、工作与思维的大变革》作者维克托·迈尔-舍恩伯格,以及美国大数据存储技术公司LSI总裁阿比分别做客“对话”节目,做了两期大数据专题谈话节目“谁在引爆大数据”、“谁在掘金大数据”,国家央视媒体对大数据的关注和宣传体现了大数据技术已经成为国家和社会普遍关注的焦点。

而国内的学术界和工业界也都迅速行动,广泛开展大数据技术的研究和开发。2013年以来,国家自然科学基金、973计划、核高基、863等重大研究计划都已经把大数据研究列为重大的研究课题。为了推动我国大数据技术的研究发展,2012年中国计算机学会(CCF)发起组织了CCF大数据专家委员会,CCF专家委员会还特别成立了一个“大数据技术发展战略报告”撰写组,并已撰写发布了《2013年中国大数据技术与产业发展白皮书》。

    大数据在带来巨大技术挑战的同时,也带来巨大的技术创新与商业机遇。不断积累的大数据包含着很多在小数据量时不具备的深度知识和价值, 大数据分析挖掘将能为行业/企业带来巨大的商业价值,实现各种高附加值的增值服务,进一步提升行业/企业的经济效益和社会效益。由于大数据隐含着巨大的深度价值,美国政府认为大数据是“未来的新石油”,对未来的科技与经济发展将带来深远影响。因此,在未来,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有、控制和运用也将成为国家间和企业间新的争夺焦点。

    大数据技术的发展将给我们研究计算机技术的专业人员带来新的挑战和机遇。目前,国内外IT企业对大数据技术人才的需求正快速增长,未来5~10年内业界将需要大量的掌握大数据处理技术的人才。IDC研究报告指出,“下一个10年里,世界范围的服务器数量将增长10倍,而企业数据中心管理的数据信息将增长50倍,企业数据中心需要处理的数据文件数量将至少增长75倍,而世界范围内IT专业技术人才的数量仅能增长1.5倍。”因此,未来十年里大数据处理和应用需求与能提供的技术人才数量之间将存在一个巨大的差距。目前,由于国内外高校开展大数据技术人才培养的时间不长,技术市场上掌握大数据处理和应用开发技术的人才十分短缺,因而这方面的技术人才十分抢手,供不应求。国内几乎所有着名的IT企业,如百度、腾讯、阿里巴巴和淘宝、奇虎360等,都大量需要大数据技术人才。

二.主办机构及支撑单位

主办单位:

本次培训由以下主办机构联合举办:

灾备技术国家工程实验室

教育部网络攻防重点实验室

北京邮电大学信息安全中心

授权培训单位:

北京安码科技有限公司

北京安码科技有限公司负责具体的培训和考试实施工作。关于上述各机构的详细介绍以及相关培训授权。

三.师资力量

  为获得最好的培训效果,培训组委会聘请业界知名专家,包括:

灾备技术及信息安全方面资深专家

灾备技术及信息安全行业专家

安码科技资深研究专家

灾备技术国家工程实验室资深教师

北京邮电大学信息安全中心资深教师

四.授课方式及教材内容及工具

4.1授课方式

  为了实现统一、规范的要求,同时也为了达到最好的学习效果,大数据零基础培训班采用统一的授课教材和工具,包括:

专有电子版PPT讲义

经由大数据资深专家编写的专有教材

大数据虚拟化环境及数据包资源

授课方式采用讲师讲解+上机实验方式进行,提供相关课程环境,课上可使用服务器资源进行授课,同时可将虚拟机部署在学生电脑中,课后也可参照电子PPT讲义对所学课程进行进行复习。

4.2授课教材内容 

4.2.1大数据基础概述

培训对象

1)系统架构师、系统管理员、大数据开发人员。

2)政府机关,企业类像金融保险、移动和互联网等涉大数据开发与应用的负责人。

3)数据中心运行、规划、设计负责人。

4)高校、科研院所牵涉到大数据研究的项目负责人。

培训目标

1)宏观了解大数据的相关知识。

2)为后续课程打下基础

培训内容

1)大数据的基本概念及特性

2)大数据技术的概述

3)大数据平台介绍

上机内容

     暂无

4.2.2分布式文件系统-HDFS

培训对象

1)系统架构师、系统管理员、大数据开发人员。

2)政府机关,企业类像金融保险、移动和互联网等涉大数据开发与应用的负责人。

3)数据中心运行、规划、设计负责人。

4)高校、科研院所牵涉到大数据研究的项目负责人。

培训目标

1)熟悉HDFS的分布式存储原理,了解HDFS的高可用,高容错,高吞吐,安全,易扩展的特性,熟悉HDFS的基本操作,了解HDFS2.0特性及多用户支持。

2)为分布式并行计算与分析打下基础

培训内容

1)HDFS基本分块,读写原理及复制机理

2)HDFS文件基本操作

3)HDFS2.0的新功能特性

上机内容

1)文件基本操作上传,下载,改名,拷贝,修改副本数

2)文件系统状况检查-fsck

3)脱离安全模式

4.2.3分布式处理引擎-MapReduce

培训对象

1)大数据系统管理员

2)大数据开发人员。

3)政府机关,企业类像金融保险、移动和互联网等涉大数据开发与应用的负责人。

4)高校、科研院所牵涉到大数据研究的项目负责人。

培训目标

熟悉MapReduce计算模式,熟悉高容错性的Hadoop MapReduce 分布式并行计算的设计理念及作业调度机制,理解Hadoop MapReduce作为以硬盘读写为特征的分析架构的批处理适用场景。了解基于数据处理引擎(MapReduce,Spartetc)的高级分析框架。

培训内容

1)MapReduce 计算模式基本原理

2)Hadoop MapReduce分布式计算框架

3)MapReduce 编译及代码举例

4)Hadoop的生态系统简介

5)基于数据处理引擎的大数据分析解决方案- Pig

上机内容

1)Hadoop MapReducejava实例

2)Hadoop Streaming API python实例

3)PIG 实例

4.2.4Hadoop 2.0 框架

培训对象

1)大数据系统管理员

2)大数据开发人员。

3)政府机关,企业类像金融保险、移动和互联网等涉大数据开发与应用的负责人。

4)高校、科研院所牵涉到大数据研究的项目负责人。

培训目标

熟悉YARN 作为统一资源管理框架成为新一代内核的由来,熟悉YARN的架构及作业流程,了解YARN框架下各种数据处理引擎可以并行,并且资源可以按需调配,达到集群资源利用的最大化。

熟悉Zookeeper集群在分布式系统中的协调作用的工作机制及应用场景。

培训内容

1)YARN 的由来

2)YARN 框架组件及作业流程

3)在YARN框架下的资源分配器

4)YARN框架下的Hadoop生态系统

5)Zookeeper 工作机理及应用场景

上机内容

1)zookeeper创建ZNODE及监控实例

2)递交一个YARN的作业到相应的作业队列

HBase&Phoenix

培训对象

3)具备SQL基础知识、对关系型数据库和非关系型数据库有一定了解的人员;

4)做过简单项目开发,了解相关数据库调用的人员;

5)了解Hadoop基础知识,了解HDFS、ZOOKEEPER、MAPREDUCE。

培训目标

通过课程学习,对HBase和Phoenix有初步的认识,了解它们的存储和读取原理,了解其物理存储结构,了解其基本使用方法,了解其主要配置参数的意义及调优方法。

培训内容

1)NoSQL的概述

什么是NoSQL

NoSQL的分类

NoSQL的适用场景

2)HBase的概述

什么是HBase

HBase的物理结构

HBase的数据结构

3)HBase的读写原理

HBase的存储原理

HBase的读取原理

4)HBase的运用操作

HBase的CMDLINE操作

HBase的JAVA操作

HBase的BULKLOAD

5)HBase在生产中的应用情况

HBase的优势与不足

HBase的适用场景

HBase的成功案例

6)Phoenix的概述

什么是Phoenix

Phoenix的特性

7)Phoenix的运用操作

Phoenix的CMDLINE操作

Phoenix的JAVA操作

8)优化和运维

上机内容

1)对HBase的基本操作

2)对Phoenix的基本操作

3)BULKLOAD数据导入

4.2.5数据仓库Hive

培训对象

1)系统架构师、系统分析师、高级程序员、资深开发人员、数据仓库开发人员、系统开发人员

2)牵涉到大数据处理的数据中心运行、规划、设计负责人。

3)政府机关,金融保险、移动和互联网等大数据来源单位的负责人。

4)高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。

5)大数据技术爱好者

6)IT运维人员

培训目标

1)全面了解大数据数据仓库设计开发。

2)学习Hive架构。

3)深入使用Hive开发设计数据仓库。

4)掌握大数据ETL流程。 

培训内容

1)数据仓库简介

数据仓库简介

数据仓库设计开发

2)Hive 简介

Hive是什么

Hive架构

为什么使用Hive

Hive和Hbase 区别

3)Hive 开发

Hive 数据单元 

Hive 数据类型 

Hive 内建运算符和函数 

Hive 语言能力 

Hive DDL 

Hive DML操作 

Hive SQL 操作 

Hive 聚合查询操作 

自定义函数 

4)ETL 过程

Sqoop 架构及使用 

Hive在ETL过程中实际应用 

Hive 调优

上机内容

1)Hive基本使用(DDL,DML操作) 

2)Hive在ETL过程中实际应用 

3)Sqoop基本使用

4.2.6大数据系统集群监控

培训对象

1)大数据系统的运营维护人员和大数据IT技术支持人员

2)大数据系统的数据文件系统、数据库、数据仓库和其他组件的管理员和开发者

3)大数据开发工程师和有志于成为大数据开发工程师的人士

培训目标

    详细讲解大数据系统从集群规划、设计到部署及使用中常用的基本功能、高可用性功能、安全功能及其相关操作,培训作为大数据系统管理员所需的基本技能和常识和大数据系统主流管理软件的使用,达到优秀大数据系统管理员水平。

培训内容

1)闪电大数据集群管理系统介绍

监控介绍

服务管理和操作介绍

用户及组的管理和操作

大数据安全组件介绍、使用和操作

2)高可用性介绍和配置

HDFS的高可用性

HBase的高可用性

Hive的高可用性

Resource Manager的高可用性

Storm的高可用性

Oozie的高可用性

3)HDFS的进阶操作

HDFS ACLs

HDFS数据均衡

HDFS federation

HDFS高级数据操作

HDFS quata使用

4)大数据集群的多租户配置

Yarn Capacity Schedulor

5)大数据集群的故障解决

上机内容

1)闪电集群管理软件上级培训

2)配置集群高可用性

3)HDFS的维护操作

4)集群部署操作

4.2.7实时流数据处理

培训对象

1)大数据系统开发人员

2)有物联网和大数据需求的政企人员

3)想从事大数据和物联网相关项目开发和技术开发的人员

培训目标

    介绍基于物联网设计的总体技术解决方案和各个技术组件的技术架构、功能、性能和使用开发。参加完此次培训的开发人员能够进行IoT物联网基于大数据系统的开发工作。

培训内容

1)物联网大数据解决方案

物联网大数据整体解决方案

物联网大数据技术架构

物联网大数据技术介绍

2)分布式消息队列系统介绍

功能和性能介绍

技术架构介绍

JAVA开发介绍

3)分布式流数据处理引擎介绍

功能和性能介绍

技术架构介绍

JAVA开发介绍

4)分布式网关系统介绍

功能和性能介绍

技术架构介绍

JAVA开发介绍

5)物联网硬件介绍

上机内容

1)分布式消息队列基本使用和操作

2)分布式流处理引擎基本使用和操作

3)分布式网关基本使用和操作

4)以实际项目为例整体开发操作

4.2.8全文检索-Elasticsearch

培训对象

1)从事数据搜索、数据管理的各系统管理人员。

2)有志于从事搜索、商业数据搜索平台工作和数据搜索理论研究的学生。

3)有志于学习数据分布式搜索平台的社会各界人士。

培训目标

为学员奠定扎实的分布式搜索的理论基础和实际的使用能力。本课程能够帮助初学者们了解分布式搜索基础知识、分布式搜索的理论以及实际应用。

培训内容

1)Elasticsearch概述

Elasticsearch简介

Elasticsearch相关技术

Elasticsearch成熟案例

2)Elasticsearch相关基本概念

基本概念的讲解

配置文件详解

3)Elasticsearch监控

监控集群、索引、节点

4)Elasticsearch索引管理

创建索引操作

对文档进行索引操作

删除索引操作

更新索引操作

批处理操作

5)Elasticsearch的查询

Query DSL的讲解

查询使用案例

6)Elasticsearch实际项目应用讲解

Elasticsearch实际项目应用

Elasticsearch与其他平台集成使用

上机内容

1)获取集群信息上机使用

2)对索引的CRUD操作

3)数据的批处理

4)查询上机使用

4.2.9基于内存的分布式处理引擎-Spark

培训对象

1)大数据系统管理员

2)大数据开发人员。

3)政府机关,企业类像金融保险、移动和互联网等涉大数据开发与应用的负责人。

4)高校、科研院所牵涉到大数据研究的项目负责人。

培训目标

熟悉Spark 作为基于内存的分布式计算框架的机理,了解Spark与hadoopMapReduce的差异,理解Spark在同一个设计下同时支持批处理及实时流处理的强大 。

培训内容

1)Scala 及 函数式编程简介

2)MapReduce 与 Spark 比较

3)Spark计算框架之核心RDD的基本原理

4)Spark DAGScheduler及 Shuffle 简介

5)Spark 流处理机制

6)Spark 生态系统

7)Spark 编译及代码举例

上机内容

1)Spark shell – RDD transform & action

2)Spark shell – WordCount

4.2.10商业智能-Qlikview

培训对象

1)从事数据分析、数据挖掘相关工作人员

2)熟悉BI工作流程,参与过数据仓库应用项目开发人员

3)政府机关,金融保险,移动和互联网等大数据来源单位参与公司BI解决方案负责人

4)有意向于从事数据分析、数据挖掘等相关分析工作的学生和社会各界人士

培训目标

1)进一步认识BI的概念和运用方法

2)快速得到数据关系的快照

3)基于你的数据做展现

4)自主创建图形图表

5)进行统计分析

6)从多个数据源整合信息,创建新表

培训内容

1)BI概述

BI结构

BI演变过程

BI价值

BI常用领域

BI在中国的发展

BI核心技术

BI具有的功能

BI报表制作

2)Qlikview介绍

关于qlikview

qlikview功能支持

qlikview技术亮点

qlikview应用案例

3)案例演示

上机内容

1)加载数据到Qlikview

从excel表格中抽取数据

从hive中抽取数据

2)将众多表格中的数据进行关联

重命名字段进行关联

3)串联表格

自动串联

强制串联

4)表格结构

使用表格查看器

5)创建图表

添加表达式至条形图

将条形图转换为饼状图或者更多图表类型

4.2.11数据挖掘

培训对象

1)从事数据分析、数据挖掘和建模工作的各企业人员。

2)有志于从事金融数据挖掘、商业数据挖掘分析工作和数据挖掘理论研究的学生。

3)有志于学习数据挖掘技术和软件的社会各界人士。

培训目标

为学员奠定扎实的数据挖掘理论基础和实际的分析能力。本课程能够帮助初学者们了解数据挖掘基础知识学习和职业规划,能够帮助从业者深入了解数据挖掘的各种模型和算法,以及应用场景。

培训内容

1)数据挖掘概述

数据挖掘简介

数据挖掘相关技术

数据挖掘应用

2)逻辑回归模型及其案例分析

逻辑回归模型详解

逻辑回归模型案例分析

3)关联分析算法及其案例

关联规则的分类

Aprior算法详解

从频繁项集产生关联规则

购物篮实例分析-

4)朴素贝叶斯分类器详解及案例分析

朴素贝叶斯分类器详解

朴素贝叶斯分类器应用案例分析

5)聚类分析算法及其案例

聚类分析的概念

主要的聚类方法

K-means算法详解

聚类分析实例-

6)决策树算法详解及应用案例分析

决策树算法详解

决策树算法应用案例分析

7)协同过滤推荐算法详解及应用案例分析

协同过滤推荐算法详解

协同过滤推荐算法应用案例分析

8)其它算法介绍

SVM支持向量机

神经网络

上机内容

1)逻辑回归上机实例

2)K-means聚类上机实例

3)协同过滤上机实例

4)朴素贝叶斯分类器及决策树上机实例

4.2.12MapReduce详解

培训对象

1)大数据系统管理员

2)大数据开发人员。

3)政府机关,企业类像金融保险、移动和互联网等涉大数据开发与应用的负责人。

4)高校、科研院所牵涉到大数据研究的项目负责人。

培训目标

深度理解MapReduce计算框架中数据从Map输出到Reduce输入端的整个过程,其中涉及Shuffle,merge, Sort等核心过程,理解Shuffle的性能直接影响整个框架的性能并了解怎么运行自定义Shuffle。

培训内容

1)Map 输出数据收集

2)内存排序过程

3)溢出机制

4)合并排序过程

5)Reduce 端的拷贝,合并及reduce过程

6)自定义的Shuffle接口介绍

上机内容

     暂无

4.2.13大数据系统性能调优指南

培训对象

1)大数据系统管理员

2)大数据开发人员。

3)政府机关,企业类像金融保险、移动和互联网等涉大数据开发与应用的负责人。

4)高校、科研院所牵涉到大数据研究的项目负责人。

培训目标

理解大数据系统调优的意义,理解调优是个涉及面较广的系统工程,熟悉节点中可供调优的机会与物理层分布,熟悉各层中可调参数,熟悉通过工具来判断系统的瓶颈以及理解调优可能是个多次递归的过程,最终达到系统以最佳性能更快地从数据分析中挖出价值。

培训内容

1)调优基础知识

2)节点调优物理层

3)Hadoop层参数调优

4)JVM层 调优

5)Native OS 层调优

6)硬件层调优

上机内容

1)压缩实例

2)内存缓冲调节实例