大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
哪些学员适合学习大数据
大数据开发课程高薪就业班
课程简介
目标:掌握基本的数据分析能力和 ETL 数据仓库的处理能力
匹配岗位:数据库工程师、 数据分析师、ETL 工程师、数据仓库工程师
Linux、MySQL、ETL 开发实战、电商数据分析实战阶段知识点:VMware 虚拟化、VI 编辑器、rpm 包管理器、yum 包管理器、SSH 协议、网络查看netstat、进程管理 ps、阿里云服务器环境搭建、SQL、多表查询、聚合函数、窗口函数、存储过程、视图和索引、日志和事务、SQL优化、数据仓库、基于 Python 的 ETL 开发、Kettle、ETL 数据处理、MySQL 数据存储、FineBI 数据可视化
核心知识点:1、具备 Linux 操作系统的基本管理知识
2、熟练掌握 shell 脚本编程
3、熟练掌握数据库操作以及各种复杂查询技术
4、掌握 ETL 数据仓库的处理和分析
目标:掌握 Hadoop 开发能力,能够胜任企业级数仓基本构建和离线数据仓库开发
匹配岗位:数据仓库工程师 , 初级大数据开发工程师 , 大数据平台架构师
Hadoop生态技术栈:Zookeeper 集群安装、Zookeeper 的临时节点 Zookeeper 的顺序节点、Zookeeper 事件监听机制、Zookeeper 选举机制、Zookeeper 的应用场景 Zookeeper 的数据模型 Znode、 HDFS 存储文件流程、HDFS 集群环境搭建、 DataNode 和 NameNode、Block 块存储、RF 拷贝因子、机架感知、Block 拷贝策略、HDFS Federation、HDFS Snapshots、NameNode HA、MapReduce 架构和原理、Split 机制、 MapReduce 并行度、MapReduce 序列化、 MapReduce 数据压缩、MapReduce 调优、 YARN 原理和架构、YARN 高可用、Container 资源的封装、资源调度策略、Hive 分区表、 Hive 分桶表、Hive 临时表、Explain 执行计划、 MetaStore 服务、HiveServer 内置函数、UDF 和 UDAF、Hive 性能调优
硬核服务