天气预报、疫情报告、搜索引擎、实时物流等都是我们在生活中经常会用到的功能,都是通过大数据实现的。大数据的简单定义就是大规模的数据集合,数据的采集一般通过人力抄录、设备采集、实时上传等方式完成,这样的数据拥有四大特点:数据体量大、数据变化快、数据类型杂、价值密度低。而大数据开发,就是把海量信息通过采集、存储、分析,挖掘出信息背后更多的价值,以更好地辅助企业、政府机关作出更好的决策,从而为社会创造价值。
大数据职业发展路线
课程简介
目标:掌握基本的数据分析能力和 ETL 数据仓库的处理能力
匹配岗位:数据库工程师、 数据分析师、ETL 工程师、数据仓库工程师
Linux、MySQL、ETL 开发实战、电商数据分析实战阶段知识点:VMware 虚拟化、VI 编辑器、rpm 包管理器、yum 包管理器、SSH 协议、网络查看netstat、进程管理 ps、阿里云服务器环境搭建、SQL、多表查询、聚合函数、窗口函数、存储过程、视图和索引、日志和事务、SQL优化、数据仓库、基于 Python 的 ETL 开发、Kettle、ETL 数据处理、MySQL 数据存储、FineBI 数据可视化
核心知识点:1、具备 Linux 操作系统的基本管理知识
2、熟练掌握 shell 脚本编程
3、熟练掌握数据库操作以及各种复杂查询技术
4、掌握 ETL 数据仓库的处理和分析
目标:掌握 Hadoop 开发能力,能够胜任企业级数仓基本构建和离线数据仓库开发
匹配岗位:数据仓库工程师 , 初级大数据开发工程师 , 大数据平台架构师
Hadoop生态技术栈:Zookeeper 集群安装、Zookeeper 的临时节点 Zookeeper 的顺序节点、Zookeeper 事件监听机制、Zookeeper 选举机制、Zookeeper 的应用场景 Zookeeper 的数据模型 Znode、 HDFS 存储文件流程、HDFS 集群环境搭建、 DataNode 和 NameNode、Block 块存储、RF 拷贝因子、机架感知、Block 拷贝策略、HDFS Federation、HDFS Snapshots、NameNode HA、MapReduce 架构和原理、Split 机制、 MapReduce 并行度、MapReduce 序列化、 MapReduce 数据压缩、MapReduce 调优、 YARN 原理和架构、YARN 高可用、Container 资源的封装、资源调度策略、Hive 分区表、 Hive 分桶表、Hive 临时表、Explain 执行计划、 MetaStore 服务、HiveServer 内置函数、UDF 和 UDAF、Hive 性能调优
大数据的就业形势
就业形势
统计数据显示,大数据人才需求旺盛的城市主要分布在经济发达及大数据行业发展优先的地区。但随着新技术时代的到来,众多行业面临转型升级,,选择*城市就业固然是不错的选择,但二三线城市的发展潜力,将为大数据人才提供广阔的舞台。
人才缺口
据国人才报告显示,大数据人才的供给指数低,仅为0.05,缺口大。随着企业越来越重视大数据的利用,大数据人才缺口已超百万,但国内大数据从业人员只有约30万人,大数据在不断往各垂直领域延伸发展,人工智能等领域的人才需求不断加大。
就业领域
学生学完大数据应用开发后,其就业领域是很宽广的,不管是传统领域,还是新兴领域,都需要大数据人才进行大数据的采集、分析、开发等,因此可以在电商、金融、医疗、交通、教育、电信、安防、传媒、能源、电力等各领域从事大数据相关工作。
什么是大数据?