CDA日常的主要工作是什么?
1、负责项目的需求调研、数据分析、商业分析和数据挖掘模型等,通过对用户的行为进行分析了解用户的需求;
2、参与业务部门临时数据分析需求的调研、分析及实现;
3、参与数据挖掘模型的构建、维护、部署和评估;
4、整理编写商业数据分析报告,及时发现和分析其中隐含的变化和问题,为业务发展提供决策支持。
专享课程,提升快人一步
大数据分析师(大数据工程师、算法工程师)
理论基础:统计学、概率论、数据库、数据挖掘、Java基础、Linux基础
软件要求:SQL、Hadoop、HDFS、MapReduce、Mahout、Hive、Spark(必要)& RHadoop、Hbase、Zookeeper、Pig等(可选)
分析方法要求:
熟练掌握Hadoop集群搭建
熟悉nosql数据库的原理及特征,并会运用在相关的场景
熟练运用Mahout、Spark提供的进行大数据挖掘算法,包括聚类(Kmeans算法、Canopy算法)、分类(贝叶斯算法、随机森林算法)、主题推荐(基于物品的推荐、基于用户的推荐)等算法的原理和使用范围
业务分析能力:
熟悉Hadoop+Hive+Spark进行大数据分析的架构设计,并能针对不同的业务提出大数据架构的解决思路
掌握Hadoop+Hive+Spark+Tableau平台上Spark MLlib,SparkSQL的功能与应用场景,根据不同的数据业务需求选择合适的组件进行分析与处理。并对基于Spark框架提出的模型进行对比分析与完善
结果展现能力:
报告能体现大数据分析的优势,能清楚地阐述数据采集、大数据处理过程及终结果的解读,同时提出模型的优化和改进之处,以利于提高大数据分析的商业价值
完善的配套服务,提高自我
课程内容丰富,传授专业知识
面向对象与面向过程;类的设计;对象的实例化;对象的内存分析;类中成员的访问;类是一种自定义的类型;this关键字;包(package)的创建与使用;构造方法;private关键字与属性封装;单例设计模式;继承基本的概念;继承中的特点;继承中的构造方法;方法的重写;final关键字;super关键字的使用;Object类;对象的转型;instanceof关键字;抽象类与抽象方法;接口
咨询详情YARN的组件YARN的架构;YARN的调度方式;YARN工作原理;MapReduce模型;MapReduce中shuffle机制;MapReduce中的partitioner;MapReduce中的自定义输入输出;MapReduce中的join操作;MapReduce中的压缩;MapReduce优化
咨询详情Spark简介;Spark运行模式;SparkShell;RDD的概念详解;Transformation算子;Action算子;DAG有向无环图;RDD任务的切分;Lineage(血统);Checkpoint检查点机制;Spark集群启动流程和任务提交流程;自定义排序;自定义分区Accumulator累加器;Broadcast广播变量;Shuffle原理剖析与源码分析;SparkSubmit执行流程;集群启动流程详解;SparkContext执行流程;Task提交流程详解;Stage划分过程详解
咨询详情Flink部署模式;Flink Streaming DataStream API介绍;Flink Streaming DataSource、Transformations、Sink详解;Flink的connector;Flink的自定义输入输出;Flink中两阶段提交;Flink中的操作链;Flink DataSet的DataSource、Transformations、Sink详解;Flink Table API和SQL应用;Blink Table的操作;Sql与hive的整合;Flink的序列化;Flink的广播变量;Flink的累加器;Flink的分布式缓存;
咨询详情