课程内容以CDA数据分析师标准大纲要求,包含Python基础 – Pandas数据清洗 - Python爬虫 - Python数据可视化(Matplotlib、Seaborn、Pyecharts) - Python机器学习算法等内容,并结合互联网保险、电信、银行、医疗、交通等行业实际案例来帮助学员建立整套的数据分析和机器学习思路,案例涉及营销优化、风险控制、用户研究、商业部署等领域,使学员所学更符合企业要求。
完善的配套服务,提高自我
课程内容丰富,传授专业知识
面向对象与面向过程;类的设计;对象的实例化;对象的内存分析;类中成员的访问;类是一种自定义的类型;this关键字;包(package)的创建与使用;构造方法;private关键字与属性封装;单例设计模式;继承基本的概念;继承中的特点;继承中的构造方法;方法的重写;final关键字;super关键字的使用;Object类;对象的转型;instanceof关键字;抽象类与抽象方法;接口
咨询详情YARN的组件YARN的架构;YARN的调度方式;YARN工作原理;MapReduce模型;MapReduce中shuffle机制;MapReduce中的partitioner;MapReduce中的自定义输入输出;MapReduce中的join操作;MapReduce中的压缩;MapReduce优化
咨询详情Spark简介;Spark运行模式;SparkShell;RDD的概念详解;Transformation算子;Action算子;DAG有向无环图;RDD任务的切分;Lineage(血统);Checkpoint检查点机制;Spark集群启动流程和任务提交流程;自定义排序;自定义分区Accumulator累加器;Broadcast广播变量;Shuffle原理剖析与源码分析;SparkSubmit执行流程;集群启动流程详解;SparkContext执行流程;Task提交流程详解;Stage划分过程详解
咨询详情Flink部署模式;Flink Streaming DataStream API介绍;Flink Streaming DataSource、Transformations、Sink详解;Flink的connector;Flink的自定义输入输出;Flink中两阶段提交;Flink中的操作链;Flink DataSet的DataSource、Transformations、Sink详解;Flink Table API和SQL应用;Blink Table的操作;Sql与hive的整合;Flink的序列化;Flink的广播变量;Flink的累加器;Flink的分布式缓存;
咨询详情
9大真实项目实战每个项目均由专业数据分析师精心挑选,从数据到课程知识点设计,涵盖0-8年数据分析师必备专业技能和真实工作中的业务场景和所可能遇到的问题。
核心知识点覆盖