大数据是指无法在一定时间内用常规软件I 具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP )数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据处理之一:采集
一
大数据的采集是指利用多个数据库来接收发自客户端( Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据车MySQL和Oracle等来存储每一笔事务数据 ,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
二
在大数据的采集过程中,主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万, 所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
大数据的定义
大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、 管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
在一份2001年的研究与相关的演讲中,麦塔集团( META Group ,现为高德纳)分析员道格莱尼( Doug Laney )指出数据增长的挑战和机遇有三个方向:量(Volume ,数据大小)、速(Velocity ,数据输入输出的速度)与多变(Variety ,多样性) , 台称"3V" 或“3Vs" 。高德纳与现在大部分大数据产业中的公司, 都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、 高速及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与化处理。”另外 ,有机构在3V之外定义第4个V :真实性(Veracity )为第四特点。
大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。数据挖掘( data mining )则是在探讨用以解析大数据的方法。立即预约课程
大数据职业发展路线
课程简介
目标:掌握基本的数据分析能力和 ETL 数据仓库的处理能力
匹配岗位:数据库工程师、 数据分析师、ETL 工程师、数据仓库工程师
Linux、MySQL、ETL 开发实战、电商数据分析实战阶段知识点:VMware 虚拟化、VI 编辑器、rpm 包管理器、yum 包管理器、SSH 协议、网络查看netstat、进程管理 ps、阿里云服务器环境搭建、SQL、多表查询、聚合函数、窗口函数、存储过程、视图和索引、日志和事务、SQL优化、数据仓库、基于 Python 的 ETL 开发、Kettle、ETL 数据处理、MySQL 数据存储、FineBI 数据可视化
核心知识点:1、具备 Linux 操作系统的基本管理知识
2、熟练掌握 shell 脚本编程
3、熟练掌握数据库操作以及各种复杂查询技术
4、掌握 ETL 数据仓库的处理和分析
目标:掌握 Hadoop 开发能力,能够胜任企业级数仓基本构建和离线数据仓库开发
匹配岗位:数据仓库工程师 , 初级大数据开发工程师 , 大数据平台架构师
Hadoop生态技术栈:Zookeeper 集群安装、Zookeeper 的临时节点 Zookeeper 的顺序节点、Zookeeper 事件监听机制、Zookeeper 选举机制、Zookeeper 的应用场景 Zookeeper 的数据模型 Znode、 HDFS 存储文件流程、HDFS 集群环境搭建、 DataNode 和 NameNode、Block 块存储、RF 拷贝因子、机架感知、Block 拷贝策略、HDFS Federation、HDFS Snapshots、NameNode HA、MapReduce 架构和原理、Split 机制、 MapReduce 并行度、MapReduce 序列化、 MapReduce 数据压缩、MapReduce 调优、 YARN 原理和架构、YARN 高可用、Container 资源的封装、资源调度策略、Hive 分区表、 Hive 分桶表、Hive 临时表、Explain 执行计划、 MetaStore 服务、HiveServer 内置函数、UDF 和 UDAF、Hive 性能调优