支持非常丰富的链接访问功能。PySpider-一个国人编写的强大的网络爬虫系统并带有强大的WebUI。bs4-beautifulsoup4库,用于解析和处理HTML和XML。Scrapy-很强大的爬虫框架,用于抓取网站并从其页面中提取结构化数据。可用于从数据挖掘到监控和自动化测试的各种用途Crawley-高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等Portia-可视化爬取网页内容cola-分布式爬虫框架newspaper-提取新闻、文章以及内容分析lxml-lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式
自动化 XlsxWriter-操作Excel工作表的文字,数字,公式,图表等win32com-有关Windows系统操作Office(Word、Excel等)文件读写等的综合应用库pymysql-操作MySQL数据库pymongo-把数据写入MongoDBsmtplib-发送电子邮件模块selenium-一个调用浏览器的driver,通过这个库可以直接调用浏览器完成某些操作,比如输入验证码,常用来进行浏览器的自动化工作。pdfminer-一个可以从PDF文档中提取各类信息的第三方库。与其他PDF相关的工具不同,它能够完全获取并分析 P D F 的文本数据PyPDF2-一个能够分割、合并和转换PDF页面的库。openpyxl- 一个处理Microsoft Excel文档的Python第三方库,它支持读写Excel的xls、xlsx、xlsm、xltx、xltm。python-docx-一个处理Microsoft Word文档的Python第三方库,它支持读取、查询以及修改doc、docx等格式文件,并能够对Word常见样式进行编程设置。立即预约课程
数据分析及可视化
-
学历
matplotlib-Matplotlib 是一个 Python 2D 绘图库,可以生成各种可用于出版品质的硬拷贝格式和跨平台交互式环境数据。Matplotlib 可用于 Python 脚本,Python 和 IPython shell(例如 MATLAB 或 Mathematica),Web 应用程序服务器和各种图形用户界面工具包。”numpy-NumPy 是使用 Python 进行科学计算所需的基础包。用来存储和处理大型矩阵,如矩阵运算、矢量处理、N维数据变换等。pyecharts-用于生成 Echarts 图表的类库
详情了解 -
pandas-一个强大的分析结构化数据的工具集,基于numpy扩展而来,提供了一批标准的数据模型和大量便捷处理数据的函数和方法。Scipy: 基于Python的matlab实现,旨在实现matlab的所有功能,在numpy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。Plotly-Plotly提供的图形库可以进行在线WEB交互,并提供具有出版品质的图形,支持线图、散点图、区域图、条形图、误差条、框图、直方图、热图、子图、多轴、极坐标图、气泡图、玫瑰图、热力图、漏斗图等众多图形wordcloud-词云生成器jieba-中文分词模块
详情了解
课程简介
熟练掌握数据科学领域的编程语言-Python
掌握使用Python和pandas库进行数据清洗和预处理
学会使用matplotlib、seaborn进行初级可视化
学会使用Pyecharts进行高级数据可视化
学会构建机器学习算法进行分类、预测和聚类模型
善用机器学习解决用户画像、精准营销、风险管理等商业问题
机器学习基础薄弱学员
高校在校生
待业、期待转行从事数据挖掘相关岗位的在职人员
CDA数据分析师level Ⅲ 考生。
希望借助数据挖掘算法来提升解决企业运营、产品运营中涉及的预测问题者
对数据挖掘技术感兴趣的各界人士
产品、运营、营销、管理、咨询相关岗位从业者,希望增加数据挖掘技能与思维
课程大纲
1数据库基本概念2DDL数据定义语言3DML数据操作语言
4单表查询5多表查询
6Python连接SQL
2控制流语句3自定义函数4异常和错误5类与面向对象编程
6Numpy数组操作
7卡方分析8一元线性回归理论推导
9多元线性回归理论推导
2Spark与Flink工作原理
3使用PySpark实现分布式计算
4数据接入策略与调度工具
1数据挖掘导论
2KNN
3贝叶斯4SVM
1决策树(ID3, C4.5, CART)
2决策树的模型调优
3病马死亡归类与识别案例
4用户分类-保险行业用户分类分析
1带正则项的回归分析
2大数据环境下的回归分析实现(Spark实现)
1集成学习的理论基础
2AdaBoost3随机森林及其Spark实现4GBDT, XGBoost, LightGBM及Python实现
2协同过滤3大数据环境下的协同过滤实现4产品组合策略-电信公司产品捆绑销售策略分析案例
1数据处理的前沿方法:特征工程概要2数据不平衡问题3特征工程(特征的建构、选择、转换、学习)4感知器及多层感知器
11深度神经网络基础
12BP神经网络架构13反向传播算法
14梯度与学习率专题15图像分析-手写数字自动识别
11数据的爬取(http原理、requests应用)
12文本数据清洗(正则表达式、HTML结构及xpath应用)
11分词与词性标注
12文本信息提取
13词嵌入(CBOW与Skip-gram)
14构建文本信息库
15文本聚类算法
11聚类分析进阶(密度聚类,高斯混合聚类,谱聚类)
12异常识别(孤立森林,局部异常因子)
13交易反欺诈-异常交易识别案例
机器学习进阶(Level 3)第6周-大型项目案例
11实战项目-金融行业反欺诈
11卷积神经网络CNN12循环神经网络RNN与LSTM13残差网络ResNet14注意力机制Attention15预训练框架Transformer与迁移学习16Bert专题17Pytorch框架与代码实践(NLP案例)18大型项目案例-实战项目-信用评分卡
11数据挖掘概论
12高级数据处理与特征工程
13自然语言处理与文本分析
14机器学习算法
15机器学习进阶(自动机器学习,样本不平衡问题,半监督学习,模型优化)
11互联网数字化运营
12何为数据产品经理
13Python 爬虫
14人工智能(深度学习)实战之图像识别
15Tableau 多维可视化分析
16SPSS 统计分析