• 手机站
  • 收藏
聚培教育网合作机构 > 大连达内教育
大连达内教育
400-998-6158
大连达内教育是一家由留学海归创办的高端职业教育培训机构,是中国人才培养平台、人才输送平台。
大连达内教育

学习爬虫需要掌握哪些库呢

python学习网

更新时间:2021-10-28 浏览:156
核心提示:学Python,想来大家都是以网络爬虫逐渐的吧。终究在网上相似的自然资源很丰富多彩,开源软件也是非常多。今日就而言一说在学习python的情况下大家触碰的词典都有哪些

学Python,想来大家都是以网络爬虫逐渐的吧。终究在网上相似的自然资源很丰富多彩,开源软件也是非常多。今日就而言一说在学习python的情况下大家触碰的词典都有哪些。

通用性词典:

urllib -互联网库(stdlib)。

requests -互联网库。

grab – 互联网库(根据pycurl)。

pycurl – 互联网库(关联libcurl)。

urllib3 – Python HTTP库,安全性数据库连接池,适用文档post,易用性高。

httplib2 – 互联网库。

RoboBrowser – 一个简洁的,具有Python设计风格的Python库,不用单独的电脑浏览器就可以网页浏览。

MechanicalSoup -一个与网址全自动互动Python库。

mechanize -有情况,可编程控制器的Web访问库。

socket – **层网线端口(stdlib)。

Unirest for Python – Unirest是一套可用以多语种的重量级的HTTP库。

hyper – Python的HTTP/2手机客户端。

PySocks – SocksiPy升级并积极主动维护保养的版本号,包含不正确修补和一些别的的特点。做为socket控制模块的立即更换。

互联网爬虫框架

功能完善的网络爬虫

grab – 互联网爬虫框架(根据pycurl/multicur)

scrapy – 互联网爬虫框架(根据twisted),不兼容Python3。

pyspider – 一个强有力的网络爬虫系统软件。

cola – 一个分布式爬虫架构。

别的

portia – 根据Scrapy的数据可视化网络爬虫。

restkit – Python的HTTP資源工具箱。它还可以让我们轻轻松松地浏览HTTP資源,并把握它成立的目标。

demiurge – 根据PyQuery的网络爬虫微架构。

HTML/XML在线解析

通用性

lxml – C语言撰写高效率HTML/ XML解决库。适用XPath。

cssselect – 分析DOM树和CSS选择符。

pyquery – 分析DOM树和jQuery选择符。

BeautifulSoup – 低效能HTML/ XML解决库,纯Python完成。

html5lib – 依据WHATWG标准转化成HTML/ XML文本文档的DOM。该标准被用在如今全部的网页上。

feedparser – 分析RSS/ATOM feeds。

MarkupSafe – 为XML/HTML/XHTML给予了安全性转义的字符串数组。

xmltodict – 一个能够使你在解决XML时觉得像在解决JSON一样的Python控制模块。

xhtml2pdf – 将HTML/CSS变换为PDF。

untangle – 轻轻松松完成将XML文件格式转换为Python目标。

清除

Bleach – 清除HTML(*须 html5lib)。

sanitize – 为错乱的信息全球产生清明节。

文本检索:用以分析和使用简易文字的库。

通用性

difflib – (Python标准库)协助开展多元化较为。

Levenshtein – 迅速测算Levenshtein间距和字符串数组相似性。

fuzzywuzzy – 模糊不清字符串匹配。

esmre – 正则表达式网络加速器。

ftfy – 全自动梳理Unicode文字,降低泛娱乐化。

自然语言理解解决

解决人们语言表达难题的库。

NLTK -撰写Python程序流程来解决人们语言表达信息的*服务平台。

Pattern – Python的互联网发掘控制模块。他有自然语言理解解决专用工具,深度学习及其其他。

TextBlob – 为深层次自然语言理解解决每日任务接受了一致的API。是根据NLTK及其Pattern的巨龙之肩膀发展趋势的。

jieba – 分词算法专用工具。

SnowNLP – 汉语文本检索库。

loso – 另一个分词算法库。

电脑浏览器自动化技术与模拟仿真

selenium – 自动化技术真真正正的电脑浏览器(Chrome浏览器,火狐浏览器,Opera电脑浏览器,IE电脑浏览器)。

Ghost.py – 对PyQt的webkit的封裝(*须 PyQT)。

Spynner – 对PyQt的webkit的封裝(*须 PyQT)。

Splinter – 通用性API电脑浏览器手机模拟器(selenium web推动,Django手机客户端,Zope)。

多种解决

threading – Python标准库的进程运作。针对I/O密集式每日任务很合理。针对CPU关联的每日任务不起作用,由于python GIL。

multiprocessing – 规范的Python库运作多进程。

celery – 根据分布式系统消息传递的多线程每日任务序列/工作序列。

concurrent-futures – concurrent-futures 控制模块为启用多线程实行给予了一个高端的插口。

多线程

多线程网络编程技术库

asyncio – (在Python 3.4 版本号左右的 Python标准库)多线程I/O,时间循环,协同程序和每日任务。

Twisted – 根据量化策略的互联网模块架构。

Tornado – 一个互联网架构和多线程互联网库。

pulsar – Python量化策略的高并发架构。

diesel – Python的根据翠绿色事情的I/O架构。

gevent – 一个应用greenlet 的根据协同程序的Python网络库。

eventlet – 有WSGI适用的多线程架构。

Tomorrow – 多线程编码的怪异的修饰词法。

序列

celery – 根据分布式系统消息传递的多线程每日任务序列/工作序列。

huey – 中小型线程同步每日任务序列。

mrq – Mr. Queue – 应用redis & Gevent 的Python分布式系统工作目标序列。

RQ – 根据Redis的轻量每日任务序列管理工具。

simpleq – 一个简洁的,可无穷拓展,根据Amazon SQS的序列。

python-gearman – Gearman的Python API。

云计算技术

picloud – 云空间实行Python编码。

dominoup.com – 云空间实行R,Python和matlab编码

网页页面获取

获取网页页面的库。

HTML网页页面的文字和数据库

newspaper – 用Python开展新闻报道获取,文章内容获取和內容策展。

html2text – 将HTML变为Markdown文件格式文字。

python-goose – HTML內容/文章内容获取器。

lassie – 个性化的网页页面检索工具

WebSocket-用以WebSocket的库。

Crossbar – 开源系统的运用消息传递无线路由器(Python完成的用以Autobahn的WebSocket和WAMP)。

AutobahnPython – 给予了WebSocket协议书和WAMP协议书的Python完成而且开源系统。

WebSocket-for-Python – Python 2和3及其PyPy的WebSocket手机客户端和网络服务器库。

DNS分析

dnsyo – 在全世界超出1500个的DNS网络服务器上查验你的DNS。

pycares – c-ares的插口。c-ares是开展DNS要求和多线程名字决定的C语言库。

机器视觉

OpenCV – 开源系统机器视觉库。

SimpleCV – 用以数码相机,图象处理,svm算法,格式转化的介绍,易读性强的插口(根据OpenCV)。

mahotas – 迅速电子计算机图象处理优化算法(彻底应用 C 完成),彻底根据 numpy 的二维数组做为它的基本数据类型。

服务器代理

shadowsocks – 一个迅速隧道施工代理商,可帮你透过服务器防火墙(适用TCP和UDP,TFO,多客户和光滑重新启动,目地IP信用黑名单)。

tproxy – tproxy是一个比较简单的TCP路由器代理商(第7层),根据Gevent,用Python开展配备。

更多>同类资讯
更多>相关课程
顶部