学Python,想来大家都是以网络爬虫逐渐的吧。终究在网上相似的自然资源很丰富多彩,开源软件也是非常多。今日就而言一说在学习python的情况下大家触碰的词典都有哪些。
通用性词典:
urllib -互联网库(stdlib)。
requests -互联网库。
grab – 互联网库(根据pycurl)。
pycurl – 互联网库(关联libcurl)。
urllib3 – Python HTTP库,安全性数据库连接池,适用文档post,易用性高。
httplib2 – 互联网库。
RoboBrowser – 一个简洁的,具有Python设计风格的Python库,不用单独的电脑浏览器就可以网页浏览。
MechanicalSoup -一个与网址全自动互动Python库。
mechanize -有情况,可编程控制器的Web访问库。
socket – **层网线端口(stdlib)。
Unirest for Python – Unirest是一套可用以多语种的重量级的HTTP库。
hyper – Python的HTTP/2手机客户端。
PySocks – SocksiPy升级并积极主动维护保养的版本号,包含不正确修补和一些别的的特点。做为socket控制模块的立即更换。
互联网爬虫框架
功能完善的网络爬虫
grab – 互联网爬虫框架(根据pycurl/multicur)
scrapy – 互联网爬虫框架(根据twisted),不兼容Python3。
pyspider – 一个强有力的网络爬虫系统软件。
cola – 一个分布式爬虫架构。
别的
portia – 根据Scrapy的数据可视化网络爬虫。
restkit – Python的HTTP資源工具箱。它还可以让我们轻轻松松地浏览HTTP資源,并把握它成立的目标。
demiurge – 根据PyQuery的网络爬虫微架构。
HTML/XML在线解析
通用性
lxml – C语言撰写高效率HTML/ XML解决库。适用XPath。
cssselect – 分析DOM树和CSS选择符。
pyquery – 分析DOM树和jQuery选择符。
BeautifulSoup – 低效能HTML/ XML解决库,纯Python完成。
html5lib – 依据WHATWG标准转化成HTML/ XML文本文档的DOM。该标准被用在如今全部的网页上。
feedparser – 分析RSS/ATOM feeds。
MarkupSafe – 为XML/HTML/XHTML给予了安全性转义的字符串数组。
xmltodict – 一个能够使你在解决XML时觉得像在解决JSON一样的Python控制模块。
xhtml2pdf – 将HTML/CSS变换为PDF。
untangle – 轻轻松松完成将XML文件格式转换为Python目标。
清除
Bleach – 清除HTML(*须 html5lib)。
sanitize – 为错乱的信息全球产生清明节。
文本检索:用以分析和使用简易文字的库。
通用性
difflib – (Python标准库)协助开展多元化较为。
Levenshtein – 迅速测算Levenshtein间距和字符串数组相似性。
fuzzywuzzy – 模糊不清字符串匹配。
esmre – 正则表达式网络加速器。
ftfy – 全自动梳理Unicode文字,降低泛娱乐化。
自然语言理解解决
解决人们语言表达难题的库。
NLTK -撰写Python程序流程来解决人们语言表达信息的*服务平台。
Pattern – Python的互联网发掘控制模块。他有自然语言理解解决专用工具,深度学习及其其他。
TextBlob – 为深层次自然语言理解解决每日任务接受了一致的API。是根据NLTK及其Pattern的巨龙之肩膀发展趋势的。
jieba – 分词算法专用工具。
SnowNLP – 汉语文本检索库。
loso – 另一个分词算法库。
电脑浏览器自动化技术与模拟仿真
selenium – 自动化技术真真正正的电脑浏览器(Chrome浏览器,火狐浏览器,Opera电脑浏览器,IE电脑浏览器)。
Ghost.py – 对PyQt的webkit的封裝(*须 PyQT)。
Spynner – 对PyQt的webkit的封裝(*须 PyQT)。
Splinter – 通用性API电脑浏览器手机模拟器(selenium web推动,Django手机客户端,Zope)。
多种解决
threading – Python标准库的进程运作。针对I/O密集式每日任务很合理。针对CPU关联的每日任务不起作用,由于python GIL。
multiprocessing – 规范的Python库运作多进程。
celery – 根据分布式系统消息传递的多线程每日任务序列/工作序列。
concurrent-futures – concurrent-futures 控制模块为启用多线程实行给予了一个高端的插口。
多线程
多线程网络编程技术库
asyncio – (在Python 3.4 版本号左右的 Python标准库)多线程I/O,时间循环,协同程序和每日任务。
Twisted – 根据量化策略的互联网模块架构。
Tornado – 一个互联网架构和多线程互联网库。
pulsar – Python量化策略的高并发架构。
diesel – Python的根据翠绿色事情的I/O架构。
gevent – 一个应用greenlet 的根据协同程序的Python网络库。
eventlet – 有WSGI适用的多线程架构。
Tomorrow – 多线程编码的怪异的修饰词法。
序列
celery – 根据分布式系统消息传递的多线程每日任务序列/工作序列。
huey – 中小型线程同步每日任务序列。
mrq – Mr. Queue – 应用redis & Gevent 的Python分布式系统工作目标序列。
RQ – 根据Redis的轻量每日任务序列管理工具。
simpleq – 一个简洁的,可无穷拓展,根据Amazon SQS的序列。
python-gearman – Gearman的Python API。
云计算技术
picloud – 云空间实行Python编码。
dominoup.com – 云空间实行R,Python和matlab编码
网页页面获取
获取网页页面的库。
HTML网页页面的文字和数据库
newspaper – 用Python开展新闻报道获取,文章内容获取和內容策展。
html2text – 将HTML变为Markdown文件格式文字。
python-goose – HTML內容/文章内容获取器。
lassie – 个性化的网页页面检索工具
WebSocket-用以WebSocket的库。
Crossbar – 开源系统的运用消息传递无线路由器(Python完成的用以Autobahn的WebSocket和WAMP)。
AutobahnPython – 给予了WebSocket协议书和WAMP协议书的Python完成而且开源系统。
WebSocket-for-Python – Python 2和3及其PyPy的WebSocket手机客户端和网络服务器库。
DNS分析
dnsyo – 在全世界超出1500个的DNS网络服务器上查验你的DNS。
pycares – c-ares的插口。c-ares是开展DNS要求和多线程名字决定的C语言库。
机器视觉
OpenCV – 开源系统机器视觉库。
SimpleCV – 用以数码相机,图象处理,svm算法,格式转化的介绍,易读性强的插口(根据OpenCV)。
mahotas – 迅速电子计算机图象处理优化算法(彻底应用 C 完成),彻底根据 numpy 的二维数组做为它的基本数据类型。
服务器代理
shadowsocks – 一个迅速隧道施工代理商,可帮你透过服务器防火墙(适用TCP和UDP,TFO,多客户和光滑重新启动,目地IP信用黑名单)。
tproxy – tproxy是一个比较简单的TCP路由器代理商(第7层),根据Gevent,用Python开展配备。