首页 > 操作系统 >

selenium 让你相见恨晚的Python资源库大全(9)

电脑杂谈　发布时间：2018-02-12 10:43:39　来源：网络整理

Babel – 一个Python 的国际化库。

Korean – 一个韩语词态库。

URL处理

解析URLs的库

furl – 一个让处理 URL 更简单小型 Python 库。

purl – 一个简单的，不可变的URL类，具有简洁的 API 来进行询问和处理。

pyshorteners – 一个纯 Python URL 缩短库。

shorturl– 生成短小 URL 和类似 bit.ly 短链的Python 实现。

webargs – 一个解析 HTTP 请求参数的库，内置对流行 web 框架的支持，包括 Flask, Django, Bottle, Tornado和 Pyramid。

HTML处理

处理 HTML和XML的库。

BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代，搜索和修改。

bleach – 一个基于白名单的 HTML 清理和文本链接库。

cssutils – 一个 Python 的 CSS 库。

html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。

lxml – 一个非常快速，简单易用，功能齐全的库，用来处理 HTML 和 XML。

MarkupSafe – 为Python 实现 XML/HTML/XHTML 标记安全字符串。

pyquery – 一个解析 HTML 的库，类似 jQuery。

untangle – 将XML文档转换为Python对象，使其可以方便的访问。

xhtml2pdf – HTML/CSS 转 PDF 工具。xmltodict – 像处理 JSON 一样处理 XML。

网络站点爬取

爬取网络站点的库

Scrapy – 一个快速高级的屏幕爬取及网页采集框架。

cola – 一个分布式爬虫框架。

Demiurge – 基于PyQuery 的爬虫微型框架。

feedparser – 通用 feed 解析器。

Grab – 站点爬取框架。

MechanicalSoup – 用于自动和网络站点交互的 Python 库。

portia – Scrapy 可视化爬取。

pyspider – 一个强大的爬虫系统。

RoboBrowser – 一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。

网页内容提取

用于进行网页内容提取的库。

Haul – 一个可以扩展的图像爬取工具。

html2text – 将 HTML 转换为 Markdown 格式文本lassie – 人性化的网页内容检索库。

micawber -一个小型网页内容提取库，用来从 URLs 提取富内容。

newspaper – 使用 Python 进行新闻提取，文章提取以及内容策展。

opengraph – 一个用来解析开放内容协议(Open Graph Protocol)的 Python模块。

python-goose – HTML内容/文章提取器。

python-readability– arc90 公司 readability 工具的 Python 高速端口sanitize – 为杂乱的数据世界带来调理性。

sumy – 一个为文本文件和 HTML 页面进行自动摘要的模块。

textract – 从任何格式的文档中提取文本，Word，PowerPoint，PDFs 等等。

表单

进行表单操作的库。

Deform – Python HTML 表单生成库，受到了 formish 表单生成库的启发。

django-bootstrap3– 集成了 Bootstrap 3 的 Django。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-73361-9.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

萧缜

小王子

2026年06月05日回复顶转发
王丽真

本来存银行1年能得10万*1

2026年06月05日回复顶转发
张茜

和平时期

2026年06月05日回复顶转发

每日福利

安装win7后，vmware无法打开

2017年QS世界大学排名TOP500英国大学排名王国纪元英雄搭配全解为经济资源而升的角色

王国纪元英雄搭配全解为经济资源而升的角色

推荐用于纯Windows 7系统的家

热点图片

热点排行