Babel – 一个Python 的国际化库。
Korean – 一个韩语词态库。
URL处理
解析URLs的库
furl – 一个让处理 URL 更简单小型 Python 库。
purl – 一个简单的,不可变的URL类,具有简洁的 API 来进行询问和处理。
pyshorteners – 一个纯 Python URL 缩短库。
shorturl– 生成短小 URL 和类似 bit.ly 短链的Python 实现。
webargs – 一个解析 HTTP 请求参数的库,内置对流行 web 框架的支持,包括 Flask, Django, Bottle, Tornado和 Pyramid。
HTML处理
处理 HTML和XML的库。
BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。
bleach – 一个基于白名单的 HTML 清理和文本链接库。
cssutils – 一个 Python 的 CSS 库。
html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。
lxml – 一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。
MarkupSafe – 为Python 实现 XML/HTML/XHTML 标记安全字符串。
pyquery – 一个解析 HTML 的库,类似 jQuery。
untangle – 将XML文档转换为Python对象,使其可以方便的访问。
xhtml2pdf – HTML/CSS 转 PDF 工具。xmltodict – 像处理 JSON 一样处理 XML。
网络站点爬取
爬取网络站点的库
Scrapy – 一个快速高级的屏幕爬取及网页采集框架。
cola – 一个分布式爬虫框架。
Demiurge – 基于PyQuery 的爬虫微型框架。
feedparser – 通用 feed 解析器。
Grab – 站点爬取框架。
MechanicalSoup – 用于自动和网络站点交互的 Python 库。
portia – Scrapy 可视化爬取。
pyspider – 一个强大的爬虫系统。
RoboBrowser – 一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。
网页内容提取
用于进行网页内容提取的库。
Haul – 一个可以扩展的图像爬取工具。
html2text – 将 HTML 转换为 Markdown 格式文本lassie – 人性化的网页内容检索库。
micawber -一个小型网页内容提取库,用来从 URLs 提取富内容。
newspaper – 使用 Python 进行新闻提取,文章提取以及内容策展。
opengraph – 一个用来解析开放内容协议(Open Graph Protocol)的 Python模块。
python-goose – HTML内容/文章提取器。
python-readability– arc90 公司 readability 工具的 Python 高速端口sanitize – 为杂乱的数据世界带来调理性。
sumy – 一个为文本文件和 HTML 页面进行自动摘要的模块。
textract – 从任何格式的文档中提取文本,Word,PowerPoint,PDFs 等等。
表单
进行表单操作的库。
Deform – Python HTML 表单生成库,受到了 formish 表单生成库的启发。
django-bootstrap3– 集成了 Bootstrap 3 的 Django。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-73361-9.html
经济上他拿我们没有办法只能一天天看着我们追上他超过他