b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

selenium 让你相见恨晚的Python资源库大全(9)

电脑杂谈  发布时间:2018-02-12 10:43:39  来源:网络整理

Babel – 一个Python 的国际化库。

Korean – 一个韩语词态库。

URL处理

解析URLs的库

furl – 一个让处理 URL 更简单小型 Python 库。

purl – 一个简单的,不可变的URL类,具有简洁的 API 来进行询问和处理。

pyshorteners – 一个纯 Python URL 缩短库。

shorturl– 生成短小 URL 和类似 bit.ly 短链的Python 实现。

webargs – 一个解析 HTTP 请求参数的库,内置对流行 web 框架的支持,包括 Flask, Django, Bottle, Tornado和 Pyramid。

HTML处理

处理 HTML和XML的库。

BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。

bleach – 一个基于白名单的 HTML 清理和文本链接库。

cssutils – 一个 Python 的 CSS 库。

html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。

lxml – 一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。

MarkupSafe – 为Python 实现 XML/HTML/XHTML 标记安全字符串。

pyquery – 一个解析 HTML 的库,类似 jQuery。

untangle – 将XML文档转换为Python对象,使其可以方便的访问。

xhtml2pdf – HTML/CSS 转 PDF 工具。xmltodict – 像处理 JSON 一样处理 XML。

网络站点爬取

爬取网络站点的库

Scrapy – 一个快速高级的屏幕爬取及网页采集框架。

cola – 一个分布式爬虫框架。

Demiurge – 基于PyQuery 的爬虫微型框架。

feedparser – 通用 feed 解析器。

Grab – 站点爬取框架。

MechanicalSoup – 用于自动和网络站点交互的 Python 库。

portia – Scrapy 可视化爬取。

pyspider – 一个强大的爬虫系统。

RoboBrowser – 一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。

网页内容提取

用于进行网页内容提取的库。

Haul – 一个可以扩展的图像爬取工具。

html2text – 将 HTML 转换为 Markdown 格式文本lassie – 人性化的网页内容检索库。

micawber -一个小型网页内容提取库,用来从 URLs 提取富内容。

newspaper – 使用 Python 进行新闻提取,文章提取以及内容策展。

opengraph – 一个用来解析开放内容协议(Open Graph Protocol)的 Python模块。

python-goose – HTML内容/文章提取器。

python-readability– arc90 公司 readability 工具的 Python 高速端口sanitize – 为杂乱的数据世界带来调理性。

sumy – 一个为文本文件和 HTML 页面进行自动摘要的模块。

textract – 从任何格式的文档中提取文本,Word,PowerPoint,PDFs 等等。

表单

进行表单操作的库。

Deform – Python HTML 表单生成库,受到了 formish 表单生成库的启发。

django-bootstrap3– 集成了 Bootstrap 3 的 Django。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-73361-9.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    • 刘承宸
      刘承宸

      经济上他拿我们没有办法只能一天天看着我们追上他超过他

    每日福利
    热点图片
    拼命载入中...