首页 > 操作系统 >

正则表达式语法/ Python爬虫：现学现用Xpath爬取豆瓣音乐(3)

电脑杂谈　发布时间：2018-02-09 00:49:40　来源：网络整理

运行代码得到：

https://music.douban.com/subject/2995812/ 
            We Sing. We Dance. We Steal Things.
        9.1 
                    (
                            100395人评价
                    )

找到图片，复制他的xpath地址：//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[1]/a/img

运行代码：


# coding:utf-8
from lxml import etree
import requests

url = 'https://music.douban.com/top250'

html = requests.get(url).text
s = etree.HTML(html)
href = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/@href')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
score = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[2]/text()')[0]#因为要获取文本，所以我需要这个当前路径下的文本，所以使用/text()
numbers = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[3]/text()')[0]#因为要获取文本，所以我需要这个当前路径下的文本，所以使用/text()
imgpath = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[1]/a/img/@src')[0]#因为要获取文本，所以我需要这个当前路径下的文本，所以使用/text()
print href,title,score,numbers,imgpath

老套路：

得到结果:

https://music.douban.com/subject/2995812/ 
            We Sing. We Dance. We Steal Things.
        9.1 
                    (
                            100395人评价
                    )
                https://img3.doubanio.com/spic/s2967252.jpg

但是这只是获取了一条数据，如果获取多条数据呢？

我们再看第二条数据，第三条数据,第四条数据

得到他们的xpath:


# coding:utf-8
from lxml import etree
import requests

url = 'https://music.douban.com/top250'

html = requests.get(url).text
s = etree.HTML(html)
title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
title2 = s.xpath('//*[@id="content"]/div/div[1]/div/table[2]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
title3 = s.xpath('//*[@id="content"]/div/div[1]/div/table[3]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
title4 = s.xpath('//*[@id="content"]/div/div[1]/div/table[4]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
print title,title2,title3,title4

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-67890-3.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

谭意哥

其实今年以来国家实际上放了30000亿的水

2026年04月19日回复顶转发

每日福利

四川最早的烧烤摊位在乐治，现在这个城市到处都是“烧烤餐厅”

漂荡三千里_漂荡的漂是什么意思_漂荡和飘荡

WinRAR如何去除广告？广告去除方式图文介绍

注册WinRAR 5.40之后，广告仍然可以播放吗？您还准备加入无赖吗！

热点图片

热点排行