首页 > 操作系统 >

正则表达式语法/ Python爬虫：现学现用Xpath爬取豆瓣音乐(2)

电脑杂谈　发布时间：2018-02-09 00:49:40　来源：网络整理

重新运行得到结果：

We Sing. We Dance. We Steal Things.

正是我们想要的标题。

老办法，先用右键copy评分的xpath ://*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/span[2]

复制评价人数的xpath://*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/span[3]/text()

同样的我们要把tbody去掉，然后重新运行代码：


# coding:utf-8
from lxml import etree
import requests

url = 'https://music.douban.com/top250'

html = requests.get(url).text
s = etree.HTML(html)
title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
score = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[2]/text()')[0]#因为要获取文本，所以我需要这个当前路径下的文本，所以使用/text()
numbers = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[3]/text()')[0]#因为要获取文本，所以我需要这个当前路径下的文本，所以使用/text()
print title,score,numbers

得到：

        We Sing. We Dance. We Steal Things.
    9.1 
                (
                        100395人评价
                )

copy标题的xpath，：//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a

想获取音乐连接href这里需要，获取这个标签属于,/@xxx可以提取当前路径标签下的属性值

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a/@href

代码：


# coding:utf-8
from lxml import etree
import requests

url = 'https://music.douban.com/top250'

html = requests.get(url).text
s = etree.HTML(html)
href = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/@href')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的文本，所以使用/text()
score = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[2]/text()')[0]#因为要获取文本，所以我需要这个当前路径下的文本，所以使用/text()
numbers = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[3]/text()')[0]#因为要获取文本，所以我需要这个当前路径下的文本，所以使用/text()
print href,title,score,numbers

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-67890-2.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

颜真卿

拉森舰可不是什么老旧军舰

2026年04月19日回复顶转发
- 张燕
  
  让它们去赚大钱吧
  
  2026年04月19日回复顶转发

每日福利

四川最早的烧烤摊位在乐治，现在这个城市到处都是“烧烤餐厅”

漂荡三千里_漂荡的漂是什么意思_漂荡和飘荡

WinRAR如何去除广告？广告去除方式图文介绍

注册WinRAR 5.40之后，广告仍然可以播放吗？您还准备加入无赖吗！

热点图片

热点排行