xpath在爬虫中的使用流程

phpmaster 2019-12-26 PM 551℃ 0条

4168172313.jpg

  • 1.下载:pip install lxml
  • 2.导包:from lxml import etree
  • 3.创建etree对象进行指定数据的解析

    • 本地:etree=etree.parse('本地文件路径')

         etree.xpath('xpath表达式')
    • 网络:etree=etree.HTML('网络请求到的页面数据')

         etree.xpath('xpath表达式')
      

常用的xpath表达式:
1.属性定位:

找到class属性值为song的div标签

//div[@class="song"]
2.层级&索引定位:

找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a

//div[@class="tang"]/ul/li[2]/a
3.逻辑运算:

找到href属性值为空且class属性值为du的a标签

//a[@href="" and @class="du"]
4.模糊匹配:
//div[contains(@class, "ng")] //div[starts-with(@class, "ta")] 取文本:

/表示获取某个标签下的文本内容

//表示获取某个标签下的文本内容和所有子标签下的文本内容

//div[@class="song"]/p[1]/text()
//div[@class="tang"]//text()
5.取属性:
//div[@class="tang"]//li[2]/a/@href

  • xpath插件:就可以直接将xpath表达式作用于浏览器的网页当中
  • 安装:更多工具-》扩展程序-》开启右上角的开发者模式-》xpath插件拖动到页面即可
  • 快捷键:

    • 开启和关闭xpath插件:ctrl+shitf+x
标签: 爬虫

非特殊说明,本博所有文章均为博主原创。

评论啦~


召唤看板娘