XPath 笔记

XPath 是什么?

XPath 是一门语言,可以在 XML 文档中查找信息,并且支持 HTML,通过元素和属性进行导航。

配置与使用

  • 安装 lxml 库
  • from lxml import etree
  • Selector = etree.HTML(网页源代码)
  • Selector.xpath(一段神奇的符号)

提出内容

  • // 定位根节点
  • / 往下层寻找
  • 提取文本内容: /text()
  • 提取属性内容:/@xxxx
  • starts-with(@属性名称,属性字符相同部分)
  • string(.):处理标签套标签情况

例子

  • /html/head/title: 选择 HTML 文档中标签内的元素
  • /html/head/title/text(): 选择上面提到的元素的文字
  • //td: 选择所有的元素
  • //div[@class=”mine”]: 选择所有具有 class=”mine”属性的 div 元素

参考资料

  1. http://www.w3school.com.cn/xpath/index.asp
请作者吃酒!