XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html
XPath定位在爬虫和自动化测试中都比较常用,通过使用路径表达式来选取 XML 文档中的节点或者节点集,熟练掌握XPath可以极大提高提取数据的效率。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html
因为XPath解析数据,是基于元素(Element)的树形结构,所以学习XPath前,先了解一下html的结构及常用标签。
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html
基本标签
标题:`<h1>、<h2>、<h3>、<h4>、<h5>、<h6>、<title>`
段落:<p>
链接:<a>
图像:<img>
样式:<style>
列表:`无序列表<ul>、有序列表<ol>、列表项<li>`
块:`<div>、<span>`
脚本:<script>
注释:<!--注释-->
更多HTML学习可以参考W3School文档:https://www.w3school.com.cn/html/index.asp文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html
XPath表达式学习
常用表达式
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html
常用案例
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html
谓语表达式
谓语用来查找某个特定的节点或者包含某个指定值的节点,被嵌在方括号中。
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html
通配符
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28382.html