xpath提取div标签所有嵌套文本的实用方法

2022-10-18

如何提取div标签下的所有文本呢？

<html> <body> <h1>Hello,World</h1> <div>轻点击<a>这条</a>链接</div> </body> </html>

按照我们之前的作风，肯定是提取每个标签的文本，例如下面这样

fromlxmlimportetree html=""" <html> <body> <h1>Hello,World</h1> <div>轻点击<a>这条</a>链接</div> </body> </html> """ _element=etree.HTML(html) div=_element.xpath('//div/text()') print(f"div标签文本获取结果：{div}") a=_element.xpath('//div/a/text()') print(f"a标签文本获取结果：{a}") text=div[0]+a[0]+div[1] print(f"最后结果：{text}")

输出结果：

THE END

实战python爬虫开发：XPath解析库

<<上一篇

XPath的难点在哪？在于准确的确定数据所在的位置

下一篇>>