如何提取div标签下的所有文本呢?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28422.html
<html> <body> <h1>Hello,World</h1> <div>轻点击<a>这条</a>链接</div> </body> </html>
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28422.html
按照我们之前的作风,肯定是提取每个标签的文本,例如下面这样文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28422.html
fromlxmlimportetree html=""" <html> <body> <h1>Hello,World</h1> <div>轻点击<a>这条</a>链接</div> </body> </html> """ _element=etree.HTML(html) div=_element.xpath('//div/text()') print(f"div标签文本获取结果:{div}") a=_element.xpath('//div/a/text()') print(f"a标签文本获取结果:{a}") text=div[0]+a[0]+div[1] print(f"最后结果:{text}")
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28422.html
输出结果:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28422.html 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28422.html