H5W3
当前位置:H5W3 > 其他技术问题 > 正文

使用webmagic爬取标题

我现在有个项目需要用到webmagic进行爬取标题,但是这个网站的标题有两种格式的样式图片描述图片描述因为第一次写爬虫,也是第一次用这个框架,所以不是很懂怎么去写他的xpath

如果只是设置xpath(“//div[@class=”title”]/text()”),只能得到第二中的标题文本
第一种样式的有的标题甚至有3个<span>标签,所以我只能一个个写出来在拼接,但是这种明显不使用,
还试过使用css(“div.title”)会得到整个<div>标签的内容
图片描述,但是还要在外面重新获取文本在拼接,很麻烦,而且还会得到首页大标题,
图片描述这不是我需要的

不知道有没有办法,在设置一个xpath或者使用css和正则表达式来完成爬取全部的标题
各位大佬帮帮忙,因为第一次接触爬虫有很多不懂,感谢感谢

回答:

只需要将xpath("//div[@class="title"]/text()")改为xpath("//div[@class="title"]/allText()")就好了

本文地址:H5W3 » 使用webmagic爬取标题

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址