2016/7/13 23:39:43 xPath 分析网页元素

时间：2016-07-20 13:27:15 阅读：250 评论：0 收藏：0 [点我收藏+]

标签：

1. 采用QQ浏览器，当前以获取qiushibaike里面的内容以及好笑，评论数为例

选择需要抓取的内容，然后右键检查

会出现一个调试界面，在 elements 里面选择需要抓取的信息，右键 copy - copy XPath

3. 接下来可以到 console 界面调试一下抓取的信息（妹的，这么强悍）

使用 $x(‘XPath‘) 可以抓到相关信息

4. 相应的我们可以得到相关Xpath

1.内容 //*[@id="qiushi_tag_116975883"]/div[2]
2.好笑 //*[@id="qiushi_tag_116975883"]/div[3]/span[1]/i
3.评论数 //*[@id="c-116975883"]/i

5.以上只是分析了一个，那如何获取所有呢？如下图，先分析所有的内容。

5.1 然后获取，

结合其他人的项目代码分析


from scrapy import Spider
from scrapy.selector import Selector
 
from stack.items import StackItem
 
 
class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://stackoverflow.com/questions?pagesize=50&sort=newest",
    ]
 
    def parse(self, response):
        questions = Selector(response).xpath(‘//div[@class="summary"]/h3‘)
 
        for question in questions:
            item = StackItem()
            item[‘title‘] = question.xpath(
                ‘a[@class="question-hyperlink"]/text()‘).extract()[0]
            item[‘url‘] = question.xpath(
                ‘a[@class="question-hyperlink"]/@href‘).extract()[0]
            yield item
 
 
我们将遍历问题，从抓取的数据中分配标题和URL的值。一定要利用Chrome开发者工具的JavaScript控制台测试XPath的选择器，例如$x(‘//div[@class="summary"]/h3/a[@class="question-hyperlink"]/text()‘) 和 $x(‘//div[@class="summary"]/h3/a[@class="question-hyperlink"]/@href‘)。

来自为知笔记(Wiz)

2016/7/13 23:39:43 xPath 分析网页元素

标签：

原文地址：http://www.cnblogs.com/topshooter/p/5687855.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行