从scrapy使用经历说开来

时间：2016-03-19 00:40:37 阅读：751 评论：0 收藏：0 [点我收藏+]

标签：

关于scrapy这个Python框架，萌萌的官网这么介绍:

An open source and collaborative framework for extracting the data you need from websites.

In a fast, simple, yet extensible way.

　　没错，scrapy是合作开发的开源爬虫框架，快而简，可扩展。

　　想要用好scrapy前提要有一定的python基础和数据库知识，当然一开始我也是白手起家，简单看了几天文档，做了一个demo，然后就开工了。

　　对于成长中的小码哥来说边做边学是常态。

　　项目开始，是对于需求和问题的分析，首先你的找到路子才好，这个点上前人的经验可以用来参考，但是一定要慎重，这是整个项目的设计阶段，虽说有些东西后期还可以修正，不过，不是前期多花功夫，后期可以避免大量的时间浪费是无数先驱换来的教训。

　　不过该踩的坑还是要亲自踩一踩才能有所成长，就像你的初恋一样。

　　不可避免，我也同样遇到了很多意料之外的问题，实践百度出真知。

项目笔记一：

　　寻找新闻抓取来源：

　　1.想省时间，找到了网站的滚动新闻界面，似乎新闻在这里聚集的结构比较清晰明了，嘻嘻就从这里下手吧。

　　　分析一下来源，发现新闻数目来的不够多，修改参数后发现网站有返回上限。

　　2.F12找api的线索，哈哈果然找到了，修改参数后返回来的数据量充足满意，还是结构清晰好用的json格式。

　　　　link: http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=1

　　　格式如下：

var jsonData = { serverSeconds : 1458315582, last_time : 1458315350, path : [{title : "全部", id : "89", cType : "col"}], count : 19464, offset_page : 0, offset_num : 0, list : [ {channel : {title : "科技",id : "96",cType : "col",url : ""},title : "大众点评回应刷信誉：零容忍但法律不完善",url : "http://tech.sina.com.cn/i/2016-03-18/doc-ifxqnskh0974535.shtml",type : ‘1‘,pic : ‘‘,time : 1458315350}] };

　　　注：后来的一些经验，现在再看新浪还是很有好地提供了一个jsonp的返回方法，效果就是其他网站和开发者可以更方便地跨域访问了。

　　嗯，好了处理下格式就能利用现成的标准库函数进行处理了。import json

从scrapy使用经历说开来

标签：

原文地址：http://www.cnblogs.com/learn-to-rock/p/5294100.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行