标签:爬虫
这个项目是一个基于 Python scrapy 的爬虫项目,截至到目前(2015年05月24日),初衷是希望能够爬取 www.xueqiu.com 中的某个给定的股票的页面下 -- 比如‘融创中国’的 -- 所有的来自用户的讨论(至于后续的功能再说,肯定是希望用更多的数据然后基于文本挖掘和情感分析来预测股价)。在得到的response中能够解析到这只股票的来自用户的讨论的第一页的数据。
这里附加更多调研过程中的细节
1,在发现xueqiu.com/s/01918的html中并没有直接包含了用户的讨论数据以后,通过看javascript代码,发现了雪球的前端使用了backbone库,其来自用户的讨论的数据是在SNB.Collections.Statuses -- 可能有个别字符记错了,不核对了 -- 其前端在构造该collection实例的时候将来自用户的讨论作为参数传给构造函数,每一条讨论是一个javascript object对象,一般是15条讨论也就是一个包含了15个object的javascript array。而这个array的数据就是通过Ajax调用请求前文提到的search.json得到的。
2,通过浏览器的开发者工具中的‘网络’工具,监控所有的http请求,的确能够找到对应的发给search.json的请求,且其响应正是所有的讨论数据。
基于scrapy实现爬取投资社区雪球网的来自用户的讨论数据(一)
标签:爬虫
原文地址:http://blog.csdn.net/upnow2014/article/details/45952085