码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫10-股票信息定向爬取

时间:2018-05-02 02:54:22      阅读:142      评论:0      收藏:0      [点我收藏+]

标签:新浪   sts   htm   baidu   输出   描述   结构   bsp   代码生成   

股票信息定向爬取

功能描述:

目标  获取上交所和深交所所有股票的名称和交易信息

输出  保存在文件中

技术路线  requests  bs4  re

候选爬取网站:

新浪股票  http://finance.sina.com.cn/stock/

百度股票  https://gupiao.baidu.com/stock/

网站选取:

原则  股票信息静态存在于HTML页面中,非js代码生成,没有robots协议限制

方法  浏览器F12,源代码查看等

不要纠结于某个网站,多找信息源尝试

(在视频里老师表示新浪股票的html文件里没有个股信息,现在其实是有的,在这里我先选用百度股票)

由于百度股票的页面里不包含所有股票,因此我们先从东方财富网中获得所有股票名称。

程序的结构设计:

1、从东方财富网获取股票列表

2、根据股票列表逐个到百度股票获取个股信息

3、将结果保存到文件

 

爬虫10-股票信息定向爬取

标签:新浪   sts   htm   baidu   输出   描述   结构   bsp   代码生成   

原文地址:https://www.cnblogs.com/rayshaw/p/8625409.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!