主板指数市盈率等数据的爬取（类js格式处理，附js处理）

时间：2017-12-08 22:53:48 阅读：267 评论：0 收藏：0 [点我收藏+]

标签：find parent ppa return ack 加载 cep 正则 turn

中证主板市场的网页：http://www.csindex.com.cn/zh-CN/downloads/index-information

像获取表格中的‘

指数简称	静态市盈率	滚动市盈率	市净率	股息率	去年底静态市盈率	去年底滚动市盈率	去年底市净率

’

等数据。

不是js格式加载的，在网页源代码中找不到对应的数据，因此爬取的方法要有些改变。

# hanbb
# come on!!!
import requests
import json
from bs4 import BeautifulSoup
import re
import csv

# 首先访问链接 注意：这里的链接不是网页链接而是js的链接

def get_html_text(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

# 网页解析，其实这里没有用到
def getinfo(url):
    html = get_html_text(url)
    soup = BeautifulSoup(html, "html.parser")
    return soup

# 正则表达式的使用
def re_find(re_express,url):
    zhishu_info = re.findall(r‘zsgz{}\d=".+?"‘.format(re_express),get_html_text(url))
    return zhishu_info

# 数据储存
def save(filename,info):
    file = open(‘E:\\download2\\{}.csv‘.format(filename), ‘a‘, newline=‘‘)  # 打开的文件名称，追加模式，不写newline=‘‘会出现行间距变大
    writerfile = csv.writer(file)  # 写入命令
    writerfile.writerow(info)  # 写入内容
    file.close()  # 关闭文件

if __name__ == ‘__main__‘:
    url = "http://www.csindex.com.cn/data/js/show_zsgz.js?str=nG1Rum4NumQpqwaW"
    print(get_html_text(url))for i in range(1,12):
        szzs = re_find(i, url)
        #print(szzs)
        list2 = []
        for j in szzs:
            info=re.findall(r‘"(.+?)"‘,j)[0]     # 去列表中的字符串，将字符串整合成列表
            info_all=list2.append(info)
        print(list2)
        save(‘zhubanzhishu‘,list2)

js格式的处理：https://zhuanlan.zhihu.com/p/24838761

爬取今日头条，这个很好！！

主板指数市盈率等数据的爬取（类js格式处理，附js处理）

标签：find parent ppa return ack 加载 cep 正则 turn

原文地址：http://www.cnblogs.com/hanbb/p/8007204.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行