2020寒假生活学习日记（十五）

时间：2020-02-14 22:20:42 阅读：136 评论：0 收藏：0 [点我收藏+]

标签：失败 ade txt 北京 orm original requests tde java

后来在用JAVA爬取北京信件内容过程中出现好多问题。

我该用python爬取。

技术图片

这个是我爬取出来的各个信件网址的后缀即（http://www.beijing.gov.cn/hudong/hdjl/com.web.suggest.suggesDetail.flow?originalId=AH20021200370）

然后编写代码：

import requests
import re
import xlwt
# #https://flightaware.com/live/flight/CCA101/history/80
url = ‘http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId=AH20021300174‘
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"
}
def get_page(url):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            #print(‘获取网页成功‘)
            return response.text
        else:
            print(‘获取网页失败‘)
    except Exception as e:
        print(e)
fopen = open(‘C:\\Users\\hp\\Desktop\\list.txt‘, ‘r‘)//这个是存取信件内容网址后缀
lines = fopen.readlines()
urls = [‘http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId={}‘.format(line) for line in lines]
for url in urls:
    print(url)
    page = get_page(url)
    items = re.findall(‘‘,page,re.S)
    print(items)
    print(len(items))

　　但是在用正则法爬取内容的时候出现了一些问题。之后问题解决再次编辑。

2020寒假生活学习日记（十五）

标签：失败 ade txt 北京 orm original requests tde java

原文地址：https://www.cnblogs.com/jccjcc/p/12309714.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行