链家新房爬虫

时间：2019-07-23 22:31:29 阅读：158 评论：0 收藏：0 [点我收藏+]

标签：decode strip() fan http int inf data- nbsp row

# 链家新房爬虫

**今日目标**

爬取最新地区以及对应的房价
```python
import requests
import re
import csv

class LianjiaSpider(object):
    def __init__(self):
        self.url=‘https://cq.lianjia.com/ershoufang/pg{}/‘
        self.headers={‘User-Agent‘: ‘Mozilla/5.0‘}

    #获取网址
    def get_page(self,url):
        res=requests.get(url,headers=self.headers)
        html=res.content.decode()
        #直接调用解析函数
        self.parse_page(html)

    #解析数据
    def parse_page(self,html):

        pattern=re.compile(‘<div class="houseInfo"><span.*?data-el="region">(.*?)</a>.*?<div class="totalPrice"><span>(.*?)</span>‘,re.S)
        r_list=pattern.findall(html)
        self.write_page(r_list)

    #保存
    def write_page(self,r_list):
        film_list=[]
        with open(‘lianjia.csv‘,‘a‘) as f:
            writer = csv.writer(f)
            for r in r_list:
            # 把处理过的数据定义成元组
                t=(r[0].strip(),r[1]+‘万‘)
                film_list.append(t)
                writer.writerows(film_list)

    def main(self):
        for page in range(1,11):
            url=self.url.format(page)
            self.get_page(url)
            print(‘正在打印{}页‘.format(page))


if __name__ == ‘__main__‘:
     spider=LianjiaSpider()
     spider.main()
```

链家新房爬虫

标签：decode strip() fan http int inf data- nbsp row

原文地址：https://www.cnblogs.com/cxiaolong/p/11234872.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行