码迷,mamicode.com
首页 > 编程语言 > 详细

Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据

时间:2018-04-16 10:17:16      阅读:253      评论:0      收藏:0      [点我收藏+]

标签:.text   https   bsp   imp   爬取   col   内容   2008年   details   

目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。

网址为:https://beijing.anjuke.com/sale/

BeautifulSoup官网:https://www.crummy.com/software/BeautifulSoup/

直接上代码:

import requests
from bs4 import BeautifulSoup

headers={user-agent:Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36}
link=https://beijing.anjuke.com/sale/
def getHouseInfo(link):
    r=requests.get(link,headers=headers)

    soup=BeautifulSoup(r.text,lxml)
    house_list=soup.find_all(li,class_=list-item)

    for house in house_list:
        name=house.find(div,class_=house-title).a.text.strip()
        price=house.find(span,class_=price-det).text.strip()
        price_area=house.find(span,class_=unit-price).text.strip()#单位面积
        no_room=house.find(div,class_=details-item).span.text#几室几厅
        area=house.find(div,class_=details-item).contents[3].text
        floor=house.find(div,class_=details-item).contents[5].text
        year=house.find(div,class_=details-item).contents[7].text

        broker=house.find(span,class_=brokername).text
        broker=broker[1:]

        address=house.find(span,class_=comm-address).text.strip()
        address=address.replace(\xa0\xa0\n, )

        tag_list=house.find_all(span,class_=item-tags)
        tags=[i.text for i in tag_list]

        print(name,price,price_area,no_room,area,floor,year,broker,address,tags)
for i in range(1,11):
    link=link+/p+str(i)
    print(page+str(i))
    getHouseInfo(link)

相关代码解析请参照前几篇博客以及BeautifulSoup官网。

 输出结果(由于输出内容过多,此处仅截取一部分):

page1
宏星地产租售部 新出!1700南花园, 赠500万红木家具 3800万 106442元/m2 5室2厅 357m2 共3层 2008年建造 夏秋冬 碧水庄园                     昌平-沙河-定泗路 [独栋别墅, 业主唯一住房, 业主住房]
没有不喜欢的!《金泉全南带露台的房子?+观水系花园?》少有啊 990万 107608元/m2 2室2厅 92m2 高层(共30层) 2009年建造 位春雷 金泉家园                     朝阳-亚运村-大屯路 [房型正, 近地铁, 全南户型]
满五年低首付,车位充足,双卧南,西北旺,软件园二期,采光好 875万 66287元/m2 3室2厅 132m2 低层(共9层) 2008年建造 孙国鹏 山语间(保利西山林语)                     海淀-温泉镇-黑龙潭路 [配套成熟, 品质小区 , 客厅朝南]
金色21 罗兰大道经典户型,每年出房量有限 勿错过 730万 61864元/m2 3室1厅 118m2 高层(共15层) 2009年建造 徐功 万象新天家园                     朝阳-常营-常营北路10号 [近地铁, 配套成熟, 景观房]
远洋LAVIE:法式大独栋,三面临湖面,花园3500平米 15800万 92941元/m2 6室3厅 1700m2 地下(共3层) 2013年建造 张云锋 远洋LAVIE                     朝阳-来广营-康营东路,近机场高速 [配套成熟, 品质小区 , 景观房]
白菜价!就是为了卖房!《卧室朝南正对花园+送储藏间》太棒了! 1250万 77639元/m2 3室2厅 161m2 低层(共28层) 2009年建造 位春雷 金泉家园                     朝阳-亚运村-大屯路 [配套成熟, 景观房, 拎包入住]
通州地铁六号线物资学院路+4.5米洋房公寓+大产权独立房本 296万 37000元/m2 2室1厅 80m2 高层(共7层) 2016年建造 孙羽 朝北8080                     通州-北关-滨榆东路 [近地铁, 配套成熟, 品质小区 ]
首 付 100万 正规一居室 出行方便 15万装修 国风美唐 260万 58956元/m2 1室1厅 44m2 低层(共6层) 2003年建造 田小强 天鑫家园                     昌平-霍营-回龙观东大街 []
京核心趋势刚需房成家立业,幸福生活开始地方,靠近地铁出行方便 535万 70973元/m2 2室1厅 75m2 共4层 2008年建造 唐天童 沿海赛洛城南区                     朝阳-百子湾-广渠东路33号 [近地铁, 房型正, 拎包入住]
珍惜委托 清河强佑新城 新上正规一居室 满五年 周期4个月 410万 70689元/m2 1室1厅 58m2 中层(共27层) 2009年建造 白小伟 强佑清河新城                     海淀-清河-京藏高速辅路,近清河中街 [近地铁, 配套成熟, 品质小区 ]
九州好房源 满二年 育新花园南里88平通透大两居 边户 精装 210万 23863元/m2 2室2厅 88m2 低层(共9层) 2012年建造 付秋艳 育新花园南里                     大兴-大兴区其他-育仁街1号 [客厅朝南, 小户型, 一梯两户]
主做德胜门 深度了解房源 置业店长博涛精心推介 诚信卖房 2300万 150326元/m2 4室2厅 153m2 高层(共20层) 2003年建造 刘博涛 阳光丽景                     西城-德胜门-黄寺大街23号 [近地铁, 近学校]
绿地国际花都南区 新小区 环境好 南北通透 电梯房 240万 26086元/m2 2室2厅 92m2 低层(共15层) 2011年建造 杜守亮 绿地国际花都                     密云-密云-城后街32号 [配套成熟, 环境优美, 交通便利]
仅5w的税+南排楼+前后左右安静不临街+南北双通透+带阳台 1100万 79994元/m2 3室2厅 137m2 低层(共24层) 2007年建造 杨韶峰 澳洲康都                     朝阳-望京西-望京北路39号 [素质住户, 环境优美, 品质小区]
上地西二旗融泽嘉园二期,育翔小学旁明厨明卫三居室 商品房!! 560万 53333元/m2 3室1厅 105m2 中层(共34层) 2015年建造 冯宝成 融泽嘉园六号院(西区)                     昌平-回龙观-龙域西二路6号 [配套成熟, 环境优美, 次新小区]
西五环精装新房,西山甲一号,园博园旁 五期正式入市 等您来看 800万 57142元/m2 4室2厅 140m2 中层(共16层) 2018年建造 刘珍珍 西山甲一号                     丰台-卢沟桥-长顺二路 [配套成熟, 环境优美, 交通便利]
《专注星河皓月》双卧朝南+自住精装+全天采光+家私全送 210万 22580元/m2 2室1厅 93m2 低层(共18层) 2010年建造 罗刚 星河皓月                     北京周边-燕郊-燕顺路,近燕兴街 [配套成熟, 交通便利, 素质住户]
盛景嘉园东西通透四居室,小板楼带电梯温泉入户,满五年明厨明卫 1550万 127049元/m2 4室2厅 122m2 中层(共7层) 2005年建造 谭海军 盛景嘉园                     西城-陶然亭-福长街68号 [近地铁, 近学校]
特价房 特价房 天著春秋精装洋房 赠80平阁楼+20露台 1935万 120937元/m2 4室2厅 160m2 高层(共6层) 2018年建造 刘素利 远洋天著春秋                     石景山-苹果园-金顶山路 [南北通透, 交通便利, 素质住户]
联排南端户、花园200平、已委托钥匙、看房随时 1600万 80000元/m2 5室3厅 200m2 共2层 2001年建造 刘飞剑 香江花园                     朝阳-来广营-香江北路1号 [近地铁, 独栋别墅, 带花园]
换房就选这套!经典实用3居还能观景!有钥匙!临地铁14号线 1050万 66878元/m2 3室2厅 157m2 高层(共28层) 2000年建造 王艳鸽 丽水嘉园                     朝阳-朝阳公园西-朝阳公园南路 [近地铁, 近学校, 交通便利]
k2集团强力打造通州园林式住宅社区、南北通透格局、30万首付 205万 26623元/m2 2室2厅 77m2 高层(共20层) 2018年建造 于海瑞 K2十里春风                     通州-通州区其他-漷小路 [南北通透, 交通便利, 素质住户]
新出可看!200平花园 2015年全新装修 大联排! 6399万 110039元/m2 6室4厅 581m2 共3层 2012年建造 吴鹏 亚运新新家园                     朝阳-亚运村-辛店路1号 [近地铁, 低总价]

。。。。。。。。


精装修 随时看房 南北通透 直接拎包入住 无税 真实照片 235万 20434元/m2 3室2厅 115m2 中层(共6层) 2000年建造 杨兴 明珠花园(东区)                     密云-密云-西大桥路 [品质小区 , 一梯两户, 远离马路]
page10
安华里一区新上两居室,出行方便,临近公园,带自建 480万 96000元/m2 2室1厅 50m2 低层(共6层) 1989年建造 李朋 安华里一区                     朝阳-安贞-安定门外大街 [近地铁, 配套成熟, 素质住户]
朝阳5层别墅,婚房标准,全新未住,同看双珑原著、中粮瑞府 3000万 94637元/m2 4室3厅 317m2 共3层 2016年建造 董伟婧 泰禾北京院子                     朝阳-来广营-顺黄路 []
大厂潮白河孔雀城伯顿庄园双庭堡别墅业主着急出售有钥匙随时看房 756万 24000元/m2 5室2厅 315m2 共3层 2014年建造 田伟民 潮白河孔雀城伯顿庄园(别墅)                     北京周边-廊坊-侯谭线 [配套成熟, 素质住户, 安全性高]
优山美地 精装双拼 花园200平 临近顺义英国* 随时看 2680万 63058元/m2 4室2厅 425m2 共4层 2008年建造 李豆豆 优山美地C区                     顺义-中央别墅区-裕园路 [配套成熟, 采光好, 环境优美]

。。。。。。

 

 

参考书目:唐松,来自《Python 网络爬虫:从入门到实践》

 

Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据

标签:.text   https   bsp   imp   爬取   col   内容   2008年   details   

原文地址:https://www.cnblogs.com/dudududu/p/8853913.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!