1 内容简介 首先通过爬虫采集链家网上所有南京二手房的房源数据,并对采集到的数据进行清洗;然后,对清洗后的数据进行可视化分析,探索隐藏在大量数据背后的规律;最后,采用一个聚类算法对所有二手房数据进行聚类分析,并根据聚类分析的结果,将这些房源大致分类,以对所有数据的概括总结。通过上述分析,我们可以了解 ...
分类:
编程语言 时间:
2018-08-08 00:28:26
阅读次数:
318
2018年7月14日,我跟男朋友去天津实地查看之前预约下的房子,并打算在买卖双方就房屋价格、定金、过户、落户等沟通无任何问题的情况下,与中介(此处指我爱我家)和卖方签署三方协议并将定金交于卖方。 然而问题就出在了「落户」这个问题上,我们在天津买房子的其中一个目的就是为了落户,截止到当天之前,我们了解 ...
分类:
其他好文 时间:
2018-07-22 20:01:01
阅读次数:
271
背景: 公司需要分析通过二手房数据来分析下市场需求,主要通过爬虫的方式抓取链家等二手房信息。 一、分析链家网站 1.因为最近天津落户政策开放,天津房价跟着疯了一般,所以我们主要来分析天津二手房数据,进入链家网站我们看到共找到29123套天津二手房; 2.查看下页面的数据结构以及每页显示数据条数; 通 ...
分类:
其他好文 时间:
2018-06-01 15:26:46
阅读次数:
861
爬取下来共37636条,原始数据效果如下: ...
分类:
其他好文 时间:
2018-05-16 00:34:04
阅读次数:
208
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。 网址为:https://beijing.anjuke.com/sale/ BeautifulSoup官网:https://www.crummy.com/software/Bea ...
分类:
编程语言 时间:
2018-04-16 10:17:16
阅读次数:
253
案例:通过分析上海的二手房的数据,分析出性价比(地段,价格,未来的升值空间)来判断哪个区位的二手房性价比最高 1.载入包 2.加载数据集 3.查看数据集 数据集有以下几个字段构成 探究影响房价的主要因素是什么 4.查看户型的分布 结论:户型的分布不符合正态分布 需要对户型的数据进行清洗,找出主要的户 ...
分类:
编程语言 时间:
2018-04-08 00:28:47
阅读次数:
963
下面,我再写一个例子,加强对正则表达式的理解。还是回到我们下载的那个二手房网页,在实际中,我们并不需要整个网页的内容,因此我们来改进这个程序,对网页上的信息进行过滤筛选,并保存我们需要的内容。打开chrome浏览器,右键检查。 在网页源码中找到了我们所需要的内容。为了调试程序,我们可以在 http: ...
分类:
编程语言 时间:
2018-02-20 15:36:19
阅读次数:
224
实践题 - 选项卡 房产 家居 二手房 275万购昌平邻铁三居 总价20万买一居 200万内购五环三居 140万安家东三环 ... ...
分类:
Web程序 时间:
2017-12-16 14:52:14
阅读次数:
213
以前爬的数据量都有点少了,所以现在写个爬全站数据爬虫来,用redis进行URL的去重处理,采用mysql储存清洗过后房产数据,采用线程池来进行调度,进行多线程爬取 下面是房天下所有地区二手房和新房的URL,为后续爬取提供起始URL: ...
分类:
Web程序 时间:
2017-10-29 17:43:23
阅读次数:
464
1、网页分析(获取所有城市列表) citys.py 2、二手房信息 3、main.py 4、以上海闵行为例,house.csv 爬取的内容为 结果表明,上海房价真的是高啊~~ ...
分类:
编程语言 时间:
2017-10-11 00:36:33
阅读次数:
188