标签:git 数据集 应用 说明 第三方 提取 png 地图 clu
可视化已成为数据科学在电信行业中的关键应用。具体而言,电信分析高度依赖于地理空间数据的使用。
这是因为电信网络本身在地理上是分散的,并且对这种分散的分析可以产生关于网络结构,消费者需求和可用性的有价值的见解。
为了说明这一点,使用k均值聚类算法来分析纽约市免费公共WiFi的地理数据。该数据集可从NYC Open Data获得。
具体地,k均值聚类算法用于基于与特定提供商相关联的纬度和经度数据来形成WiFi使用的集群。
从数据集本身,使用R提取纬度和经度数据:
这是一个数据片段:
现在,需要使用scree图确定簇的数量。
从上面可以看出,曲线在大约11个星团处平稳。因此,这是将在k-means模型中使用的聚类数。
K-Means分析本身是:
在数据框newyorkdf中,显示纬度和经度数据以及群集标签:
这是一个视觉插图:
这个例子很有用,但理想的情况是将这些集群附加到纽约市本身的地图上。
为了生成纽约市的地图,使用nycmaps库,可以从Github 仓库安装,如下所示。
运行上述内容后,将生成NYC地图以及相关群集:
这种类型的聚类可以深入了解城市中WiFi网络的结构。例如,群集1中有650个单独的点,而群集6中存在100个点。
这表明由集群1标记的地理区域显示了大量的WiFi流量。另一方面,群集6中较低数量的连接指示低WiFi流量。
K-Means聚类本身并不能告诉我们为什么特定集群的流量高或低。例如,可能是群集6具有高人口密度的情况,但是较差的因特网速度导致较少的连接。但是,此聚类算法为进一步分析提供了一个很好的起点 - 并且可以更轻松地收集其他信息,以确定一个地理集群的流量密度可能高于另一个地理集群的原因。
此示例演示了k-means聚类如何与地理数据一起使用,以便可视化整个纽约市的WiFi接入点。此外,我们还看到了k-means聚类如何也可以指示用于WiFi接入的高密度区域和低密度区域,以及可以从中提取关于人口,WiFi速度以及其他因素的潜在见解。
大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服)
【服务场景】
科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务
标签:git 数据集 应用 说明 第三方 提取 png 地图 clu
原文地址:https://www.cnblogs.com/tecdat/p/10919469.html