【机器学习】k-means——航空用户聚类分析案例

时间：2019-12-29 20:10:30 阅读：201 评论：0 收藏：0 [点我收藏+]
标签：数据清洗 index 时间差训练 minus ola lib port false
  1 import pandas as pd
  2 import numpy as np
  3 from sklearn.cluster import KMeans
  4 import matplotlib.pyplot as plt
  5 
  6 
  7 def stand_sca(data):
  8     """
  9     标准差标准化
 10     :param data:原数据
 11     :return: 标准差之后的数据
 12     """
 13     data = (data - data.mean()) / data.std()
 14 
 15     return data
 16 
 17 
 18 def box_analysis(data):
 19     """
 20     箱线图分析去除异常值
 21     :param data: 原数据---series
 22     :return: bool数组
 23     """
 24     # 上四分位数
 25     qu = data.quantile(q=0.75)
 26     # 下四分位数
 27     ql = data.quantile(q=0.25)
 28     # 计算四分位间距
 29     iqr = qu - ql
 30 
 31     # 上限
 32     up = qu + 1.5 * iqr
 33     # 下限
 34     low = ql - 1.5 * iqr
 35 
 36     bool_index = (data < up) & (data > low)
 37 
 38     return bool_index
 39 
 40 
 41 # 1、了解航空公司现状以及 航空用户的价值
 42 # 6w+ 样本  44个特征 ----> LRFMC
 43 # 2、数据处理
 44 # （1）缺失值处理
 45 # 删除法
 46 #  (2) 筛选相关特征---构建最终的特征
 47 # LRFMC <----筛选出能够构建这5个特征的相关特征
 48 # （3）异常值处理
 49 # 3sigma 原则 或者 box_analysis
 50 # （4）标准化处理
 51 # 标准差标准化
 52 # 3、k-means实现航空用户的聚类
 53 # sklearn
 54 # 4、结果展示
 55 # 绘制雷达图
 56 # 5、输出结论
 57 # 营销策略
 58 
 59 def build_data():
 60     """
 61     构建原始数据
 62     :return: 原始数据
 63     """
 64     # 1、加载数据
 65     air_data = pd.read_csv("./air_data.csv", encoding="ansi")
 66     # print("air_data:\n", air_data)
 67     # print("air_data 的列索引名称:\n", air_data.columns)
 68 
 69     return air_data
 70 
 71 
 72 def deal_data(air_data):
 73     """
 74     数据处理
 75     :param air_data:原始数据
 76     :return: 数据处理之后的结果
 77     """
 78     # 2、数据清洗
 79     # 缺失值、异常值
 80     # 检测缺失值
 81     res_null = pd.isnull(air_data).sum()
 82     # print("缺失值检测结果：", res_null)
 83 
 84     # 处理缺失值
 85     # （1）丢弃票价为空的记录 # SUM_YR_1  SUM_YR_2两列
 86     # ----可以理解保留票价不为空
 87     bool_index_1 = air_data.loc[:, "SUM_YR_1"].notnull()
 88     bool_index_2 = air_data.loc[:, "SUM_YR_2"].notnull()
 89     # 个人认为 只有两列票价都不为空，票价才不为空
 90     bool_index = bool_index_1 & bool_index_2
 91     air_data = air_data.loc[bool_index, :]
 92     # (2)丢弃票价为0，折扣不为0，飞行里程 > 0 的数据--->丢弃航空公司没有盈利的数据
 93     # 保留盈利的数据
 94     # 保留票价 > 0，折扣 > 0，飞行里程 > 0
 95     # 个人认为只要有一列票价>0,票价就>0
 96     bool_id_1 = air_data.loc[:, "SUM_YR_1"] > 0
 97     bool_id_2 = air_data.loc[:, "SUM_YR_2"] > 0
 98 
 99     # 折扣> 0
100     bool_id_3 = air_data.loc[:, "avg_discount"] > 0
101 
102     # 飞行里程>0
103     bool_id_4 = air_data.loc[:, "SEG_KM_SUM"] > 0
104 
105     bool_id = (bool_id_1 | bool_id_2) & bool_id_3 & bool_id_4
106 
107     air_data = air_data.loc[bool_id, :]
108 
109     res_null = pd.isnull(air_data).sum()
110     # print("缺失值检测结果：", res_null)
111 
112     # 先筛选特征
113     # LRFMC
114     # 筛选 入会时间、窗口结束时间、最后乘坐飞机距离窗口结束的时长,乘坐飞机次数、飞行里程、折扣系数
115     air_data = air_data.loc[:, ["FFP_DATE", "LOAD_TIME", "LAST_TO_END", "FLIGHT_COUNT", "SEG_KM_SUM", "avg_discount"]]
116 
117     # 构建LRFMC五个特征
118     air_data.loc[:, "FFP_DATE"] = pd.to_datetime(air_data.loc[:, "FFP_DATE"])
119     air_data.loc[:, "LOAD_TIME"] = pd.to_datetime(air_data.loc[:, "LOAD_TIME"])
120     # 获取时间差--单位是day
121     air_data.loc[:, "L_days"] = air_data.loc[:, "LOAD_TIME"] - air_data.loc[:, "FFP_DATE"]
122     # 获取相差天数 的数值
123     air_data.loc[:, "L_days"] = [i.days for i in air_data.loc[:, "L_days"]]
124     # 获取具体的月数--即L
125     air_data.loc[:, "L"] = np.ceil(air_data.loc[:, "L_days"] / 30)
126     # print(air_data.loc[:, "L"])
127     # 构建R --- LAST_TO_END 这个时长应该是天数
128     # print(air_data.loc[:, "LAST_TO_END"])
129     air_data.loc[:, "R"] = np.ceil(air_data.loc[:, "LAST_TO_END"] / 30)
130     # print("air_data.loc[:, "R"]:\n",air_data.loc[:, "R"])
131 
132     air_data.loc[:, "F"] = air_data.loc[:, "FLIGHT_COUNT"]
133 
134     air_data.loc[:, "M"] = air_data.loc[:, "SEG_KM_SUM"]
135 
136     air_data.loc[:, "C"] = air_data.loc[:, "avg_discount"]
137 
138     air_data = air_data.iloc[:, -5:]
139     # print("最终的数据：\n", air_data)
140 
141     # 异常值处理
142     for column in air_data.columns:
143         bool_ = box_analysis(air_data.loc[:, column])
144         air_data = air_data.loc[bool_, :]
145 
146     # 标准化数据
147     air_data = stand_sca(air_data)
148 
149     print("标准化之后的数据：\n", air_data)
150 
151     return air_data
152 
153 
154 def km_fit(air_data, k):
155     """
156     k-means训练数据，并进行用户聚类
157     :param air_data: 数据
158     :param k: 聚类的类别数目
159     :return:
160     """
161     # 1、创建算法实例
162     km = KMeans(n_clusters=k)
163     # 2、训练数据
164     km.fit(air_data)
165     # 3、预测
166     y_predict = km.predict(air_data)
167 
168     # 获取聚类中心
169     center = km.cluster_centers_
170 
171     return y_predict, center
172 
173 
174 def show_res(center, feature_num):
175     """
176     绘制雷达图
177     :param center:聚类中心
178     :param feature_num: 特征的数量
179     :return:
180     """
181     # 1、创建画布
182     # 绘制雷达图 需要用到极坐标
183     fig = plt.figure()
184     # 修改RC参数，来让其支持中文
185     plt.rcParams[‘font.sans-serif‘] = ‘SimHei‘
186     plt.rcParams[‘axes.unicode_minus‘] = False
187     # polar  开启极坐标
188     fig.add_subplot(1, 1, 1, polar=True)
189     # 2、绘图
190     # 准备数据
191     # 准备角度数据
192     angle = np.linspace(start=0, stop=2 * np.pi, num=feature_num, endpoint=False)
193     print(angle)
194     # 闭合角度
195     angle = np.concatenate((angle, [angle[0]]))
196     # print(angle)
197     for i in range(center.shape[0]):
198         # print(center[i, 0])
199         # 闭合数据
200         data = np.concatenate((center[i, :],[center[i, 0]]))
201         plt.polar(angle, data)
202 
203     # 设置刻度
204     plt.xticks(angle[:-1],["L","R","F","M","C"])
205 
206     # 增加图例
207     plt.legend(["第一类用户","第二类用户","第三类用户","第四类用户","第五类用户"])
208     # 保存图片
209     plt.savefig("./航空用户聚类分析结果雷达图展示.png")
210     # 3、展示
211     plt.show()
212 
213 
214 def main():
215     """
216     主函数
217     :return:
218     """
219     # 1、构建原始数据
220     air_data = build_data()
221     # 2、数据处理
222     air_data = deal_data(air_data)
223     # 3、构建聚类模型进行用户聚类
224     # 确定聚类的类别数目
225     k = 5
226     y_predict, center = km_fit(air_data, k)
227     print("预测值为：\n", y_predict)
228     print("聚类中心为：\n", center)
229 
230     # 4、结果展示
231     show_res(center, center.shape[1])
232 
233 
234 if __name__ == ‘__main__‘:
235     main()
标签：数据清洗 index 时间差训练 minus ola lib port false
原文地址：https://www.cnblogs.com/Tree0108/p/12116168.html
踩
(0)
评论一句话评论（0）
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行