码迷,mamicode.com
首页 > 其他好文 > 详细

从某一列中截取字符信息——extract()的使用

时间:2018-07-27 01:30:20      阅读:2392      评论:0      收藏:0      [点我收藏+]

标签:com   read   知识   等级   数据   extra   正则表达式   apply   travel   

爬虫获取某网站杭州到丽江的旅游信息,进行分析

(1)导入数据

  df = pd.read_csv("travel.csv")

技术分享图片

(2)从路线信息中提取旅游天数、酒店等级、酒店评分、旅游价格等信息

  df["天数"]=df.路线信息.str.extract(‘(\d+)天\d+晚‘).apply(lambda x: int(x))
  df["酒店评分"]=df.酒店信息.str.extract(‘(\d\.\d)分‘).apply(lambda x: float(x))
  df["酒店等级"]=df.酒店信息.str.extract(‘\n(.*)‘)
  df["价格"]=df.路线信息.str.extract(‘(\d+)起/人‘).apply(lambda x: int(x))

技术分享图片

(3)将酒店等级(定类数据)修改为数值型数据,方便在此基础上建模

  class_map = {"其他":0,"经济型":1,"舒适型":2,"高档型":3,"豪华型":4}
  df["酒店等级"]=df["酒店等级"].map(class_map)

技术分享图片

(4)在此基础上可以使用线性回归等建模

重点知识(以前自己不知道的小知识点):

  从字符串中提取数据,只知道find()....今天终于学会了新的依照,extract(),新知识总是让人开心哈!!!!!

  使用extract方法提取数字:它的第一个参数是正则表达式,括号表示要提取的部分

 

从某一列中截取字符信息——extract()的使用

标签:com   read   知识   等级   数据   extra   正则表达式   apply   travel   

原文地址:https://www.cnblogs.com/dearL/p/9375058.html

(0)
(2)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!