标签:
机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见。人工也是不可以完全抛开的,比如监督式的学习,靠人工;来标记数据,训练模型。文本标记和文本的情感标识别,还有就是破解验证码时基于CNN大量的训练集要靠人来处理,也是醉了,那是很累啊。模型出来后,可以做成服务整合到其他系统中,
机器学习应用在:
一般两种模型,监督学习和无监督学习。具体区分是是否要标记数据。
这里涉企技术也很多,数据可以从来自浏览器里的用户活动、APP里的日志、API上的日志等。这些数据可能是在文件系统HDFS等中,关系型数据库中Mysql等,非关系型数据库中,Hbase等,搜素引擎中,solr、elasticsearch,流数据系统,Kafka、Flume等,当然spark可以接受这些。
数据过滤:满足特定条件的数据
处理数据流失、不完整或有缺陷:过滤非正规的数据,填写缺失值(比如平均值填写缺失点)
- 处理可能异常、错误、异常值
异常的数据可能不利于模型的训练的。
- 合并数据源
将来自不同地方的数据合并
数据汇总
数据预处理后将其转换成适合学习的形式,一般是数组等。
类别用编码对应数值
通过测试集测试得到的模型,含有最佳的参数和最好的表现。
可以整合进J2ee的项目,提高服务给APP等。
监控在新数据环境也就是生产环境下的表现,一般是部署多个模型紧贴业务测试,不一定准确度高的就业务表现好,然后折中处理,对于模型反馈是用户的行为对模型的反馈过程,在推荐系统中,推荐实际限制了用户可选项,影响了用户的选择,这种反馈会影响模型的训练数据,最后降低准确率。为了降低这种影响,用无偏见的数据来训练,比如没有使用推荐的用户,为了达到平衡需求划分出来的客户数据,对于提高系统稳定性是很好解决办法。
标签:
原文地址:http://blog.csdn.net/jianghuxiaojin/article/details/51367870