标签:必须 类别 regress 应用开发 时间 质量 计算机程序 学习方法 无监督学习
谁掌握的数据量大 、质量高,谁就占据了机器学习和人工智能领域最有利的资本。
语音识别、自然语言处理、人脸识别系统等等
无监督学习(Unsupervised learning)---通过学习大量的无标记的数据,去分析出数据本身的内在特点和结构。
聚类(Clustering):是我们在分析数据之前其实是不知道有哪些类别的。聚类问题的答案是未知的,需要利用算法从数据里挖掘出数据的特点和结构。
两种机器学习类别的最大区别是,有监督学习的训练数据里有己知的结果来“监督”;而无监督学习的训练数据里没有结果“监督”,不知道到底能分析出什么样的结果。
数据标记到有监督的学习方法是必须的。
数据清洗包括单位统一、去掉重复的数据及噪声数据、让数据具备结构化特征,以方便作为机器学习算法的输入。
另外一个方法是通过模型来自动完成,如PCA算法 。
选择哪个模型,和问题领域、数据量大小、训练时长、模型的准确度等多方面有关。
更合理的数据集划分方案是分成3个,此外还要再加一个交叉验证数据集。
模型是否能满足应用场景的性能要求
训练出来的模型可以把参数保存起来,下次使用时直接加载即可。一般来讲,模型训练需要的计算量是很大的,也需要较长的时间来训练,这是因为一个好的模型参数,需要对大型数据集进行训练后才能得到。而真正使用模型时,其计算量是比较少的,一般是直接把新样本作为输入,然后调用模型即可得出预测结果。
scikit-learn机器学习常用算法原理及编程实战(一)
标签:必须 类别 regress 应用开发 时间 质量 计算机程序 学习方法 无监督学习
原文地址:https://www.cnblogs.com/DyerLee/p/10656744.html