码迷,mamicode.com
首页 >  
搜索关键字:机器学习入门    ( 139个结果
2. KNN和KdTree算法实现
"1. K近邻算法(KNN)" "2. KNN和KdTree算法实现" 1. 前言 KNN一直是一个机器学习入门需要接触的第一个算法,它有着简单,易懂,可操作性强的一些特点。今天我久带领大家先看看sklearn中KNN的使用,在带领大家实现出自己的KNN算法。 2. KNN在sklearn中的使用 ...
分类:编程语言   时间:2019-01-20 14:03:03    阅读次数:296
机器学习入门-K-means算法
无监督问题,我们手里没有标签 聚类:相似的东西聚在一起 难点:如何进行调参 K-means算法 需要制定k值,用来获得到底有几个簇,即几种类型 质心:均值,即向量各维取平均值 距离的度量: 欧式距离和余弦相似度 优化目标: min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最 ...
分类:编程语言   时间:2019-01-19 13:20:27    阅读次数:185
机器学习入门-贝叶斯统计语料库的词频.groupby() collections
1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], ...
分类:其他好文   时间:2019-01-19 00:54:53    阅读次数:313
机器学习入门-贝叶斯中文新闻分类任务
对于需要构成语料库的数据,我们需要去停用词 停用词包括 1. 语料中大量出现的 如 1.!, 2.", 3.#, 4.$, 5.% 2. 没啥大用 1.一下 2.一些 3.一项 4.一则 关键词提取 TF-IDF 比如有3个词:中国,蜜蜂,养殖 TF(词频):表示的是蜜蜂在这个文章里出现的次数,即词 ...
分类:其他好文   时间:2019-01-19 00:46:51    阅读次数:265
机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)
1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac ...
分类:其他好文   时间:2019-01-19 00:45:32    阅读次数:3414
机器学习入门-贝叶斯垃圾邮件过滤(原理)
贝叶斯里面的参数原理 最大似然: 即最符合观测数据的最有优势,即p(D|h)最大 奥卡姆剃刀:即越常见的越有可能发生,即p(h) 表示的是先验概率 最大似然: 当我们投掷一枚硬币,观测到的是正面,那么我们猜测投掷正面的概率为1,即最大似然值的概率是最大的 奥卡姆剃刀: 如果平面上有N个点,我们使用n ...
分类:其他好文   时间:2019-01-18 19:59:07    阅读次数:224
机器学习入门-贝叶斯拼写纠错实例
问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实 ...
分类:其他好文   时间:2019-01-18 19:56:35    阅读次数:424
机器学习入门-集成算法(bagging, boosting, stacking)
目的:为了让训练效果更好 bagging:是一种并行的算法,训练多个分类器,取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法,根据前一次的结果,进行加权来提高训练效果 stacking; 是一种堆叠算法,第一步使用多个算法求出结果,再将结果作为特征输入到下一 ...
分类:编程语言   时间:2019-01-17 14:03:48    阅读次数:272
机器学习入门-使用GridSearch进行网格参数搜索GridSeach(RandomRegressor(), param_grid, cv=3)
1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身, 第二个参数是传入的参数组合, cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索,比如参数为[1, 2, 3], [1, 2, ...
分类:其他好文   时间:2019-01-17 10:53:39    阅读次数:1914
机器学习入门-决策树的可视化展示
from sklearn import tree from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() dtr = tree.Deci ...
分类:其他好文   时间:2019-01-17 10:18:12    阅读次数:262
139条   上一页 1 ... 4 5 6 7 8 ... 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!