码迷,mamicode.com
首页 >  
搜索关键字:机器学习入门    ( 139个结果
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component ...
分类:其他好文   时间:2019-01-27 01:06:51    阅读次数:760
机器学习入门-文本数据-使用聚类增加文本的标签属性
通过对特征做一个kmeans聚类,将聚类的结果做为文本的标签值,可以使得样本的特征更多 我们从sklearn.cluster中导入Kmeans建立模型进行聚类 代码: 第一步:使用Dataframe格式化数据和使用数据格式化数据 第二步:对字符串进行分词和去除停用词,并使用' '.join完成连接 ...
分类:其他好文   时间:2019-01-27 00:20:37    阅读次数:362
机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 ...
分类:其他好文   时间:2019-01-26 20:23:40    阅读次数:795
机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型
函数说明: 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合,构造出新的词袋标签 参数说明:ngram_range=(2, 2) 表示选用2个词进行前后的组合,构成新的标签值 Ngram模型表示的是,对于词频而言,只考虑一个词,这里我们在CountVe ...
分类:其他好文   时间:2019-01-26 20:03:11    阅读次数:1971
机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 ...
分类:其他好文   时间:2019-01-26 19:32:16    阅读次数:1824
机器学习入门-数据预处理-进行多项式变化(将特征投影到高维度上)
函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项式的变化维度为2,即^2, interaction_only表示是否只使用a*b, include_ ...
分类:其他好文   时间:2019-01-25 20:00:28    阅读次数:413
机器学习入门-数据预处理-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)
1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码,输入的参数必须是二维的,因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd ...
分类:Web程序   时间:2019-01-25 17:47:00    阅读次数:1987
机器学习入门-随机森林温度预测的案例
在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) # 将数据中的文字标签转换为one-hot编码形式,增加了特征的列数 3. rf.feature_i ...
分类:其他好文   时间:2019-01-23 23:19:50    阅读次数:2750
机器学习入门-线性判别分析(LDA)
用途:分类预处理中的降维,做分类任务 目的:LDA关心的是能够最大化类间区分度的坐标轴 将特征空间(数据中的多维样本,将投影到一个维度更小的K维空间,保持区别类型的信息) 监督性:LDA是“有监督”的,它计算的是另一个类特定的方向 投影:找到更适用的分类空间 与PCA不同: 更关心分类而不是方差(P ...
分类:其他好文   时间:2019-01-22 00:34:44    阅读次数:238
机器学习入门-轮廓系数 聚类效果的评估
聚类评估:轮廓系数 计算样本到同簇其他样本的平均距离ai, ai越小,说明样本越应该被聚类到该簇 计算样本到其他簇样本的平均距离bi,这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1, 说明b(i) 远大于a(i), 说明分类 ...
分类:其他好文   时间:2019-01-21 12:12:51    阅读次数:133
139条   上一页 1 ... 3 4 5 6 7 ... 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!