码迷,mamicode.com
首页 > 其他好文 > 详细

scikit-learn:在实际项目中用到过的知识点(总结)

时间:2015-07-27 09:28:54      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:

零、所有项目通用的:

http://blog.csdn.net/mmc2015/article/details/46851245数据集格式和预测器


http://blog.csdn.net/mmc2015/article/details/46852755(加载自己的原始数据

适合文本分类问题的 整个语料库加载)


http://blog.csdn.net/mmc2015/article/details/46906409(5. 加载内置公用的数据

(常见的很多公共数据集的加载5. Dataset loading utilities


http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢)

一张图告诉你,你的问题选什么estimator好,再也不用试了)


http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预测新数据、评价分类器


http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参





一、文本分类用到的:

http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件中提取特征(tf、idf)

CountVectorizerTfidfTransformer


http://blog.csdn.net/mmc2015/article/details/46866537(CountVectorizer提取tf都做了什么

深入解读CountVectorizer都做了哪些处理,指导我们做个性化预处理


http://blog.csdn.net/mmc2015/article/details/46867773(2.5.2. 通过TruncatedSVD实现LSA(隐含语义分析)

LSALDA分析


(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46940373(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46941367(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续)

(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))


(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46771791(特征选择方法(TF-IDF、CHI和IG)

(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用





二、数据预处理用到的4. Dataset transformations

http://blog.csdn.net/mmc2015/article/details/46991465(4.1. Pipeline and FeatureUnion: combining estimators(特征与预测器结合;特征与特征结合)

特征与预测器结合、特征与特征结合


http://blog.csdn.net/mmc2015/article/details/46992105(4.2. Feature extraction(特征提取,不是特征选择)

loading features form dicts、feature hashing、text feature extraction、image feature extraction


http://blog.csdn.net/mmc2015/article/details/46997379(4.2.3. Text feature extraction

text feature extraction


http://blog.csdn.net/mmc2015/article/details/47016313(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value)

Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、Feature Binarization(二值化)、Encoding categorical features(编码类别特征)、imputation of missing values(归责缺失值))


http://blog.csdn.net/mmc2015/article/details/47066239(4.4. Unsupervised dimensionality reduction(降维)

PCA、Random projections、Feature agglomeration(特征集聚))


http://blog.csdn.net/mmc2015/article/details/47069869(4.8. Transforming the prediction target (y)

Label binarizationLable encoding(transform non-numerical labels to numerical labels)





三、其他重要知识点:

http://blog.csdn.net/mmc2015/article/details/46867597(2.5.  矩阵因子分解问题



版权声明:本文为博主原创文章,未经博主允许不得转载。

scikit-learn:在实际项目中用到过的知识点(总结)

标签:

原文地址:http://blog.csdn.net/mmc2015/article/details/47079409

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!