1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-25 19:27:04
阅读次数:
61
文本特征提取函数一:CountVectorizer() CountVectorizer()函数只考虑每个单词出现的频率;然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果。其思想是,先根据所有训练文本,不考虑其出现顺序,只将训练文本中每个出现过的词汇单独视为一列特征,构成一个词汇表(voca ...
分类:
其他好文 时间:
2020-03-25 19:30:46
阅读次数:
128
1 列出几种文本特征提取算法 答:文档频率、信息增益、互信息、X^2统计、TF-IDF (引用自:https://www.cnblogs.com/jiashun/p/CrossEntropyLoss.html) 信息: 由于概率I 是一个)0至1的值,所以当事件发生的概率越大时,信息量越小。 相对熵 ...
分类:
编程语言 时间:
2020-03-14 18:22:39
阅读次数:
77
代码 1. 逻辑回归 2.简单特征提取 3.文本特征提取 4.中文特征提取 ...
分类:
其他好文 时间:
2020-03-08 17:45:03
阅读次数:
66
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:
编程语言 时间:
2019-11-18 15:38:18
阅读次数:
73
02 特征工程和文本特征提取 数据集的构成 数据存放形式 1. CSV 文件 2. mysql: 性能瓶颈,读取速度; 格式不符合机器学习的格式 3. pandas:读取工具 4. numpy为什么读取速度快: 动态语言 全局解释性锁 GIL : 释放了 (GIL数据安全),真正的多线程 可用的数据 ...
分类:
其他好文 时间:
2019-11-09 15:53:23
阅读次数:
127
# 人工智能:预测,分类 # 人工智能: # 自动的工作 # 机器学习(包含深度学习) # 以前的限制因素:计算能力,数据,算法发展 # 用途: # 图像识别 # 识别图片中不同的地方(医学CT) 不用人工识别 # 图片艺术化(可以替代ps) # 无人驾驶 # 人脸识别 # 自然语言处理 # 语音识... ...
分类:
其他好文 时间:
2019-09-27 01:20:05
阅读次数:
118
CountVectorizer方法进行特征提取 from sklearn.feature.extraction.text import CountVectorizer 这个方法根据分词进行数量统计继续文本分类 文本特征提取 作用:对文本进行特征值化 sklearn.feature_extractio ...
分类:
其他好文 时间:
2019-09-26 00:42:39
阅读次数:
508
假设有一段文本:"I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段文本的特征呢? 一个简单的方法就是使用词袋模型(bag of words mode ...
分类:
系统相关 时间:
2018-09-06 02:59:03
阅读次数:
711
文本分类任务框架: 文本→特征工程(决定着模型分类的上界)→分类器(逼近模型的上限)→类别 文本特征提取: 1.经典的文本特征(前人的研究的成熟理论) 2.手工构造新的特征(手工提取,看数据集中是否有好的性特征) 3.用神经网络提取(神经网络仅作为特征提取器来用) 经典的文本特征: TF、TFIDF ...
分类:
其他好文 时间:
2018-09-03 19:59:04
阅读次数:
161