码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:其他好文   时间:2020-05-17 12:56:07    阅读次数:51
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-05-16 19:09:13    阅读次数:60
文本分类(机器学习方法)
文本分类实现步骤: 1. 定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据 2. 数据预处理:对文档做分词、去停用词等准备工作 3. 数据提取特征:对文档矩阵进行降维、提取训练集中最有用的特征 4. 模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器 5. 评测阶段:在测试集上 ...
分类:其他好文   时间:2020-05-15 00:17:01    阅读次数:75
1078. Bigram 分词『简单』
题目来源于力扣( "LeetCode" ) [TOC] 一、题目 "1078. Bigram 分词" 题目 相关标签 :哈希表 提示: 1 text 由一些用空格分隔的单词组成,每个单词都由小写英文字母组成 1 first 和 second 由小写英文字母组成 二、解题思路 1. 根据题目提示:te ...
分类:其他好文   时间:2020-05-14 22:14:46    阅读次数:65
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-05-14 13:18:59    阅读次数:66
NLP gensim 相似度计算
```pythonfrom collections import defaultdictfrom gensim import corporaimport jiebafrom gensim import similaritiesimport reclass Similarity: def docs(s... ...
分类:其他好文   时间:2020-05-14 01:24:08    阅读次数:55
Flink学习(三) 批流版本的wordcount Scala版本
批处理代码: package com.wyh.wc import org.apache.flink.api.scala._ /** * 批处理代码 */ object WordCount { def main(args: Array[String]): Unit = { //创建一个批处理的一个环境 ...
分类:其他好文   时间:2020-05-11 23:28:06    阅读次数:79
git,es的基本查询,组合查询,mapping映射,i分词,term和match
git 2 es基本查询 3 es 组合查询 python 多个条件,and ,or ,not 对到es中就是布尔查询,must,should,must_not,filter 1 组合查询之must 查询form gu和age=30的数据 GET lqz/doc/_search { "query": ...
分类:移动开发   时间:2020-05-08 22:43:39    阅读次数:84
jieba库的分词和词云
1.分词 #DreaminRedMansions.py import jieba #调用jieba库 txt = open("D:\Download\lianxii\passageone.txt","r",encoding="UTF-8").read() #打开txt文件阅读 words = jie ...
分类:其他好文   时间:2020-05-06 19:52:48    阅读次数:55
python jieba
分词 关键词提取 停用词 stop_word.csv ...
分类:编程语言   时间:2020-05-06 01:37:38    阅读次数:74
2158条   上一页 1 ... 11 12 13 14 15 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!