1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv sms=open("D:\机器学习\SMSSpamCollection",'r',encoding='utf-8') csv_reader=csv.reader(sms, delimiter='\t') for ...
分类:
其他好文 时间:
2020-05-18 20:22:09
阅读次数:
49
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 19:23:35
阅读次数:
80
1、analyzer的组成 CharacterFilters:针对原始文本进行处理例如去掉html Tokenizer:按照规则切分单词 Token Filter:将切分好的单词进行二次加工 2、分词器 standard 默认分词器,按词切分,小写处理 stop 小写处理,停用词过滤(a,the,i ...
分类:
其他好文 时间:
2020-03-06 12:45:54
阅读次数:
72
在之前的程序中我们发现分词不太准确,因此我们可以使用支持中文分词。 分析器的执行过程: 从一个reader字符流开始,创建一个基于reader的tokenizer分词器,经过三个tokenfilter(第一个大写变小写,第二个用回车替换空格,去掉不需要的a,the,and,逗号等)生成tokens。 ...
分类:
Web程序 时间:
2020-02-01 21:10:22
阅读次数:
99
https://ac.nowcoder.com/acm/problem/54585 题意:给500000个数构成一个数列,求递增个数为k的子序列个数,2<=k<=10。 题解: 1.求递增子序列个数,子序列不是子串,可以散乱分布。原数组为a,排序后为数组b,遍历a数组,每次求得ai在数组b的下标位置 ...
分类:
编程语言 时间:
2020-01-27 17:17:25
阅读次数:
83
一、倒排索引 A、建立前会进行normalization,也就是说对各个单词进行相应的处理(时态、大小写、同义词等),以提升后面搜索时候搜到相关文档的概率 二、分词器 A、character filter:分词之前进行预处理,过滤html标签,&转换成and等等 B、tokenizer:分词 C、t ...
分类:
其他好文 时间:
2019-12-30 19:45:10
阅读次数:
94
package com.etoak.simHash; import com.hankcs.hanlp.seg.common.Term; import com.hankcs.hanlp.tokenizer.StandardTokenizer; import org.apache.commons.lan ...
分类:
其他好文 时间:
2019-12-14 19:21:23
阅读次数:
115
一.jieba模块基本介绍 jieba是优秀的第三方中文词库 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 二.jieba库的使用说明 精确模式:将句子最精确的分开,适合文本分析 ...
分类:
其他好文 时间:
2019-11-01 18:24:16
阅读次数:
385
分词器是用来实现分词的,从一串文本当中切分出一个一个的单词(词条),并对每个词条进行标准化处理(大小写、单复数、同义词等转换)。分词器包括3部分: 1、character filter:分词之前的预处理,过滤掉html标签,特殊符号转换等。 2、tokenizer:分词, 3、token filte ...
分类:
其他好文 时间:
2019-08-24 18:20:07
阅读次数:
83
1. 在50和52的 config/elasticsearch.yml 中增加以下配置 index: analysis: analyzer: string_lowercase: tokenizer: keyword filter: lowercase 2. 重启es 3. 创建一个测试 index: ...
分类:
其他好文 时间:
2019-05-20 19:07:09
阅读次数:
660