1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
其他好文 时间:
2020-12-09 12:09:11
阅读次数:
6
目录 jieba 分词 ''' 函数 jieba.cut(sentence, cut_all=False) 参数 sentence为待分词的字符串 cut_all为是否为全模式 返回指 生成器 ''' import jieba sentence = "我考上了清华大学" seg_list = jie ...
分类:
编程语言 时间:
2020-12-04 11:19:10
阅读次数:
7
1 import jieba 2 3 txt = open("D:\\西游记.txt", "r", encoding='gb18030').read() 4 words = jieba.lcut(txt) # 使用精确模式对文本进行分词 5 counts = {} # 通过键值对的形式存储词语及其出 ...
分类:
其他好文 时间:
2020-11-19 13:02:49
阅读次数:
32
import jieba excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己", "一面","只见","怎么",&quo ...
分类:
其他好文 时间:
2020-11-19 12:52:42
阅读次数:
7
import jiebafrom collections import Counterimport matplotlib.pyplot as pltimport numpy as np class HlmNameCount(): # 此函数用于绘制条形图 def showNameBar(self,n ...
分类:
其他好文 时间:
2020-11-19 12:42:20
阅读次数:
10
Python第三方库 jieba - 分词 matplotlib - 绘图 PIL - 图片处理 numpy - 矩阵运算 sqlite3 - sqlite数据库 Flask - web框架 urllib - URL处理,网页爬虫 bs4 - 解析文档-html re - 正则表达式,文字匹配 xl ...
分类:
编程语言 时间:
2020-07-18 15:31:09
阅读次数:
65
1.数据预处理 xgb 训练的数据是 DataFream 不能是List 读取数据 利用pandas 读取数据,这里读取的是excel数据 data = pd.read_excel(filename, sheet_name='tabelname') 分词处理 利用jieba分词搞定 seg1 = j ...
分类:
其他好文 时间:
2020-07-08 23:05:15
阅读次数:
64
常用函数二:文本分词 方式一:jieba分词+停用词+自定义词典 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description: 文本分词 输入 停用词文件路径 词典文件路径 分词文件路径 表名(可选 ...
分类:
编程语言 时间:
2020-07-05 21:25:01
阅读次数:
46
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
其他好文 时间:
2020-07-04 01:18:52
阅读次数:
87
1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 ...
分类:
编程语言 时间:
2020-06-27 20:32:04
阅读次数:
125