1 import jieba 2 3 txt = open("D:\\西游记.txt", "r", encoding='gb18030').read() 4 words = jieba.lcut(txt) # 使用精确模式对文本进行分词 5 counts = {} # 通过键值对的形式存储词语及其出 ...
分类:
其他好文 时间:
2020-11-19 13:02:49
阅读次数:
32
import jieba excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己", "一面","只见","怎么",&quo ...
分类:
其他好文 时间:
2020-11-19 12:52:42
阅读次数:
7
import jieba txt = open("D:\\西游记.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for wor ...
分类:
其他好文 时间:
2020-11-19 12:43:23
阅读次数:
12
import jiebafrom collections import Counterimport matplotlib.pyplot as pltimport numpy as np class HlmNameCount(): # 此函数用于绘制条形图 def showNameBar(self,n ...
分类:
其他好文 时间:
2020-11-19 12:42:20
阅读次数:
10
对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu ...
分类:
编程语言 时间:
2020-10-22 22:46:19
阅读次数:
27
一、词云图 词云就是通过形成关键词云层或关键词渲染,过滤掉大量的文本信息,对网络文本中出现频率较高的关键词的视觉上的突出。 import jieba import collections import re from pyecharts.charts import WordCloud from py ...
分类:
编程语言 时间:
2020-09-04 17:45:03
阅读次数:
96
Python第三方库 jieba - 分词 matplotlib - 绘图 PIL - 图片处理 numpy - 矩阵运算 sqlite3 - sqlite数据库 Flask - web框架 urllib - URL处理,网页爬虫 bs4 - 解析文档-html re - 正则表达式,文字匹配 xl ...
分类:
编程语言 时间:
2020-07-18 15:31:09
阅读次数:
65
记一下,懒得找了。 语料是NER的古文献语料,参考其他博客代码。 我先将标记的实体提出来,作为自定义字典,加入jieba中,然后再入停用词,再分词,最后训练词向量。效果还不知如何,后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def ...
分类:
其他好文 时间:
2020-07-16 10:16:54
阅读次数:
68
1.数据预处理 xgb 训练的数据是 DataFream 不能是List 读取数据 利用pandas 读取数据,这里读取的是excel数据 data = pd.read_excel(filename, sheet_name='tabelname') 分词处理 利用jieba分词搞定 seg1 = j ...
分类:
其他好文 时间:
2020-07-08 23:05:15
阅读次数:
64
常用函数二:文本分词 方式一:jieba分词+停用词+自定义词典 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description: 文本分词 输入 停用词文件路径 词典文件路径 分词文件路径 表名(可选 ...
分类:
编程语言 时间:
2020-07-05 21:25:01
阅读次数:
46