码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
jieba 分词. 西游记相关的分词,出现次数最高的20个。
1 import jieba 2 3 txt = open("D:\\西游记.txt", "r", encoding='gb18030').read() 4 words = jieba.lcut(txt) # 使用精确模式对文本进行分词 5 counts = {} # 通过键值对的形式存储词语及其出 ...
分类:其他好文   时间:2020-11-19 13:02:49    阅读次数:32
jieba分词
import jieba excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己", "一面","只见","怎么",&quo ...
分类:其他好文   时间:2020-11-19 12:52:42    阅读次数:7
jieba:西游记
import jieba txt = open("D:\\西游记.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for wor ...
分类:其他好文   时间:2020-11-19 12:43:23    阅读次数:12
运用jieba分词分析红楼梦相关的分词,出现次数最高的20个
import jiebafrom collections import Counterimport matplotlib.pyplot as pltimport numpy as np class HlmNameCount(): # 此函数用于绘制条形图 def showNameBar(self,n ...
分类:其他好文   时间:2020-11-19 12:42:20    阅读次数:10
多线程提速
对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu ...
分类:编程语言   时间:2020-10-22 22:46:19    阅读次数:27
Python之pyecharts数据可视化,词云图,仪表盘!
一、词云图 词云就是通过形成关键词云层或关键词渲染,过滤掉大量的文本信息,对网络文本中出现频率较高的关键词的视觉上的突出。 import jieba import collections import re from pyecharts.charts import WordCloud from py ...
分类:编程语言   时间:2020-09-04 17:45:03    阅读次数:96
Python第三方库
Python第三方库 jieba - 分词 matplotlib - 绘图 PIL - 图片处理 numpy - 矩阵运算 sqlite3 - sqlite数据库 Flask - web框架 urllib - URL处理,网页爬虫 bs4 - 解析文档-html re - 正则表达式,文字匹配 xl ...
分类:编程语言   时间:2020-07-18 15:31:09    阅读次数:65
gesim_word2vec训练词向量
记一下,懒得找了。 语料是NER的古文献语料,参考其他博客代码。 我先将标记的实体提出来,作为自定义字典,加入jieba中,然后再入停用词,再分词,最后训练词向量。效果还不知如何,后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def ...
分类:其他好文   时间:2020-07-16 10:16:54    阅读次数:68
XGBoost文本多分类记录
1.数据预处理 xgb 训练的数据是 DataFream 不能是List 读取数据 利用pandas 读取数据,这里读取的是excel数据 data = pd.read_excel(filename, sheet_name='tabelname') 分词处理 利用jieba分词搞定 seg1 = j ...
分类:其他好文   时间:2020-07-08 23:05:15    阅读次数:64
Python常用功能函数系列总结(二)
常用函数二:文本分词 方式一:jieba分词+停用词+自定义词典 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description: 文本分词 输入 停用词文件路径 词典文件路径 分词文件路径 表名(可选 ...
分类:编程语言   时间:2020-07-05 21:25:01    阅读次数:46
462条   上一页 1 2 3 4 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!