搜索关键字：jieba，搜索到462个结果！码迷,mamicode.com！

jieba 分词. 西游记相关的分词，出现次数最高的20个。

1 import jieba 2 3 txt = open("D:\\西游记.txt", "r", encoding='gb18030').read() 4 words = jieba.lcut(txt) # 使用精确模式对文本进行分词 5 counts = {} # 通过键值对的形式存储词语及其出 ...

分类：其他好文时间：2020-11-19 13:02:49 阅读次数：32

jieba分词

import jieba excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己", "一面","只见","怎么",&quo ...

分类：其他好文时间：2020-11-19 12:52:42 阅读次数：7

jieba：西游记

import jieba txt = open("D:\\西游记.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for wor ...

分类：其他好文时间：2020-11-19 12:43:23 阅读次数：12

运用jieba分词分析红楼梦相关的分词，出现次数最高的20个

import jiebafrom collections import Counterimport matplotlib.pyplot as pltimport numpy as np class HlmNameCount(): # 此函数用于绘制条形图 def showNameBar(self,n ...

分类：其他好文时间：2020-11-19 12:42:20 阅读次数：10

多线程提速

对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu ...

分类：编程语言时间：2020-10-22 22:46:19 阅读次数：27

Python之pyecharts数据可视化，词云图，仪表盘！

一、词云图词云就是通过形成关键词云层或关键词渲染，过滤掉大量的文本信息，对网络文本中出现频率较高的关键词的视觉上的突出。 import jieba import collections import re from pyecharts.charts import WordCloud from py ...

分类：编程语言时间：2020-09-04 17:45:03 阅读次数：96

Python第三方库

Python第三方库 jieba - 分词 matplotlib - 绘图 PIL - 图片处理 numpy - 矩阵运算 sqlite3 - sqlite数据库 Flask - web框架 urllib - URL处理，网页爬虫 bs4 - 解析文档-html re - 正则表达式，文字匹配 xl ...

分类：编程语言时间：2020-07-18 15:31:09 阅读次数：65

gesim_word2vec训练词向量

记一下，懒得找了。语料是NER的古文献语料，参考其他博客代码。我先将标记的实体提出来，作为自定义字典，加入jieba中，然后再入停用词，再分词，最后训练词向量。效果还不知如何，后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def ...

分类：其他好文时间：2020-07-16 10:16:54 阅读次数：68

XGBoost文本多分类记录

1.数据预处理 xgb 训练的数据是 DataFream 不能是List 读取数据利用pandas 读取数据,这里读取的是excel数据 data = pd.read_excel(filename, sheet_name='tabelname') 分词处理利用jieba分词搞定 seg1 = j ...

分类：其他好文时间：2020-07-08 23:05:15 阅读次数：64

Python常用功能函数系列总结（二）

常用函数二：文本分词方式一：jieba分词+停用词+自定义词典 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description: 文本分词输入停用词文件路径词典文件路径分词文件路径表名（可选 ...

分类：编程语言时间：2020-07-05 21:25:01 阅读次数：46

共462条上一页 1 2 3 4 ... 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)