码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
python中文语料分词处理,按字或者词cut_sentence
cut_sentence.py import string import jieba import jieba.posseg as psg import logging #关闭jieba日制 jieba.setLogLevel(logging.INFO) jieba.load_userdict(". ...
分类:编程语言   时间:2020-02-20 00:09:48    阅读次数:222
Python将文本内容读取分词并绘制词云图
功能:Python将文本内容读取分词并绘制词云图 import matplotlib import matplotlib.pyplot as plt #数据可视化 import jieba #词语切割 import wordcloud #分词 from wordcloud import WordCl ...
分类:编程语言   时间:2020-02-18 14:55:50    阅读次数:134
TF-IDF原理以及sklearn实现和测试
输入 输入1: 本文章采用“python实现中文文档jieba分词和分词结果写入excel文件”文章中输出的两个关于正面中文评价、负面中文评价的excel表格作为输入。 输入2: 一些文档分词后得到的字符串列表。 输出 输出1:根据输入1,训练得到的逻辑回归模型。 输出2:根据输入2和输出1得到的模 ...
分类:其他好文   时间:2020-02-15 23:31:15    阅读次数:113
[Python]python已经安装了jieba库,Pycharm无法使用的问题
这个问题是Pycharm解释器的问题, 打开file >setting > 在如图所示界面点击add 在弹出的页面中选择python3的安装路径,可以用win10的搜索打开文件位置查看。 选择新路径,点击OK,发现不再报错。 ...
分类:编程语言   时间:2020-02-10 22:15:41    阅读次数:292
08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用jieba分词处理并清洗
直接上代码: import jieba import pandas as pd import re from collections import Counter if __name__=='__main__': filehandle = open("news.txt", "r",encoding= ...
分类:其他好文   时间:2020-02-10 09:43:43    阅读次数:80
[Python]jieba切词 添加字典 去除停用词、单字 python 2020.2.10
源码如下: 1 import jieba 2 import io 3 import re 4 5 #jieba.load_userdict("E:/xinxi2.txt") 6 patton=re.compile(r'..') 7 8 #添加字典 9 def add_dict(): 10 f=ope ...
分类:编程语言   时间:2020-02-10 09:19:17    阅读次数:137
python--词云图
首先需要安装工具 在此页面输入pip install jieba wordcloud matplotlib即可 代码如下: import matplotlib.pyplot as plt import jieba from wordcloud import WordCloud #1.读出歌词 tex ...
分类:编程语言   时间:2020-02-09 22:18:15    阅读次数:102
jieba库应用 python
应用实例: 准备一个txt文件 import jieba txt = open("三国演义.txt","r", encoding = 'gbk',errors='ignore').read() #读取已存好的txt文档 words = jieba.lcut(txt) #进行分词 counts = { ...
分类:编程语言   时间:2020-02-09 16:33:19    阅读次数:84
SEVEN python环境jieba分词的安装 以即热词索引
由于项目需要,使用jieba分词库 点击项目,默认设置,选择项目翻译点击右侧 + , 查询jieba ,点击左下角安装 还有一个放法(此方法未使用) 首先上githup下载jieba分词库 然后加压到任意目录 打开cmd命令行窗口并切换到jieba目录下 运行python setup.py inst ...
分类:编程语言   时间:2020-02-07 20:46:34    阅读次数:86
LSTM 句子相似度分析
使用句子中出现单词的Vector加权平均进行文本相似度分析虽然简单,但也有比较明显的缺点:没有考虑词序且词向量区别不明确。如下面两个句子:“北京的首都是中国”与“中国的首都是北京”的相似度为1。“学习容易”和“学习困难”的相似度很容易也非常高。为解决这类问题,需要用其他方法对句子进行表示,LSTM是... ...
分类:其他好文   时间:2020-02-04 14:11:31    阅读次数:99
462条   上一页 1 ... 7 8 9 10 11 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!