实验描述: 本实验的目的是将词向量聚类并有效的表示。将要表示的词是从一个大规模语料中人工抽取出来的,部分所表示的词的示例如下: 家居: 卫生间 灯饰 风格 颇具匠心 设计师 沙发 避风港 枕头 流连忘返 奢华 房产: 朝阳区 物业 房地产 区域 市场 别墅 廉租房 经适房 拆迁 华润置地 步骤1: ...
分类:
其他好文 时间:
2020-07-05 21:03:40
阅读次数:
55
jieba库的作用就是对中文文章进行分词,提取中文文章中的词语 cut(字符串, cut_all,HMM) 字符串是要进行分词的字符串对象 cut_all参数为真表示采用全模式分词,为假表示采用精确模式分词,默认值为假; HMM为真表示采用HMM模型,为假则不采用,默认值为真。 精确模式jieba. ...
分类:
其他好文 时间:
2020-07-05 19:09:42
阅读次数:
128
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
其他好文 时间:
2020-07-04 01:18:52
阅读次数:
87
from wordcloud import WordCloud import matplotlib.pyplot as plt import jieba import numpy as np from PIL import Image # 生成词云 def create_word_cloud(fil ...
分类:
其他好文 时间:
2020-06-29 19:58:44
阅读次数:
62
TF-IDF的定义及计算 最近在做一些NLP的研究,由于也是第一次做这个东西,其实还是发现很多有意思的东西。 相信很多做过NLP的人都应该接触过提取关键词的这个功能。现在有很多可以使用的第三方工具包可以很容易的来实现这个功能,比如snowNLP,jieba等,但是我们还是要做到知其然,知其所以然,所 ...
分类:
其他好文 时间:
2020-06-28 09:13:35
阅读次数:
129
1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 ...
分类:
编程语言 时间:
2020-06-27 20:32:04
阅读次数:
125
1. 实验环境配置 安装IDE :VS Code;安装Python,安装 jieba,hanLP等NLP工具。 简单的程序练习,不需要特别熟练,能在指导下完成操作即可。 做最简单中文分词程序测试环境。 2. 文本可视化:词云、关系图、热力图等 制作词云,进一步了解分词和词频。 https://blo ...
分类:
其他好文 时间:
2020-06-27 00:10:11
阅读次数:
88
1.在github上对于jieba的介绍是非常全的,以后一定养成一个看官网的习惯!!学英语啊,学英语 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统,虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富, ...
分类:
其他好文 时间:
2020-06-25 23:03:03
阅读次数:
59
一、安装搜索框架、引擎、分词库 pip install whoosh django-haystack jieba 二、配置 注册haystack框架: 配置搜索引擎、索引文件路径、自动更新索引文件: HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'h ...
分类:
其他好文 时间:
2020-06-18 01:57:29
阅读次数:
89
pip install jiebaimport jiebastring = "很不错的草莓"for i in jieba.cut(string, cut_all=True): print(i)for i in jieba.cut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电 ...
分类:
其他好文 时间:
2020-06-11 10:45:23
阅读次数:
62