一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析。 ...
分类:
其他好文 时间:
2019-04-03 23:58:43
阅读次数:
292
jieba库的使用: jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余 ...
分类:
其他好文 时间:
2019-04-03 16:44:35
阅读次数:
315
jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是 ...
分类:
其他好文 时间:
2019-04-02 22:43:09
阅读次数:
240
豆瓣读书爬虫 https://github.com/lanbing510/DouBanSpider 每个程序员书柜必有的编程书籍 https://infoq.cn/article/each programmer must have programming books bookcase 文本分析了40 ...
分类:
其他好文 时间:
2019-03-18 01:18:49
阅读次数:
185
awk 一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。 基本用法 选项参数说明 案例实操 数据准备 搜索passwd文件以root关键字开头的所有行,并输出该行的第7列 搜索passwd文件以root关键字开头的所有行,并输出该行的第1和7列,中间 ...
分类:
系统相关 时间:
2019-02-23 10:47:13
阅读次数:
235
文本分析: re&jieba模块 使用 正则表达式 和 中文处理模块jieba 原文地址:https://www.cnblogs.com/minutesheep/p/10357209.html ...
分类:
编程语言 时间:
2019-02-09 18:02:54
阅读次数:
204
一、停用词 1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等 2、停用词表百度搜索就有一堆了 二、TF-IDF 前言: 比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...
分类:
其他好文 时间:
2019-01-19 19:58:53
阅读次数:
172
在上一节《Tokenization - NLP(1)》的学习中,我们主要学习了如何将一串字符串分割成单独的字符,并且形成一个词汇集(vocabulary),之后我们将形成的词汇集合转换成计算机可以处理的数字信息,以方便我们做进一步文本分析。这篇博客的主题还是我们如何将文本转成成更有用的成分,让我们能 ...
分类:
其他好文 时间:
2019-01-02 14:59:01
阅读次数:
201
感谢原著,原文出处:https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太 ...
分类:
其他好文 时间:
2018-12-20 10:30:45
阅读次数:
203
一、文本关键词提取 1、过滤掉文本中出现的停用词 停用词:指与文章主题不相干的词,符号等。表现在:1、文本中大量出现;2、与主旨不相关;3、对于分析文本没用处 2、TF-IDF决定关键词 (1)首先进行词频(Term Frequency,TF),IDF,TF-IDF统计 TF-IDF统计方法用于评估 ...
分类:
其他好文 时间:
2018-12-05 02:04:46
阅读次数:
207