码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
jieba库
一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析。 ...
分类:其他好文   时间:2019-04-03 23:58:43    阅读次数:292
jieba库的使用
jieba库的使用: jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余 ...
分类:其他好文   时间:2019-04-03 16:44:35    阅读次数:315
jieba库使用和好玩的词云
jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是 ...
分类:其他好文   时间:2019-04-02 22:43:09    阅读次数:240
网络资源精粹
豆瓣读书爬虫 https://github.com/lanbing510/DouBanSpider 每个程序员书柜必有的编程书籍 https://infoq.cn/article/each programmer must have programming books bookcase 文本分析了40 ...
分类:其他好文   时间:2019-03-18 01:18:49    阅读次数:185
shell工具-awk
awk 一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。 基本用法 选项参数说明 案例实操 数据准备 搜索passwd文件以root关键字开头的所有行,并输出该行的第7列 搜索passwd文件以root关键字开头的所有行,并输出该行的第1和7列,中间 ...
分类:系统相关   时间:2019-02-23 10:47:13    阅读次数:235
python 数据分析 文章集锦
文本分析: re&jieba模块 使用 正则表达式 和 中文处理模块jieba 原文地址:https://www.cnblogs.com/minutesheep/p/10357209.html ...
分类:编程语言   时间:2019-02-09 18:02:54    阅读次数:204
01 文本分析随记
一、停用词 1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等 2、停用词表百度搜索就有一堆了 二、TF-IDF 前言: 比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...
分类:其他好文   时间:2019-01-19 19:58:53    阅读次数:172
N-grams模型、停顿词(stopwords)和标准化处理 - NLP学习(2)
在上一节《Tokenization - NLP(1)》的学习中,我们主要学习了如何将一串字符串分割成单独的字符,并且形成一个词汇集(vocabulary),之后我们将形成的词汇集合转换成计算机可以处理的数字信息,以方便我们做进一步文本分析。这篇博客的主题还是我们如何将文本转成成更有用的成分,让我们能 ...
分类:其他好文   时间:2019-01-02 14:59:01    阅读次数:201
深度学习与中文短文本分析总结与梳理
感谢原著,原文出处:https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太 ...
分类:其他好文   时间:2018-12-20 10:30:45    阅读次数:203
贝叶斯_文本分析
一、文本关键词提取 1、过滤掉文本中出现的停用词 停用词:指与文章主题不相干的词,符号等。表现在:1、文本中大量出现;2、与主旨不相关;3、对于分析文本没用处 2、TF-IDF决定关键词 (1)首先进行词频(Term Frequency,TF),IDF,TF-IDF统计 TF-IDF统计方法用于评估 ...
分类:其他好文   时间:2018-12-05 02:04:46    阅读次数:207
342条   上一页 1 ... 5 6 7 8 9 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!