搜索关键字：文本分析，搜索到342个结果！码迷,mamicode.com！

jieba库

一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式：精确模式：将句子最精确地切开，适合文本分析。 ...

分类：其他好文时间：2019-04-03 23:58:43 阅读次数：292

jieba库的使用

jieba库的使用: jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是存在冗余 ...

分类：其他好文时间：2019-04-03 16:44:35 阅读次数：315

jieba库使用和好玩的词云

jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是 ...

分类：其他好文时间：2019-04-02 22:43:09 阅读次数：240

网络资源精粹

豆瓣读书爬虫 https://github.com/lanbing510/DouBanSpider 每个程序员书柜必有的编程书籍 https://infoq.cn/article/each programmer must have programming books bookcase 文本分析了40 ...

分类：其他好文时间：2019-03-18 01:18:49 阅读次数：185

shell工具-awk

awk 一个强大的文本分析工具，把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行分析处理。基本用法选项参数说明案例实操数据准备搜索passwd文件以root关键字开头的所有行，并输出该行的第7列搜索passwd文件以root关键字开头的所有行，并输出该行的第1和7列,中间 ...

分类：系统相关时间：2019-02-23 10:47:13 阅读次数：235

python 数据分析文章集锦

文本分析： re&jieba模块使用正则表达式和中文处理模块jieba 原文地址：https://www.cnblogs.com/minutesheep/p/10357209.html ...

分类：编程语言时间：2019-02-09 18:02:54 阅读次数：204

01 文本分析随记

一、停用词 1、含义：在语料中大量出现，但对我们分析没什么用的词，但对分析有干扰作用，需要剔除后再计算词频；比如：标点符号，量词等 2、停用词表百度搜索就有一堆了二、TF-IDF 前言：比如对《中国的蜜蜂养殖》进行词频统计，去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...

分类：其他好文时间：2019-01-19 19:58:53 阅读次数：172

N-grams模型、停顿词（stopwords）和标准化处理 - NLP学习（2）

在上一节《Tokenization - NLP（1）》的学习中，我们主要学习了如何将一串字符串分割成单独的字符，并且形成一个词汇集（vocabulary），之后我们将形成的词汇集合转换成计算机可以处理的数字信息，以方便我们做进一步文本分析。这篇博客的主题还是我们如何将文本转成成更有用的成分，让我们能 ...

分类：其他好文时间：2019-01-02 14:59:01 阅读次数：201

深度学习与中文短文本分析总结与梳理

感谢原著，原文出处：https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论过去几年，深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理，以及中文自然语言处理上，似乎没有太 ...

分类：其他好文时间：2018-12-20 10:30:45 阅读次数：203

贝叶斯_文本分析

一、文本关键词提取 1、过滤掉文本中出现的停用词停用词：指与文章主题不相干的词，符号等。表现在：1、文本中大量出现；2、与主旨不相关；3、对于分析文本没用处 2、TF-IDF决定关键词 (1)首先进行词频（Term Frequency，TF），IDF，TF-IDF统计 TF-IDF统计方法用于评估 ...

分类：其他好文时间：2018-12-05 02:04:46 阅读次数：207

共342条上一页 1 ... 5 6 7 8 9 ... 35 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)