搜索关键字：文本分析，搜索到342个结果！码迷,mamicode.com！

AWK是一种处理文本文件的语言，是一个强大的文本分析工具。Linux环境中自带。 awk调用方法 1. 命令行 2. shell脚本方式 3. awk脚本方式 ` ...

分类：系统相关时间：2019-11-08 20:44:45 阅读次数：98

一.jieba模块基本介绍 jieba是优秀的第三方中文词库中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程二.jieba库的使用说明精确模式：将句子最精确的分开，适合文本分析 ...

分类：其他好文时间：2019-11-01 18:24:16 阅读次数：385

jieba分词基础知识

安装：pip install jieba 导包：import jieba 精确模式：试图将句子最精确地切开，适合文本分析(很像人类一样去分词) jieba.cut(字符串) --> 返回生成器 jieba.lcut(字符串) --> 返回列表全模式：把句子中所有的可以成词的词语都扫描出来，速度非常 ...

分类：其他好文时间：2019-10-29 21:43:28 阅读次数：112

Linux命令总结--awk命令

本文链接：https://blog.csdn.net/jin970505/article/details/79056457 1、AWK简介 1、AWK简介 AWK是一种处理文本文件的语言，是一个强大的文本分析工具。 2、AWK语法 awk [选项参数] 'script' var=value file ...

分类：系统相关时间：2019-09-26 11:54:33 阅读次数：66

机器学习项目实战----新闻分类任务(一)

一、基础知识假设有一份文本数据如下，数据量很大，现在要对整个语料库进行文本分析，category代表新闻种类，theme代表新闻主题，URL代表新闻链接地址，content代表新闻主题内容停用词：在content这一列，在数据量很大的情况，很容易发现某些似乎与新闻本身意义不大的词大量出现，而我们 ...

分类：其他好文时间：2019-09-03 16:30:45 阅读次数：171

使用Python的文本挖掘的特征选择/提取

在文本挖掘与文本分类的有关问题中，文本最初始的数据是将文档表示成向量空间模型的一个矩阵，而这个矩阵所拥有的就是不同的词，常采用特征选择方法。原因是文本的特征一般都是单词(term)，具有语义信息，使用特征选择找出的k维子集，仍然是单词作为特征，保留了语义信息，而特征提取则找k维新空间，将会丧失了语义 ...

分类：编程语言时间：2019-09-01 01:16:49 阅读次数：99

python实例：利用jieba库，分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序

本实例主要用到python的jieba库首先当然是安装pip install jieba 这里比较关键的是如下几个步骤：加载文本，分析文本对数据进行筛选和处理创建列表显示和排序具体脚本如下，每一步都有解析，就不分步解释了毫无疑问，张无忌妥妥的主角参考： https://gitee.co ...

分类：编程语言时间：2019-08-27 22:43:57 阅读次数：165

awk教程

AWK是一种处理文本文件的语言，是一个强大的文本分析工具。之所以叫AWK是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。一、awk的基本用法 print是打印命令，$0表示当前行上面使用 ...

分类：其他好文时间：2019-08-20 01:01:29 阅读次数：156

Lucene介绍与入门使用

Lucene介绍与入门使用 Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Luc ...

分类：Web程序时间：2019-08-07 15:57:51 阅读次数：125

NLP杂点

1.停用词 stop words: 在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词。停用词都是人工输入、或者由一个停用词表导入。 2.jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：支持 3 种分词模式：精确模式，试图将句子最精确地切开，适合文本分析 ...

分类：其他好文时间：2019-07-09 22:34:17 阅读次数：160

共342条上一页 1 ... 3 4 5 6 7 ... 35 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)