码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
Linux 之 awk文本分析工具
AWK是一种处理文本文件的语言,是一个强大的文本分析工具。Linux环境中自带。 awk调用方法 1. 命令行 2. shell脚本方式 3. awk脚本方式 ` ...
分类:系统相关   时间:2019-11-08 20:44:45    阅读次数:98
jieba模块基本介绍
一.jieba模块基本介绍 jieba是优秀的第三方中文词库 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 二.jieba库的使用说明 精确模式:将句子最精确的分开,适合文本分析 ...
分类:其他好文   时间:2019-11-01 18:24:16    阅读次数:385
jieba分词基础知识
安装:pip install jieba 导包:import jieba 精确模式:试图将句子最精确地切开,适合文本分析(很像人类一样去分词) jieba.cut(字符串) --> 返回生成器 jieba.lcut(字符串) --> 返回列表 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常 ...
分类:其他好文   时间:2019-10-29 21:43:28    阅读次数:112
Linux命令总结--awk命令
本文链接:https://blog.csdn.net/jin970505/article/details/79056457 1、AWK简介 1、AWK简介 AWK是一种处理文本文件的语言,是一个强大的文本分析工具。 2、AWK语法 awk [选项参数] 'script' var=value file ...
分类:系统相关   时间:2019-09-26 11:54:33    阅读次数:66
机器学习项目实战----新闻分类任务(一)
一、基础知识 假设有一份文本数据如下,数据量很大,现在要对整个语料库进行文本分析,category代表新闻种类,theme代表新闻主题,URL代表新闻链接地址,content代表新闻主题内容 停用词:在content这一列,在数据量很大的情况,很容易发现某些似乎与新闻本身意义不大的词大量出现,而我们 ...
分类:其他好文   时间:2019-09-03 16:30:45    阅读次数:171
使用Python的文本挖掘的特征选择/提取
在文本挖掘与文本分类的有关问题中,文本最初始的数据是将文档表示成向量空间模型的一个矩阵,而这个矩阵所拥有的就是不同的词,常采用特征选择方法。原因是文本的特征一般都是单词(term),具有语义信息,使用特征选择找出的k维子集,仍然是单词作为特征,保留了语义信息,而特征提取则找k维新空间,将会丧失了语义 ...
分类:编程语言   时间:2019-09-01 01:16:49    阅读次数:99
python实例:利用jieba库,分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序
本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 对数据进行筛选和处理 创建列表显示和排序 具体脚本如下,每一步都有解析,就不分步解释了 毫无疑问,张无忌妥妥的主角 参考: https://gitee.co ...
分类:编程语言   时间:2019-08-27 22:43:57    阅读次数:165
awk教程
AWK是一种处理文本文件的语言,是一个强大的文本分析工具。 之所以叫AWK是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。 一、awk的基本用法 print是打印命令,$0表示当前行 上面使用 ...
分类:其他好文   时间:2019-08-20 01:01:29    阅读次数:156
Lucene介绍与入门使用
Lucene介绍与入门使用 Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Luc ...
分类:Web程序   时间:2019-08-07 15:57:51    阅读次数:125
NLP杂点
1.停用词 stop words: 在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。 停用词都是人工输入、或者由一个停用词表导入。 2.jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性: 支持 3 种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析 ...
分类:其他好文   时间:2019-07-09 22:34:17    阅读次数:160
342条   上一页 1 ... 3 4 5 6 7 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!