码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
Linux三剑客之awk命令
awk简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk其名称得自于它的创始人AlfredAho、PeterWeinberger和BrianKernighan姓氏的首个字母。实际上AWK的确拥有自己的语言:AWK程序设计语言,三
分类:系统相关   时间:2019-06-24 22:30:14    阅读次数:137
学习NLP《自然语言处理综论第2版》中文PDF+英文PDF+对比分析
对于从事自然语言处理、文本分析的专业人士来说,建议参考学习《自然语言处理综论第2版》。对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容。《自然语言处理综论第2版》覆盖全面,强调实用,注重评测,语料为本。 《自然语言处理综论第二版》在第一版的 ...
分类:编程语言   时间:2019-05-31 01:23:57    阅读次数:2617
Python分词工具——jieba
jieba简介 python在数据挖掘领域的使用越来越广泛。想要使用python做文本分析,分词是必不可少的一个环节在python的第三方包里,jieba应该算得上是分词领域的佼佼者。 GitHub地址:https://github.com/fxsjy/jieba 安装方法 主要算法 基于前缀词典实 ...
分类:编程语言   时间:2019-05-28 14:11:28    阅读次数:457
linux awk命令的使用
ask是一种文本处理工具,一个强大的文本分析工具格式:awk‘/pattern/{command}‘file1file2...#行匹配语句awk‘‘只能用单引号-F指定分隔符-f调用脚本-v定义变量‘‘引用代码块BEGIN在对每一行进行处理之前,初始化代码//匹配代码块,可以是字符串或正则表达式;多条命令使用分号分隔END对每一行进行处理之后再执行的代码块,主要是进
分类:系统相关   时间:2019-05-05 20:45:00    阅读次数:180
awk自学
AWK是一种处理文本文件的语言,是一个强大的文本分析工具。在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息。是个报告工具。、语法:awk‘/pattern/{command}’file1file2..print(输出打印)printf(格式化输出)%c:字符%s:字符串%d:整数%f:小数%10s:宽度10位%-10s:左对齐Record:记录每一行Field:域NR:行
分类:其他好文   时间:2019-05-05 20:38:39    阅读次数:135
Lucene初识
1、概述 1.1 Lucene是apache软件基金会4 jakarta项目组的一个子项目; 是一个开放源代码的全文检索引擎工具包; 但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言); 1.2 Lucene的目的是 ...
分类:Web程序   时间:2019-04-17 22:11:08    阅读次数:183
用Excel做数据分析常用函数(数据清理、关联匹配……)
本文总结在使用Excel进行数据分析时,最常用的功能和函数。 Excel的功能和函数非常多,用进废退,除了学习基本的函数和功能,最重要的是遇到问题可以快速的搜索并解决。 首先Excel可以处理的数据量有大多? 使用Ctrl + → , Ctrl + ↓可以看到下界为104,8576,右界为24(X) ...
分类:其他好文   时间:2019-04-16 01:14:38    阅读次数:148
jieba库
一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析。 ...
分类:其他好文   时间:2019-04-15 00:42:17    阅读次数:248
《基于深度学习的自然语言处理》中文PDF+英文PDF+学习分析
我们做自然语言处理的,主要是进行文本分析,作为人工智能的领域之一,也一定会应用深度神经网络进行处理。 近年来快速发展的深度学习技术为解决自然语言处理问题的解决提供了一种可能的思路,已成为有效推动自然语言处理技术发展的变革力量。 《基于深度学习的自然语言处理》重点介绍了神经网络模型在自然语言处理中的应 ...
分类:编程语言   时间:2019-04-05 00:41:38    阅读次数:391
jieba 库的使用和好玩的词云
jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是 ...
分类:其他好文   时间:2019-04-04 00:03:40    阅读次数:221
342条   上一页 1 ... 4 5 6 7 8 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!