码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
大数据的十大来源及其应用价值
当你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,这种体验是不是很棒?如果×××老板把发牌人忘记付给你的20美元亲自送还给你,你的心里是不是有点儿小激动?如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这世界会不会变得很美妙?你是不是要下调汽车保险费率?大数据能让这一切变成现实。网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。除此之外,还
分类:其他好文   时间:2018-10-10 19:14:30    阅读次数:210
003-文本分析
停用词 1.语料中大量出现 2.没啥大用 3.留着过年嘛? Tf-idf:关键词提取 《中国的蜜蜂养殖》: 进行词频(Term Frequency,缩写为TF)统计 出现次数最多的词是 “的”、“是”、“在” 这一类最常用的词(停用词) “中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,重要性是 ...
分类:其他好文   时间:2018-10-05 12:28:26    阅读次数:150
awk
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk ...
分类:其他好文   时间:2018-09-16 12:23:30    阅读次数:177
Python 模块 - jieba
安装 jieba jieba 支持三种分词模式: 精确模式:将句子最精确地切开,适合文本分析 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词 jieba.cut 方法有三个参数,第一个 ...
分类:编程语言   时间:2018-09-09 00:45:24    阅读次数:207
结巴分词详细讲解
特点 支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 精确模式,试图将句子最精确地切开,适合文本分析; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 支持三种 ...
分类:其他好文   时间:2018-09-06 18:13:24    阅读次数:1490
linux
grep 查找 过滤 正则匹配 awk 分析 文本分析工具 sed 编辑 面向字节流的非交互式文本编辑器 ps -ef | grep python 查看进程 ps aux | grep python 查看进程 netstat -tunlp | grep 80 查看占用80端口的程序 lsof -i ...
分类:系统相关   时间:2018-09-03 13:42:00    阅读次数:160
Linux awk 命令
AWK是一种处理文本文件的语言,是一个强大的文本分析工具。 之所以叫AWK是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的Family Name的首字符。 语法 选项参数说明: -F fs or --field-separato ...
分类:系统相关   时间:2018-08-30 20:10:46    阅读次数:213
十分钟学习自然语言处理概述
1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方 ...
分类:编程语言   时间:2018-08-30 16:51:47    阅读次数:276
python就业班shell运维习题训练
注:初学shell,以下为本人自己写的答案,如果有更好的,请指教! 1. 求2个数之和: 2. 计算1-100的和 3. 将一目录下所有的文件的扩展名改为bak 4.编译并执行当前目录下的所有.c文件 5.打印本机的交换分区大小,处理结果: Swap:1024M 6. 文本分析,取出/etc/pas ...
分类:编程语言   时间:2018-08-24 21:20:16    阅读次数:347
awk编程
2017年1月10日, 星期二awk编程awk: awk是一个强大的文本分析工具, 相对于grep的查找,sed的编辑, awk在其对数据分析并生成报告时,显得尤为强大。 简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk '{pattern +... ...
分类:其他好文   时间:2018-08-23 02:05:56    阅读次数:183
342条   上一页 1 ... 6 7 8 9 10 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!