码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
使用正则表达式,取得点击次数,函数抽离
学会使用正则表达式 1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 ...
分类:其他好文   时间:2018-04-10 19:38:24    阅读次数:212
使用正则表达式,取得点击次数,函数抽离
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:其他好文   时间:2018-04-09 23:17:22    阅读次数:206
使用正则表达式,取得点击次数,函数抽离
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 ...
分类:其他好文   时间:2018-04-09 21:14:55    阅读次数:149
使用正则表达式,取得点击次数,函数抽离
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:其他好文   时间:2018-04-09 18:54:04    阅读次数:128
WCPro
https://github.com/YYCZ/WCPro 基础任务: 在WCPro的实现过程中,我负责核心模块即词频统计及排序功能的编写。具体可以划分为一下几个任务: 1)分词:从文本中提取出符合要求的单词,相比WordCount里的分词而言,此处尤其需要注意对连词符-的处理。 2)统计词频:要统 ...
分类:其他好文   时间:2018-04-08 13:16:07    阅读次数:115
scws中文分词安装和使用
一、下载源码 二、执行配置脚本和编译 具体选项参数执行 ./configure --help 查看。常用选项为:--prefix=指定安装目录 检查是否安装成功 三、下载通用词典 四、编译PHP扩展 更新PHP扩展需要autoconf、automake及phpize工具,如果没有的话需要新安装。 在 ...
分类:其他好文   时间:2018-04-07 18:54:44    阅读次数:187
中文分词
算法 正向最大匹配法; 基于最大概率分词方法 数据结构 在本次实验中最重要的事情就是建立合理的字典的索引结构,使得查询的速度、存储的空间需求达到较好的性能。 通过观察字典内容可知,存在多个词语有相同前缀的情况,而且数目是比较多的。如果按照直观的思想,直接将所有的词语保存在一个数据组中以供检索时候使用 ...
分类:其他好文   时间:2018-04-07 12:50:30    阅读次数:196
NLP入门资料
《统计自然语言处理》 一些基础理论概念,涉及统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘 ...
分类:其他好文   时间:2018-04-06 19:33:58    阅读次数:150
spark集群环境下使用hanlp进行中文分词
1、将下载的hanlp-portable-1.6.2.jar复制到集群spark/jar文件夹下面 2、启动spark集群 spark/bin/spark-shell --executor-memory 6g --driver-memory 1g --executor-cores 2 --num-e ...
分类:其他好文   时间:2018-04-06 12:31:07    阅读次数:161
中文分词工具jieba的使用
中文分词工具jieba的使用 1.进入到安装了全文检索工具包的虚拟环境中 /home/python/.virtualenvs/py3_django/lib/python3.5/site-packages/ 进入到haystack/backends/中 2.创建ChineseAnalyzer.py文件 ...
分类:其他好文   时间:2018-04-03 23:56:32    阅读次数:206
2158条   上一页 1 ... 81 82 83 84 85 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!