学会使用正则表达式 1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 ...
分类:
其他好文 时间:
2018-04-10 19:38:24
阅读次数:
212
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:
其他好文 时间:
2018-04-09 23:17:22
阅读次数:
206
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 ...
分类:
其他好文 时间:
2018-04-09 21:14:55
阅读次数:
149
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:
其他好文 时间:
2018-04-09 18:54:04
阅读次数:
128
https://github.com/YYCZ/WCPro 基础任务: 在WCPro的实现过程中,我负责核心模块即词频统计及排序功能的编写。具体可以划分为一下几个任务: 1)分词:从文本中提取出符合要求的单词,相比WordCount里的分词而言,此处尤其需要注意对连词符-的处理。 2)统计词频:要统 ...
分类:
其他好文 时间:
2018-04-08 13:16:07
阅读次数:
115
一、下载源码 二、执行配置脚本和编译 具体选项参数执行 ./configure --help 查看。常用选项为:--prefix=指定安装目录 检查是否安装成功 三、下载通用词典 四、编译PHP扩展 更新PHP扩展需要autoconf、automake及phpize工具,如果没有的话需要新安装。 在 ...
分类:
其他好文 时间:
2018-04-07 18:54:44
阅读次数:
187
算法 正向最大匹配法; 基于最大概率分词方法 数据结构 在本次实验中最重要的事情就是建立合理的字典的索引结构,使得查询的速度、存储的空间需求达到较好的性能。 通过观察字典内容可知,存在多个词语有相同前缀的情况,而且数目是比较多的。如果按照直观的思想,直接将所有的词语保存在一个数据组中以供检索时候使用 ...
分类:
其他好文 时间:
2018-04-07 12:50:30
阅读次数:
196
《统计自然语言处理》 一些基础理论概念,涉及统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘 ...
分类:
其他好文 时间:
2018-04-06 19:33:58
阅读次数:
150
1、将下载的hanlp-portable-1.6.2.jar复制到集群spark/jar文件夹下面 2、启动spark集群 spark/bin/spark-shell --executor-memory 6g --driver-memory 1g --executor-cores 2 --num-e ...
分类:
其他好文 时间:
2018-04-06 12:31:07
阅读次数:
161
中文分词工具jieba的使用 1.进入到安装了全文检索工具包的虚拟环境中 /home/python/.virtualenvs/py3_django/lib/python3.5/site-packages/ 进入到haystack/backends/中 2.创建ChineseAnalyzer.py文件 ...
分类:
其他好文 时间:
2018-04-03 23:56:32
阅读次数:
206