三种分词模式与一个参数 以下代码主要来自于jieba的github,你可以在github下载该源码 关键词提取 运行结果如图所示,但是同样的我们也发现了一些问题,比如: 问题一: 分词错误,在运行结果中中”路明非”(龙族男主)被分成了”路明”和”明非”啷个中文词语,这是因为jieba的词库中并不含有 ...
分类:
编程语言 时间:
2018-04-14 20:44:09
阅读次数:
529
这里要分享的HanLP是我在学习使用大快DKhadoop大数据一体化平台时使用到的自然语言处理技术,使用这个组建可以很高效的进行自然语言的处理工作,比如进行文章摘要,语义判别以及提高内容检索的精确度和有效性等。
本想找个通俗的案例来介绍一下HanLP,一时间也没想到什么好的案例,索性就从HanLp数据结构HE 分词简单介绍下吧。
分类:
编程语言 时间:
2018-04-12 16:13:29
阅读次数:
210
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码 3用正则表达式进行英文分词 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getClickCount(newsUrl): 8. ...
分类:
其他好文 时间:
2018-04-12 11:39:57
阅读次数:
175
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:
其他好文 时间:
2018-04-12 00:19:09
阅读次数:
150
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码 3用正则表达式进行英文分词 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getClickCount(newsUrl): 8. ...
分类:
其他好文 时间:
2018-04-12 00:11:45
阅读次数:
171
代码已发至github上的python文件 词频统计结果如下(词频为1的词组数量已省略): {'是': 5, '风格': 4, '擅长': 4, '的': 4, '兴趣': 4, '宣言': 4, '有': 3, 'python': 3, '代码': 2, '员': 2, 'helloworld': ...
分类:
其他好文 时间:
2018-04-11 23:04:15
阅读次数:
222
具体项目在githut里面: 应用jieba库分词 1)利用jieba分词来统计词频: 对应文本为我们队伍的介绍:jianjie.txt: 项目名称:碎片 项目描述:制作一个网站,拾起日常碎片,记录生活点滴! 项目成员:孔潭活、何德新、吴淑瑶、苏咏梅 成员风采: 孔潭活:2015034643032 ...
分类:
其他好文 时间:
2018-04-11 23:03:00
阅读次数:
312
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:
其他好文 时间:
2018-04-11 23:02:33
阅读次数:
206
1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 ...
分类:
其他好文 时间:
2018-04-11 23:00:19
阅读次数:
184
1.取出一个新闻列表页的全部新闻 包装成函数。2.获取总的新闻篇数,算出新闻总页数。3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 ...
分类:
其他好文 时间:
2018-04-11 22:18:46
阅读次数:
200