直接上代码: import jieba import pandas as pd import re from collections import Counter if __name__=='__main__': filehandle = open("news.txt", "r",encoding= ...
分类:
其他好文 时间:
2020-02-10 09:43:43
阅读次数:
80
由于项目需要,使用jieba分词库 点击项目,默认设置,选择项目翻译点击右侧 + , 查询jieba ,点击左下角安装 还有一个放法(此方法未使用) 首先上githup下载jieba分词库 然后加压到任意目录 打开cmd命令行窗口并切换到jieba目录下 运行python setup.py inst ...
分类:
编程语言 时间:
2020-02-07 20:46:34
阅读次数:
86
使用句子中出现单词的Vector加权平均进行文本相似度分析虽然简单,但也有比较明显的缺点:没有考虑词序且词向量区别不明确。如下面两个句子:“北京的首都是中国”与“中国的首都是北京”的相似度为1。“学习容易”和“学习困难”的相似度很容易也非常高。为解决这类问题,需要用其他方法对句子进行表示,LSTM是... ...
分类:
其他好文 时间:
2020-02-04 14:11:31
阅读次数:
99
安装jieba:pip install jieba 原理: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 ...
分类:
编程语言 时间:
2020-02-02 19:34:51
阅读次数:
263
jieba简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧 ...
分类:
其他好文 时间:
2020-02-02 19:31:12
阅读次数:
108
QQ的聊天记录可以通过消息管理器,选中联系人,右键导出为 .txt 格式。由于是中文,需要分词,本文的分词工具采用的是 jieba 分词。 不知道这个“福”能不能扫出来。 假设你已经导出与某人的聊天记录,接下来需要先过滤再分词生成词云。 1. 过滤掉图片和表情,以及聊天记录的时间和qq名称 newt ...
分类:
其他好文 时间:
2020-01-18 19:16:57
阅读次数:
138
一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 主题名称:豆瓣音乐专区的摇滚音乐 2.主题式网络爬虫爬取的内容与数据特征分析 爬取豆瓣音乐专区的摇滚音乐歌手、链接及受喜爱的人数 3.主题式网络爬虫设计方案概述(包括实现思路与技术难点) 实现思路:爬取获得的豆瓣音乐的HTML页面,使用B ...
分类:
编程语言 时间:
2019-12-21 20:48:23
阅读次数:
107
用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 爬取虎牙直播英雄联盟播放信息 2.主题式网络爬虫爬取的内容与数据特征分析 此次爬虫主要尝试爬取虎牙直播英 ...
分类:
编程语言 时间:
2019-12-21 19:03:22
阅读次数:
102
Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 名称:爬取爱彼迎房源信息(泉州地区) 2.主题式网络爬虫爬取的内容 ...
分类:
编程语言 时间:
2019-12-21 09:54:27
阅读次数:
80
前言 中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装 (1)P ...
分类:
其他好文 时间:
2019-12-02 16:51:41
阅读次数:
77