搜索关键字：jieba分词，搜索到108个结果！码迷,mamicode.com！

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

直接上代码： import jieba import pandas as pd import re from collections import Counter if __name__=='__main__': filehandle = open("news.txt", "r",encoding= ...

分类：其他好文时间：2020-02-10 09:43:43 阅读次数：80

SEVEN python环境jieba分词的安装以即热词索引

由于项目需要，使用jieba分词库点击项目，默认设置，选择项目翻译点击右侧 + ，查询jieba ，点击左下角安装还有一个放法（此方法未使用）首先上githup下载jieba分词库然后加压到任意目录打开cmd命令行窗口并切换到jieba目录下运行python setup.py inst ...

分类：编程语言时间：2020-02-07 20:46:34 阅读次数：86

LSTM 句子相似度分析

使用句子中出现单词的Vector加权平均进行文本相似度分析虽然简单，但也有比较明显的缺点：没有考虑词序且词向量区别不明确。如下面两个句子：“北京的首都是中国”与“中国的首都是北京”的相似度为1。“学习容易”和“学习困难”的相似度很容易也非常高。为解决这类问题，需要用其他方法对句子进行表示，LSTM是... ...

分类：其他好文时间：2020-02-04 14:11:31 阅读次数：99

jieba 分词库（python）

安装jieba:pip install jieba 原理：基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法 ...

分类：编程语言时间：2020-02-02 19:34:51 阅读次数：263

NLP之中文分词cppjieba

jieba简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是：在全切分所得的所有结果中求某个切分方案S，使得P(S)最大。 jieba支持三种分词模式：全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧 ...

分类：其他好文时间：2020-02-02 19:31:12 阅读次数：108

用QQ聊天记录生成一个词云

QQ的聊天记录可以通过消息管理器，选中联系人，右键导出为 .txt 格式。由于是中文，需要分词，本文的分词工具采用的是 jieba 分词。不知道这个“福”能不能扫出来。假设你已经导出与某人的聊天记录，接下来需要先过滤再分词生成词云。 1. 过滤掉图片和表情，以及聊天记录的时间和qq名称 newt ...

分类：其他好文时间：2020-01-18 19:16:57 阅读次数：138

Python高级应用程序设计任务要求

一、主题式网络爬虫设计方案（15分） 1.主题式网络爬虫名称主题名称：豆瓣音乐专区的摇滚音乐 2.主题式网络爬虫爬取的内容与数据特征分析爬取豆瓣音乐专区的摇滚音乐歌手、链接及受喜爱的人数 3.主题式网络爬虫设计方案概述（包括实现思路与技术难点）实现思路：爬取获得的豆瓣音乐的HTML页面，使用B ...

分类：编程语言时间：2019-12-21 20:48:23 阅读次数：107

Python高级应用程序设计任务要求

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）一、主题式网络爬虫设计方案（15分） 1.主题式网络爬虫名称爬取虎牙直播英雄联盟播放信息 2.主题式网络爬虫爬取的内容与数据特征分析此次爬虫主要尝试爬取虎牙直播英 ...

分类：编程语言时间：2019-12-21 19:03:22 阅读次数：102

Python高级应用程序设计任务要求

Python高级应用程序设计任务要求用Python实现一个面向主题的网络爬虫程序，并完成以下内容：（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）一、主题式网络爬虫设计方案（15分） 1.主题式网络爬虫名称名称：爬取爱彼迎房源信息（泉州地区） 2.主题式网络爬虫爬取的内容 ...

分类：编程语言时间：2019-12-21 09:54:27 阅读次数：80

2 中文分词工具 jieba 和 HanLP

前言中文分词有很多种，常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装（1）P ...

分类：其他好文时间：2019-12-02 16:51:41 阅读次数：77

共108条上一页 1 2 3 4 5 ... 11 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)