搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

Task 04 打卡

机器翻译及相关技术翻译前准备清洗（大小写转换标点符号）分词（每个单词分开，生成一一对应的列表）建立词典（根据词频进行统计单词对应唯一id） Encoder Decoder encoder将输入转化为隐藏状态，再由decoder将隐藏状态输出为翻译后语言。 sequence to sequ ...

分类：其他好文时间：2020-02-19 20:57:50 阅读次数：62

Python将文本内容读取分词并绘制词云图

功能：Python将文本内容读取分词并绘制词云图 import matplotlib import matplotlib.pyplot as plt #数据可视化 import jieba #词语切割 import wordcloud #分词 from wordcloud import WordCl ...

分类：编程语言时间：2020-02-18 14:55:50 阅读次数：134

asp.net core系列 75 Elasticsearch与中文分词配置

一. elasticsearch on windows 1.下载地址： https://www.elastic.co/cn/downloads/elasticsearch 如果浏览器下载文件慢，建议使用迅雷下载，速度很快。下载版本为7.5.2 2. 修改配置文件下载后解压，找到config\jvm ...

分类：Web程序时间：2020-02-18 12:39:39 阅读次数：89

TF-IDF原理以及sklearn实现和测试

输入输入1：本文章采用“python实现中文文档jieba分词和分词结果写入excel文件”文章中输出的两个关于正面中文评价、负面中文评价的excel表格作为输入。输入2：一些文档分词后得到的字符串列表。输出输出1：根据输入1，训练得到的逻辑回归模型。输出2：根据输入2和输出1得到的模 ...

分类：其他好文时间：2020-02-15 23:31:15 阅读次数：113

文本预处理

文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤： 1. 读入文本可以直接利用open读入文本 2. 分词对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列分词的时候很多时候需要一份 ...

分类：其他好文时间：2020-02-14 22:20:24 阅读次数：95

自然语言处理：文本预处理、语言模型、RNN

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型现有的工具可以很好地进行分词，spaCy和NLTK。使用示例： ...

分类：编程语言时间：2020-02-14 16:22:18 阅读次数：81

机器学习（ML）四之文本预处理

文本预处理读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型读入文本 import collections import re def read_time_machine(): with open('/home/kesci/inp ...

分类：其他好文时间：2020-02-14 11:01:10 阅读次数：54

Lucene:Ansj分词器

Ansj分词器导入jar包 ansj_seg-5.1.6.jar nlp-lang-1.7.8.jar maven配置 <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.1 ...

分类：Web程序时间：2020-02-13 19:11:14 阅读次数：97

7-46 新浪微博热门话题 (30分)

新浪微博可以在发言中嵌入“话题”，即将发言中的话题文字写在一对“#”之间，就可以生成话题链接，点击链接可以看到有多少人在跟自己讨论相同或者相似的话题。新浪微博还会随时更新热门话题列表，并将最热门的话题放在醒目的位置推荐大家关注。本题目要求实现一个简化的热门话题推荐功能，从大量英文（因为中文分词处理 ...

分类：其他好文时间：2020-02-12 14:53:47 阅读次数：270

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

直接上代码： import jieba import pandas as pd import re from collections import Counter if __name__=='__main__': filehandle = open("news.txt", "r",encoding= ...

分类：其他好文时间：2020-02-10 09:43:43 阅读次数：80

共2158条上一页 1 ... 19 20 21 22 23 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)