机器翻译及相关技术 翻译前准备 清洗(大小写转换 标点符号) 分词(每个单词分开,生成一一对应的列表) 建立词典(根据词频进行统计 单词对应唯一id) Encoder Decoder encoder将输入转化为隐藏状态,再由decoder将隐藏状态输出为翻译后语言。 sequence to sequ ...
分类:
其他好文 时间:
2020-02-19 20:57:50
阅读次数:
62
功能:Python将文本内容读取分词并绘制词云图 import matplotlib import matplotlib.pyplot as plt #数据可视化 import jieba #词语切割 import wordcloud #分词 from wordcloud import WordCl ...
分类:
编程语言 时间:
2020-02-18 14:55:50
阅读次数:
134
一. elasticsearch on windows 1.下载地址: https://www.elastic.co/cn/downloads/elasticsearch 如果浏览器下载文件慢,建议使用迅雷下载,速度很快。下载版本为7.5.2 2. 修改配置文件 下载后解压,找到config\jvm ...
分类:
Web程序 时间:
2020-02-18 12:39:39
阅读次数:
89
输入 输入1: 本文章采用“python实现中文文档jieba分词和分词结果写入excel文件”文章中输出的两个关于正面中文评价、负面中文评价的excel表格作为输入。 输入2: 一些文档分词后得到的字符串列表。 输出 输出1:根据输入1,训练得到的逻辑回归模型。 输出2:根据输入2和输出1得到的模 ...
分类:
其他好文 时间:
2020-02-15 23:31:15
阅读次数:
113
文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 1. 读入文本 可以直接利用open读入文本 2. 分词 对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列 分词的时候很多时候需要一份 ...
分类:
其他好文 时间:
2020-02-14 22:20:24
阅读次数:
95
文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 现有的工具可以很好地进行分词,spaCy和NLTK。 使用示例: ...
分类:
编程语言 时间:
2020-02-14 16:22:18
阅读次数:
81
文本预处理 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 读入文本 import collections import re def read_time_machine(): with open('/home/kesci/inp ...
分类:
其他好文 时间:
2020-02-14 11:01:10
阅读次数:
54
Ansj分词器 导入jar包 ansj_seg-5.1.6.jar nlp-lang-1.7.8.jar maven配置 <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.1 ...
分类:
Web程序 时间:
2020-02-13 19:11:14
阅读次数:
97
新浪微博可以在发言中嵌入“话题”,即将发言中的话题文字写在一对“#”之间,就可以生成话题链接,点击链接可以看到有多少人在跟自己讨论相同或者相似的话题。新浪微博还会随时更新热门话题列表,并将最热门的话题放在醒目的位置推荐大家关注。 本题目要求实现一个简化的热门话题推荐功能,从大量英文(因为中文分词处理 ...
分类:
其他好文 时间:
2020-02-12 14:53:47
阅读次数:
270
直接上代码: import jieba import pandas as pd import re from collections import Counter if __name__=='__main__': filehandle = open("news.txt", "r",encoding= ...
分类:
其他好文 时间:
2020-02-10 09:43:43
阅读次数:
80