目录 NLP基本流程 NLP应用场景 NLP技术流 一、自然语言处理的基本流程 分词 命名实体识别,主要有人名,地名,机构名等 词性标注,对分词后的词语进行语义标注 句法分析,主要是要构建语法树,标注单词,短语,句子的语法 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,... ...
分类:
其他好文 时间:
2020-05-24 23:52:29
阅读次数:
90
地址 https://www.acwing.com/solution/LeetCode/content/13604/ 题目描述 给你一个字符串 sentence 作为句子并指定检索词为 searchWord ,其中句子由若干用 单个空格 分隔的单词组成。 请你检查检索词 searchWord 是否为 ...
分类:
其他好文 时间:
2020-05-24 13:33:30
阅读次数:
73
分析是将文本,如任何电子邮件的正文转换成附加到反向索引的tokens(标记)或terms(条件)的过程。分析由分析器执行,它可以是内置的分析器,也可以是每个索引定义的自定义分析器。 索引时分析 在索引时,内置的english analyzer(英文分析器)将会转换这个句子: "The QUICK b ...
分类:
其他好文 时间:
2020-05-24 00:25:40
阅读次数:
87
Attendee= 参会者 Attendee A:我现在只是属于试用阶段,还没有经过一个比较完整的使用场景的考验,所以现在主要就是说想学习一下,看看别人都是应用到什么样的场景。我们现在实际用的就是一个句子相似性的应用场景,只做了一个很小的测试,没有遇到很明显的问题。之前觉得检索的准确率不是很高,但是 ...
分类:
其他好文 时间:
2020-05-23 13:32:04
阅读次数:
54
1.概述 机器翻译的输入一般是源语言的句子。但在很多实际系统中,比如语音识别系统的输出或者基于拼音的文字输入,源语言句子一般包含很多同音字错误, 这会导致翻译出现很多意想不到的错误。由于可以同时获得发音信息,我们提出了一种在输入端加入发音信息,进而在模型的嵌入层 融合文字信息和发音信息的翻译方法,大 ...
分类:
其他好文 时间:
2020-05-23 00:34:51
阅读次数:
81
回文素数:一种既是回文数又是素数的数字 “回文”是指正读反读都能读通的句子,它是古今中外都有的一种修辞方式和文字游戏,如“我为人人,人人为我”等。在数学中也有这样一类数字有这样的特征,成为回文数 素数指在大于1的自然数中,除了1和它本身以外不再有其他因数的自然数。 1 i = 10 2 HuiWen ...
分类:
编程语言 时间:
2020-05-21 09:49:05
阅读次数:
173
题目 把手放在键盘上时,稍不注意就会往右错一位。这样,输入Q会变成输入W, 输入J会变成输入K等。 输入一个错位后敲出的字符串(所有字母均大写),输出打字员本来想打出的句子。 输入保证合法,即一定是错位之后的字符串。例如输入中不会出现大写字母A。 样例输入: O S, GOME YPFSU/ 样例输 ...
分类:
其他好文 时间:
2020-05-19 22:32:09
阅读次数:
63
题目描述: 提交: class Solution: def arrangeWords(self, text: str) -> str: text = text.lower().split(" ") text.sort(key = lambda x:len(x)) text[0] = text[0][ ...
分类:
其他好文 时间:
2020-05-19 20:15:59
阅读次数:
62
词干(word stem)表示每个单词的主体部分。词干提取(stemming)就是提取词干的过程,通常是删除常见的后缀来实现。 词形还原(lemmatization)考虑了单词在句子中的作用,单词的标准化形式为词元(lemma)。 词干提取和词形还原这两种处理方法都是标准化(normalizatio ...
分类:
其他好文 时间:
2020-05-19 01:11:38
阅读次数:
53
https://leetcode-cn.com/problems/rearrange-words-in-a-sentence/ 非常简单的题目,首先先将字符串按照空格进行分割,然后将第一个字符串的首字母转成小写。 然后对字符串数组进行排序,按照字符串的长度进行排序,因为题目要求要保持原有的顺序,所以 ...
分类:
其他好文 时间:
2020-05-18 14:27:19
阅读次数:
40