最少切分分词算法 该分词算法依据最少切分原则,从几种分词算法切分结果中取切分词数最少一种的。 比如,从正向最大匹配和逆向最大匹配两者中选择词数较少的方案,当词数相同时,采取某种策略,选择其中一个。 https://blog.csdn.net/cuixianpeng/article/details/4 ...
分类:
编程语言 时间:
2020-07-04 13:07:34
阅读次数:
71
第1章 绪论 1.1 基本概念 1.1.1 语言学与语音学 1.1.2 自然语言处理 1.1.3 关于“理解”的标准 1.2 自然语言处理研究的内容和面临的困难 1.2.1 自然语言处理研究的内容 1.2.2 自然语言处理涉及的几个层次 1.2.3 自然语言处理面临的困难 1.3 自然语言处理的基本 ...
分类:
编程语言 时间:
2020-07-03 12:49:02
阅读次数:
103
Ajax是一种异步JavaScript执行的方式。webpage向后台发出Get或者Post请求,后台返回网页请求,然后再刷新网页部分内容。 举两个例子: 1、有道词典是是翻译: http://fanyi.youdao.com/ 使用GoogleChrome浏览器,按F12,选择Network,XH ...
分类:
Web程序 时间:
2020-07-02 19:56:24
阅读次数:
150
《牛津高阶英汉双解词典(第7版)-带书签》高清pdf下载链接 百度云链接:https://pan.baidu.com/s/1Fp86mWnJQEHNIcgzGmnpww 提取码:xjgu 下载链接2:http://ziliaoshare.cn/Download/pd_NJGJYHSJCD(D7B)- ...
分类:
其他好文 时间:
2020-06-28 09:46:23
阅读次数:
438
Linux最常用150个命令汇总 命令 功能说明 线上查询及帮助命令(2个) man 查看命令帮助,命令的词典,更复杂的还有info,但不常用。 help 查看Linux内置命令的帮助,比如cd命令。 文件和目录操作命令(18个) ls 全拼list,功能是列出目录的内容及其内容属性信息。 cd 全 ...
分类:
系统相关 时间:
2020-06-26 21:51:23
阅读次数:
72
1、SEE:https://elasticsearch.cn/article/32 2、倒排词典的索引需要常驻内存,无法 GC,需要监控 data node 上 segment memory 增长趋势。 3、各类缓存,field cache, filter cache, indexing cache ...
分类:
其他好文 时间:
2020-06-26 10:56:28
阅读次数:
70
中文词法分析 中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示 中文词法分析难点 重叠词,离合词,词缀 中文词语的切分歧义 中文未定义词 词性标注 解决方法: 基于词典的机械切分算法 基于规则的切分算法 基于统计的切分算法 对于未登录词的处理。未登 ...
分类:
其他好文 时间:
2020-06-25 19:54:40
阅读次数:
51
解题思路排序之后就是字典序了,遇到单个字符,加到集合里,多个字符则看最后一个字符之前的字符是否已经在集合里,在的话,加进集合里,不在的话,可以直接不管了,因为已经排序,说明肯定无法一步一步的达到这个字符串,再用两个变量,保存首次遇到的最长长度,最后返回(有点重复代码) class Solution: ...
分类:
其他好文 时间:
2020-06-24 00:45:38
阅读次数:
82
为什么要预处理? 我们知道,大部分NLP任务都是以文本形式输入的,然鹅language is compositional!我们理解文本通常能够把文本拆分成多个构成的部分去理解,那么机器也可以这么做,而预处理就是第一步操作! 常规步骤 1. 去除不需要的格式信息 如HTML 2. 把文本拆分成句子 可 ...
分类:
其他好文 时间:
2020-06-19 01:00:56
阅读次数:
67
关于列表,2,3.。。。到循环以后再写 字典:我们听到最多的就是新华字典,还有什么词典,它们是干嘛的呢,它们里面储存了大量的数据,然后我们去里面查询 那么python中字典其实也有点类似,它也是一种储存数据的容器,英文名dict ,跟列表有很多的相似处,先看看长什么样子 字典和列表有3个地方是一样的 ...
分类:
其他好文 时间:
2020-06-18 12:47:37
阅读次数:
48