1.在github上对于jieba的介绍是非常全的,以后一定养成一个看官网的习惯!!学英语啊,学英语 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统,虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富, ...
分类:
其他好文 时间:
2020-06-25 23:03:03
阅读次数:
59
中文词法分析 中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示 中文词法分析难点 重叠词,离合词,词缀 中文词语的切分歧义 中文未定义词 词性标注 解决方法: 基于词典的机械切分算法 基于规则的切分算法 基于统计的切分算法 对于未登录词的处理。未登 ...
分类:
其他好文 时间:
2020-06-25 19:54:40
阅读次数:
51
词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程 分词;词性标注;实体识别 这一部分是NLP的基础,应该是入门就要了解的内容。 所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。 有个注明分词工 ...
分类:
其他好文 时间:
2020-06-25 19:24:50
阅读次数:
59
一、NLP的研究任务 机器翻译; 情感分析; 智能问答; 文摘生成; 文本分类:采集各种文章,进行主题分析,从而进行自动分类; 舆论分析; 知识图谱:知识点相互连接而成的语义网络。 二、基本术语 分词; 词性标注:对动词、名词、形容词等进行词性标注。eg:我/r 爱/v 北京/ns 天安门/ns; ...
分类:
其他好文 时间:
2020-06-23 01:13:11
阅读次数:
89
作用域是什么? 总结:作用域是为了存储变量,并且之后可以方便的找到这些变量而设计的规则,也可以说它是根据名称查找变量的一套规则 编译原理: 分词/词法分析(Tokenizing/Lexing)-> 解析/语法分析(Parsing)-> 代码生成 LHS 和RHS: 总结:如果查找的目的是对变量进行赋 ...
分类:
其他好文 时间:
2020-06-21 12:05:55
阅读次数:
60
一、安装搜索框架、引擎、分词库 pip install whoosh django-haystack jieba 二、配置 注册haystack框架: 配置搜索引擎、索引文件路径、自动更新索引文件: HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'h ...
分类:
其他好文 时间:
2020-06-18 01:57:29
阅读次数:
89
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:
其他好文 时间:
2020-06-16 13:15:18
阅读次数:
60
参考csdn 1.句子分割 text_to_word_sequence keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n', lower=True, sp ...
分类:
其他好文 时间:
2020-06-15 22:55:49
阅读次数:
70
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-06-14 20:23:08
阅读次数:
60
全文搜索介绍 全文搜索两个最重要的方面是: 相关性(Relevance) 它是评价查询与其结果间的相关程度,并根据这种相关程度对结果排名的一种能力,这 种计算方式可以是 TF/IDF 方法、地理位置邻近、模糊相似,或其他的某些算法。 分词(Analysis) 它是将文本块转换为有区别的、规范化的 t ...
分类:
其他好文 时间:
2020-06-13 13:21:20
阅读次数:
86