码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
jieba分词
1.在github上对于jieba的介绍是非常全的,以后一定养成一个看官网的习惯!!学英语啊,学英语 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统,虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富, ...
分类:其他好文   时间:2020-06-25 23:03:03    阅读次数:59
中文分词(概况)
中文词法分析 中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示 中文词法分析难点 重叠词,离合词,词缀 中文词语的切分歧义 中文未定义词 词性标注 解决方法: 基于词典的机械切分算法 基于规则的切分算法 基于统计的切分算法 对于未登录词的处理。未登 ...
分类:其他好文   时间:2020-06-25 19:54:40    阅读次数:51
词法分析:分词;词性标注;实体识别
词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程 分词;词性标注;实体识别 这一部分是NLP的基础,应该是入门就要了解的内容。 所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。 有个注明分词工 ...
分类:其他好文   时间:2020-06-25 19:24:50    阅读次数:59
第1章 NLP基础
一、NLP的研究任务 机器翻译; 情感分析; 智能问答; 文摘生成; 文本分类:采集各种文章,进行主题分析,从而进行自动分类; 舆论分析; 知识图谱:知识点相互连接而成的语义网络。 二、基本术语 分词; 词性标注:对动词、名词、形容词等进行词性标注。eg:我/r 爱/v 北京/ns 天安门/ns; ...
分类:其他好文   时间:2020-06-23 01:13:11    阅读次数:89
作用域
作用域是什么? 总结:作用域是为了存储变量,并且之后可以方便的找到这些变量而设计的规则,也可以说它是根据名称查找变量的一套规则 编译原理: 分词/词法分析(Tokenizing/Lexing)-> 解析/语法分析(Parsing)-> 代码生成 LHS 和RHS: 总结:如果查找的目的是对变量进行赋 ...
分类:其他好文   时间:2020-06-21 12:05:55    阅读次数:60
django使用全文搜索引擎haystack+jieba分词
一、安装搜索框架、引擎、分词库 pip install whoosh django-haystack jieba 二、配置 注册haystack框架: 配置搜索引擎、索引文件路径、自动更新索引文件: HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'h ...
分类:其他好文   时间:2020-06-18 01:57:29    阅读次数:89
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:其他好文   时间:2020-06-16 13:15:18    阅读次数:60
分词器你真的搞明白了嘛
参考csdn 1.句子分割 text_to_word_sequence keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n', lower=True, sp ...
分类:其他好文   时间:2020-06-15 22:55:49    阅读次数:70
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-06-14 20:23:08    阅读次数:60
【ElasticSearch】 全文搜索(七)
全文搜索介绍 全文搜索两个最重要的方面是: 相关性(Relevance) 它是评价查询与其结果间的相关程度,并根据这种相关程度对结果排名的一种能力,这 种计算方式可以是 TF/IDF 方法、地理位置邻近、模糊相似,或其他的某些算法。 分词(Analysis) 它是将文本块转换为有区别的、规范化的 t ...
分类:其他好文   时间:2020-06-13 13:21:20    阅读次数:86
2158条   上一页 1 ... 7 8 9 10 11 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!