搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

jieba分词

1.在github上对于jieba的介绍是非常全的，以后一定养成一个看官网的习惯！！学英语啊，学英语中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富， ...

分类：其他好文时间：2020-06-25 23:03:03 阅读次数：59

中文分词（概况）

中文词法分析中文属于分析型语言，词基本上没有专门表示语法意义的附加成分,形态变化很少，语法关系靠词序和虚词来表示中文词法分析难点重叠词，离合词，词缀中文词语的切分歧义中文未定义词词性标注解决方法：基于词典的机械切分算法基于规则的切分算法基于统计的切分算法对于未登录词的处理。未登 ...

分类：其他好文时间：2020-06-25 19:54:40 阅读次数：51

词法分析：分词；词性标注；实体识别

词法分析（lexical analysis）：将字符序列转换为单词（Token）序列的过程分词；词性标注；实体识别这一部分是NLP的基础，应该是入门就要了解的内容。所谓分词，就是断句，把一条句子断开；要求断的比较碎，每个词都断开；要断的正确，也就是每个词都是有意义的，符合逻辑。有个注明分词工 ...

分类：其他好文时间：2020-06-25 19:24:50 阅读次数：59

第1章 NLP基础

一、NLP的研究任务机器翻译；情感分析；智能问答；文摘生成；文本分类：采集各种文章，进行主题分析，从而进行自动分类；舆论分析；知识图谱：知识点相互连接而成的语义网络。二、基本术语分词；词性标注：对动词、名词、形容词等进行词性标注。eg：我/r 爱/v 北京/ns 天安门/ns； ...

分类：其他好文时间：2020-06-23 01:13:11 阅读次数：89

作用域

作用域是什么？总结：作用域是为了存储变量，并且之后可以方便的找到这些变量而设计的规则，也可以说它是根据名称查找变量的一套规则编译原理：分词/词法分析（Tokenizing/Lexing）-> 解析/语法分析（Parsing）-> 代码生成 LHS 和RHS: 总结：如果查找的目的是对变量进行赋 ...

分类：其他好文时间：2020-06-21 12:05:55 阅读次数：60

django使用全文搜索引擎haystack+jieba分词

一、安装搜索框架、引擎、分词库 pip install whoosh django-haystack jieba 二、配置注册haystack框架：配置搜索引擎、索引文件路径、自动更新索引文件： HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'h ...

分类：其他好文时间：2020-06-18 01:57:29 阅读次数：89

12.朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句名子分词去掉过短的单词词性还原连接成字符串传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...

分类：其他好文时间：2020-06-16 13:15:18 阅读次数：60

分词器你真的搞明白了嘛

参考csdn 1.句子分割 text_to_word_sequence keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n', lower=True, sp ...

分类：其他好文时间：2020-06-15 22:55:49 阅读次数：70

12.朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句句子分词大小写，标点符号，去掉过短的单词词性还原：复数、时态、比较级连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...

分类：其他好文时间：2020-06-14 20:23:08 阅读次数：60

【ElasticSearch】全文搜索（七）

全文搜索介绍全文搜索两个最重要的方面是: 相关性(Relevance) 它是评价查询与其结果间的相关程度，并根据这种相关程度对结果排名的一种能力，这种计算方式可以是 TF/IDF 方法、地理位置邻近、模糊相似，或其他的某些算法。分词(Analysis) 它是将文本块转换为有区别的、规范化的 t ...

分类：其他好文时间：2020-06-13 13:21:20 阅读次数：86

共2158条上一页 1 ... 7 8 9 10 11 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)