搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

杂谈机器学习的几个应用场景

在上一篇文章末尾，小夕提到了“机器学习是实现自然语言处理的正确道路”。其实确实如此，纵观整个自然语言处理的发展史，也是纵观整个人工智能的发展史，从诞生到现在，机器学习不仅是在理论和工程上实现自然语言处理的目前最佳选择，也是最贴近生物掌握自然语言处理能力的本能方式。从规则到统计，再到如今深度学习这个特殊而一般的统计，这条发展之路***在自然语言处理的几乎每一个应用场景。如中文分词，从最初的最大匹配法（

分类：其他好文时间：2020-12-29 11:51:26 阅读次数：0

python-word2vec学习

一、数据预处理 sentence sentences是训练所需材料，可通过两种格式载入：1、文本格式：将每篇文章分词去停用词后，用空格分割，将其存入txt文本中（每一行一篇文章） 2、list嵌套格式将每篇文章分词去停用词后，存入list中。即[ [第一篇文章分词结果] , [第二篇文章分词结果 ...

分类：编程语言时间：2020-12-25 11:47:33 阅读次数：0

elasticsearch 的查询，聚合，统计总结

配置组装适合自己的查询语句利用BoolQueryBuilder（布尔查询组装）：publicclassElasticSearchBuilderQuery{/***构建基本查询-搜索关键字(数据分词。按逗号)*@paramsearchMap*@return*/publicstaticBoolQueryBuilderbuildBasicQuery(PageDatasearchMap){//构建布尔查询

分类：其他好文时间：2020-12-18 13:05:03 阅读次数：2

ElasticSearch 索引 VS MySQL 索引

前言这段时间在维护产品的搜索功能，每次在管理台看到elasticsearch这么高效的查询效率我都很好奇他是如何做到的。这甚至比在我本地使用MySQL通过主键的查询速度还快。为此我搜索了相关资料：这类问题网上很多答案，大概意思呢如下：ES是基于Lucene的全文检索引擎，它会对数据进行分词后保存索引，擅长管理大量的索引数据，相对于MySQL来说不擅长经常更新数据及关联查询。说的不是很透彻，没有解析

分类：数据库时间：2020-12-16 12:50:13 阅读次数：4

ES中的分词器研究

全文搜索引擎会用某种算法对要建索引的文档进行分析，从文档中提取出若干Token(词元)，这些算法称为Tokenizer(分词器)，这些Token会被进一步处理， <br> 比如转成小写等，这些处理算法被称为Token Filter(词元处理器), 被处理后的结果被称为Term(词)，文档中 ...

分类：其他好文时间：2020-12-16 12:35:37 阅读次数：2

Elasticsearch的Mapping配置

本文已经收录至我的GitHub,欢迎大家踊跃star和issues。https://github.com/midou-tech/articles题外话这次本来是准备用filebeat写数据到es，然后下一篇写查询语法和一些查询操作。就在我要写数据的时候，发现不对啊。mapping配置什么的都不知道，只是把数据塞进去了，完全不知道数据怎么结构化存储的，也不知道怎么查询。一般去对接es业务，都需要告诉

分类：移动开发时间：2020-12-11 11:39:48 阅读次数：7

jieba库的使用说明

1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库，需要额外安装 - jieba库提供三种分词模式，最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...

分类：其他好文时间：2020-12-09 12:09:11 阅读次数：6

python学习记录

目录 jieba 分词 ''' 函数 jieba.cut(sentence, cut_all=False) 参数 sentence为待分词的字符串 cut_all为是否为全模式返回指生成器 ''' import jieba sentence = "我考上了清华大学" seg_list = jie ...

分类：编程语言时间：2020-12-04 11:19:10 阅读次数：7

PHPCMS文章页详情调用第三方分词接口

效果不怎么好，效率和速度较差，仅仅记录分享。修改路径\phpcms\libs\functions\extention.func.php //分词 function httppost($title){ $ch = curl_init(); $options = array( CURLOPT_URL ...

分类：Web程序时间：2020-12-03 11:44:54 阅读次数：8

西游记相关的分词，出现次数最高的20个

import jieba txt = open("西游记.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for word in ...

分类：其他好文时间：2020-11-20 11:30:40 阅读次数：32

共2158条上一页 1 2 3 4 5 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)