码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
1.中文NLP的完整机器处理流程
首先我们通过一张图来了解 NLP 所包含的技术知识点,这张图从分析对象和分析内容两个不同的维度来进行表达. 有机器学习相关经验的人都知道,中文自然语言处理的过程和机器学习过程大体一致,但又存在很多细节上的不同点,下面我们就来看看中文自然语言处理的基本过程有哪些呢? 获取语料 语料,即语言材料。语料是 ...
分类:其他好文   时间:2019-12-02 16:53:30    阅读次数:119
2 中文分词工具 jieba 和 HanLP
前言 中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装 (1)P ...
分类:其他好文   时间:2019-12-02 16:51:41    阅读次数:77
大数据基础--互联网大数据处理(刘鹏《大数据》课后习题答案)
1.简述互联网信息抓取的方式。 互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。 2.简述舆情系统的组成架构。 用户终端->采集层->分析层->呈现层->用户 3.中文分词算法可以分为哪几类? (1)基于字符串匹配的分词方法,它是待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规 ...
分类:其他好文   时间:2019-12-01 16:51:40    阅读次数:265
Elastic Search中mapping的问题
Mapping在ES中是非常重要的一个概念。决定了一个index中的field使用什么数据格式存储,使用什么分词器解析,是否有子字段,是否需要copy to其他字段等。Mapping决定了index中的field的特征。在ES中有一些自动的字段数据类型识别。自动识别标准:数字 -> long 长整数 ...
分类:移动开发   时间:2019-12-01 13:54:17    阅读次数:102
Python高级应用程序设计
Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 名称:爬取视频网站中的电影排名信息2.主题式网络爬虫爬取的内容与数 ...
分类:编程语言   时间:2019-11-30 13:22:53    阅读次数:90
7-1 词频统计 (30 分)
7 1 词频统计 (30 分) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线,其它字符均认为是单词分隔 ...
分类:其他好文   时间:2019-11-30 09:29:19    阅读次数:192
Solr的安装以及中文分析器的配置
一丶Solr简介 Apache Solr是一个流行的开源搜索服务器,它通过使用类似REST的HTTP API,这就确保你能从几乎任何编程语言来使用solr。Solr是一个开源搜索平台,用于构建搜索应用程序。 它建立在Lucene(全文搜索引擎)之上。 Solr是企业级的,快速的和高度可扩展的。 使用 ...
分类:其他好文   时间:2019-11-29 19:49:11    阅读次数:95
jieba库的使用
jieba是优秀的中文分词第三方库 jieba有3种模式 1.精确模式,返回一个列表类型的分词结果 >>>jieba.lcut("中国是一个伟大的国家") ['中国', '是', '一个', '伟大', '的', '国家'] 2.全模式,返回一个列表类型的分词结果,存在冗余 >>>jieba.lcu ...
分类:其他好文   时间:2019-11-29 15:55:19    阅读次数:166
索引的种类和优缺点
索引的种类 1.普通索引:仅加速查询 2.唯一索引:加速查询 + 列值唯一(可以有null) 3.主键索引:加速查询 + 列值唯一(不可以有null)+ 表中只有一个 4.组合索引:多列值组成一个索引,专门用于组合索引,其效率大于索引合并 5.全文索引:对文本的内容进行分词,进行搜索 索引的优缺点 ...
分类:其他好文   时间:2019-11-29 15:53:43    阅读次数:94
做好百度知道推广用换ip软件多重要性!
百度如何利用百度知道?首先这里讲解几大内容分别是:1.百度知道的一些基本原则2.百度知道的一些排名规则3.百度知道回答注意事项及规则4.百度知道的一些推广技巧分享百度知道的一些基本原则百度知道,是国内最大的知识问答网站,拥有巨大的人气和流量。在百度知道上回答问题,不仅可以给你的网站带来流量、外链和人气,还能增加在搜索引擎中的权重,现在,利用百度知道进行网站推广已经成为互联网营销中最常用的方法之一。
分类:其他好文   时间:2019-11-27 20:38:40    阅读次数:75
2158条   上一页 1 ... 26 27 28 29 30 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!