搜索关键字：停用，搜索到522个结果！码迷,mamicode.com！

Spark 中文分词

Spark中文分词一、导入需要的分词包importorg.ansj.domain.Termimportorg.ansj.recognition.impl.StopRecognitionimportorg.ansj.splitWord.analysis.ToAnalysis二、停用词过滤deffilter(stopWords:Array[String]):StopRecognition={//add

分类：其他好文时间：2019-02-12 18:47:20 阅读次数：254

依赖包的优先级设置

问题出现：一个老项目的退款功能被微信支付后台停用，原因是xml解析工具有漏洞风险，微信客服给出的解决方案是使用官方的补丁。使用补丁后发现：xml-api包与jdk自带的包冲突。具体原因：xml-api包的某个类与jdk自带的某个类具有相同的全限定名，但是xml-api包中并没有相关实现，IDE没有依赖jdk自带的包，而是优先依赖xml-api包，导致项目无法完成编译。尝试解决：在Maven中排除x

分类：其他好文时间：2019-02-12 17:24:07 阅读次数：168

NLP基础

做一个中文文本分类任务，首先要做的是文本的预处理，对文本进行分词和去停用词操作，来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇（像是：的、地、得等）。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。一、什么是自然语言处理一、什么是自然语言处理一 ...

分类：其他好文时间：2019-02-04 20:56:40 阅读次数：276

adb 命令

Android 调试桥 Android 调试桥 (adb) 是一个通用命令行工具，其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利，如安装和调试应用，并提供对 Unix shell（可用来在模拟器或连接的设备上运行各种命令）的访问。该工具作为一个客户端-服务器程 ...

分类：数据库时间：2019-01-28 01:07:29 阅读次数：251

机器学习入门-文本数据-使用聚类增加文本的标签属性

通过对特征做一个kmeans聚类，将聚类的结果做为文本的标签值，可以使得样本的特征更多我们从sklearn.cluster中导入Kmeans建立模型进行聚类代码：第一步：使用Dataframe格式化数据和使用数据格式化数据第二步：对字符串进行分词和去除停用词，并使用' '.join完成连接 ...

分类：其他好文时间：2019-01-27 00:20:37 阅读次数：362

机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)

函数说明： 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换，这里我们用来去除标点符号参数说明：r'[^a-zA-Z0-9\s]' 配对的模式，^表示起始位置，\s表示终止位置，[]表示取中间部分，这个的意思是找出除字符串 ...

分类：其他好文时间：2019-01-26 19:32:16 阅读次数：1824

磁盘列阵

一、概念 raid :廉价冗余磁盘列阵，通过多块磁盘组成来提高吞吐量（读写速度）和可靠性冗余=容灾=容错=备份磁盘列阵的功能：整合磁盘功能提高磁盘读取效率提供容错（备份）功能磁盘列阵等级 raid0 raid1 raid5 raid10 raid01等等；软件磁盘列阵前提分区：fdis ...

分类：其他好文时间：2019-01-25 17:51:30 阅读次数：214

信息领域热词分析系统--python过滤

利用python过滤去没用的词语，过滤的词语存储在停用文件中。 ...

分类：编程语言时间：2019-01-20 13:42:32 阅读次数：191

01 文本分析随记

一、停用词 1、含义：在语料中大量出现，但对我们分析没什么用的词，但对分析有干扰作用，需要剔除后再计算词频；比如：标点符号，量词等 2、停用词表百度搜索就有一堆了二、TF-IDF 前言：比如对《中国的蜜蜂养殖》进行词频统计，去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...

分类：其他好文时间：2019-01-19 19:58:53 阅读次数：172

Linux基础命令---添加用户useradd

useradd 创建新的系统用户，useradd指令只能以管理员的身份运行，创建的用户都在“/etc/passwd”文件中。当不加-D参数,useradd指令使用命令列来指定新帐号的设定值and使用系统上的预设值.新使用者帐号将产生一些系统档案，使用者目录建立，拷备起始档案等，这些均可以利用命令列选 ...

分类：系统相关时间：2019-01-19 11:19:24 阅读次数：168

共522条上一页 1 ... 13 14 15 16 17 ... 53 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)