码迷,mamicode.com
首页 >  
搜索关键字:停用    ( 522个结果
Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云
1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 ...
分类:编程语言   时间:2020-06-27 20:32:04    阅读次数:125
【Project】原生JavaWeb工程 02 登陆业务的流程(第一阶段样例)
1、对用户信息的描述 首先用户有一些基本信息: 最简单的: 用户名称 + 用户密码 然后是用户状态,例如封号,注销,停用,等等 用户名称 + 用户密码 + 账号状态 接着为了防止脚本攻击,又产生了图形码验证,为了区分人和机器 用户名称 + 用户密码 + 用户状态 + 图形验证码 2、过程设计: 所以 ...
分类:编程语言   时间:2020-06-21 23:38:15    阅读次数:67
[AWS][安全][S3] IAM 角色授权 EC2 访问 S3
实验说明:在先前的中,我们讲到使用AWSCLI对S3中的对象进行操作,在配置AWSCLI的时候,我们创建了IAMAccessKey和SecretKey,这种Key属于LongTermKey,也就意味着如果您不rotateKey,那么key将长期有效,如果Key不慎丢失,就需要在AWSIAM界面删除这个key或者停用key。当我们将服务部署在AWSEC2的时候,还有另外一个可选方案,即使用EC2Ro
分类:其他好文   时间:2020-06-18 16:12:39    阅读次数:88
郑重声明 郑重声明 郑重声明(重要的事情说三遍)
1、我目前唯一在用的对外联系邮箱是:stronghorse_mj@hotmail.com2、我曾经用过,但已经停用的另外一个邮箱是:stronghorse@tom.com3、除此之外,任何以stronghorse、strnghrs开头的邮箱,例如strnghrs@sina.com等,均与我无关。4、 ...
分类:其他好文   时间:2020-06-14 11:13:59    阅读次数:81
TeamViewer 15.6.7新版本发布
2020年5月26日,GmbH发布了TeamViewerv15.6.7最新版本,此次版本更新涉及Windows版、Mac版、Linux版。接下来,软发网将详细讲解此次版本更新明细。forWindows新功能增强现实会话的即时图像到文本识别。飞行员用户现在可以识别其手机或平板电脑上的文本,然后一键将其发送给专家。改进措施MSI安装程序现在允许您在安装后有选择地停用Outlook加载项。如此一来将安装
分类:其他好文   时间:2020-06-05 18:01:45    阅读次数:307
正则表达式:去除Unicode
背景:最近在做中文分词的时候,发现分词后的数据中出现很多特殊字符,即使进行了去停用词操作,但是特殊字符太多,也不可能都加到停用词里,所以就准备用正则去掉,正则很简单,直接上代码: /** * 正则去掉unicode等特殊字符 * */ private static String regularFil ...
分类:其他好文   时间:2020-06-04 16:52:49    阅读次数:84
微软终端管理之设置微软 Autopilot 最简单的应用实例一
WindowsAutopilot是一组用于设置和预配置新设备以让它们可供高效使用的技术。旨在为IT和最终用户简化Windows设备生命周期的各个部分,从初始部署一直到生命的最终结束。它利用基于云的服务,通过减少IT用于部署、管理和停用设备的时间和需要维护的基础结构量来减少这些过程的总体成本,同时还可为所有类型的最终用户确保易用性。不得不说这一段是微软对于这个解决方案最好的诠释。说到Autop
分类:其他好文   时间:2020-06-03 23:37:17    阅读次数:176
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-05-18 14:01:34    阅读次数:44
12.朴素贝叶斯-垃圾邮件分类
朴素贝叶斯垃圾邮件分类 读邮件数据集文件,提取邮件本身与标签。 2.邮件预处理 2.1传统方法 2.1 nltk库 分词nltk.sent_tokenize(text) #对文本按照句子进行分割 nltk.word_tokenize(sent) #对句子进行分词 2.2 punkt 停用词from ...
分类:其他好文   时间:2020-05-17 22:04:44    阅读次数:104
文本分类(机器学习方法)
文本分类实现步骤: 1. 定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据 2. 数据预处理:对文档做分词、去停用词等准备工作 3. 数据提取特征:对文档矩阵进行降维、提取训练集中最有用的特征 4. 模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器 5. 评测阶段:在测试集上 ...
分类:其他好文   时间:2020-05-15 00:17:01    阅读次数:75
522条   上一页 1 ... 3 4 5 6 7 ... 53 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!