码迷,mamicode.com
首页 >  
搜索关键字:中文处理    ( 59个结果
jieba中文处理
一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 ...
分类:其他好文   时间:2019-02-09 00:48:55    阅读次数:141
NLP入门(六)pyltp的介绍与使用
pyltp的简介   语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。   pyltp 是 LTP 的 ...
分类:其他好文   时间:2019-01-31 19:14:54    阅读次数:1077
PHP-操作json
# 输出json文件中文处理 ```php $value) { if ($value == '{') { $json = preg_replace('/\{(?!'.$eol.')/', "{".$eol.str_repeat("\t", ++$tab), $json, 1); }elseif ($... ...
分类:Web程序   时间:2019-01-27 21:57:58    阅读次数:196
python —— 文本特征提取 CountVectorize
CountVectorize 来自:python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 - CSDN博客 https://blog.csdn.net/shuihupo/article/details/80930801 CountVector ...
分类:编程语言   时间:2018-08-20 16:37:53    阅读次数:151
HTMLTestRunner 汉化版---来源一个大神的源码(加了失败截图,用例失败重新执行 功能)
HTMLTestRunner 汉化版 20170925 测试报告完全汉化,包括错误日志的中文处理 针对selenium UI测试增加失败自动截图功能 增加失败自动重试功能 增加饼图统计 同时兼容python2.x 和3.x 20180402 表格样式优化 修复部分bug 增加截图组,可展示多张截图, ...
分类:Web程序   时间:2018-08-07 15:08:57    阅读次数:460
sklearn: TfidfVectorizer 中文处理及一些使用参数
TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵,从而为后续的文本相似度计算,主题模型,文本搜索排序等一系列应用奠定基础。基本应用如: https://blog.csdn.net/blmoistawinde/article/details/80816179 ...
分类:其他好文   时间:2018-07-22 23:28:38    阅读次数:458
go语言中文处理
中文在go语言中占三个字节,len 或者 range 一个含中文的字符串跟我们预期的结果不一样 打印结果: ...
分类:编程语言   时间:2018-06-26 20:46:12    阅读次数:190
02-NLP-01-jieba中文处理
jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 ji ...
分类:其他好文   时间:2018-06-01 13:39:53    阅读次数:227
02-NLP-gensim中文处理案例
word2vec训练中文模型 1.准备数据与预处理 首先需要一份比较大的中文语料数据,可以考虑中文的维基百科(也可以试试搜狗的新闻语料库)。中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-art ...
分类:其他好文   时间:2018-05-27 16:22:37    阅读次数:181
通过filter过滤器进行中文处理
一、使用servlet处理的局限性 可以通过: 正确获取UTF-8编码的中文,但是如果有很多servlet都需要获取中文,那么就必须在每个Servlet中增加这段代码。 有一个简便的办法,那就是通过Filter过滤器进行中文处理 ,那么所有的Servlet都不需要单独处理了。 二、使用Filter处 ...
分类:其他好文   时间:2018-05-03 10:26:29    阅读次数:162
59条   上一页 1 2 3 4 ... 6 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!