1.在github上对于jieba的介绍是非常全的,以后一定养成一个看官网的习惯!!学英语啊,学英语 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统,虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富, ...
分类:
其他好文 时间:
2020-06-25 23:03:03
阅读次数:
59
SmartbiMining通过深度数据建模,为企业提供预测能力支持文本分析、五大类算法和数据预处理,并为用户提供一站式的流程式建模、拖拽式操作和可视化配置体验。SmartbiMining算法丰富,而且可扩展SmartbiMining数据挖掘平台支持多种高效实用的机器学习算法,包含了分类、回归、聚类、预测、关联,5大类机器学习的成熟算法。其中包含了多种可训练的模型:逻辑回归、决策树、随机森林、朴素贝
分类:
其他好文 时间:
2020-06-19 16:04:38
阅读次数:
182
[技术博客] BeautifulSoup4分析网页 使用BeautifulSoup4进行网页文本分析 前言 进行网络爬虫时我们需要从网页源代码中提取自己所需要的信息,分析整理后存入数据库中。 在python中,我们向网页发出请求后可以获得字符串形式的源代码,然而众所周知,HTML代码结构相当混乱,想 ...
分类:
Web程序 时间:
2020-05-26 01:15:15
阅读次数:
109
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk的用法 awk 'BEGIN{ commands } pattern{ comm ...
分类:
系统相关 时间:
2020-05-09 09:13:30
阅读次数:
199
lucene 1.lucene是一个开放源代码的全文检索引擎工具包,它不是一个完整的全部检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。 2.非结构化数据查询方法:(1).顺序扫描法 例子 windows的搜索 (2).全文检索 部分信息建立索引 好比我们的字 ...
分类:
Web程序 时间:
2020-05-02 11:47:41
阅读次数:
80
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言,以执行如机器翻译、文本分析、情感分析等任务。 自然语言处理是人工智能领域比较火热的方向,本人决定入坑是因为听那个谁说,这个方向对数 ...
分类:
编程语言 时间:
2020-04-20 21:20:49
阅读次数:
98
刚开始接触Elasticsearch的时候被Elasticsearch的搜索功能搞得晕头转向,每次想在Kibana里面查询某个字段的时候,查出来的结果经常不是自己想要的,然而又不知道问题出在了哪里。出现这个问题归根结底是因为对于Elasticsearch的底层索引原理以及各个查询搜索方式的不了解,在... ...
分类:
其他好文 时间:
2020-04-17 00:14:52
阅读次数:
59
什么是分词 分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis。举例:我是中国人 --> 我/是/中国人 结果: { "tokens": [ { "token": "hello", "start_offset": 0, "end_offse ...
分类:
其他好文 时间:
2020-04-13 23:03:30
阅读次数:
65
1 第三方库的安装与简介 1.1 Python第三方库 jieba(中文分词) 1. 特点 (1)支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分, ...
分类:
编程语言 时间:
2020-04-10 21:06:58
阅读次数:
142
1 #jieba文本分析 2 import jieba 3 txt = open("C:/Users/86136/Documents/python文件测试/test.txt","rt",encoding="utf-8") 4 words=jieba.lcut(txt.read()) 5 counts ...
分类:
其他好文 时间:
2020-04-09 20:20:20
阅读次数:
108