搜索关键字：文本分析，搜索到342个结果！码迷,mamicode.com！

jieba分词

1.在github上对于jieba的介绍是非常全的，以后一定养成一个看官网的习惯！！学英语啊，学英语中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富， ...

分类：其他好文时间：2020-06-25 23:03:03 阅读次数：59

好用的可视化数据建模工具

SmartbiMining通过深度数据建模，为企业提供预测能力支持文本分析、五大类算法和数据预处理，并为用户提供一站式的流程式建模、拖拽式操作和可视化配置体验。SmartbiMining算法丰富，而且可扩展SmartbiMining数据挖掘平台支持多种高效实用的机器学习算法，包含了分类、回归、聚类、预测、关联，5大类机器学习的成熟算法。其中包含了多种可训练的模型：逻辑回归、决策树、随机森林、朴素贝

分类：其他好文时间：2020-06-19 16:04:38 阅读次数：182

[技术博客] BeautifulSoup4分析网页

[技术博客] BeautifulSoup4分析网页使用BeautifulSoup4进行网页文本分析前言进行网络爬虫时我们需要从网页源代码中提取自己所需要的信息，分析整理后存入数据库中。在python中，我们向网页发出请求后可以获得字符串形式的源代码，然而众所周知，HTML代码结构相当混乱，想 ...

分类：Web程序时间：2020-05-26 01:15:15 阅读次数：109

Linux awk统计日志中出现过的IP(或出现次数最多的N个IP)

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。 awk的用法 awk 'BEGIN{ commands } pattern{ comm ...

分类：系统相关时间：2020-05-09 09:13:30 阅读次数：199

lucene和Elasticsearch

lucene 1.lucene是一个开放源代码的全文检索引擎工具包，它不是一个完整的全部检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。 2.非结构化数据查询方法：（1）.顺序扫描法例子 windows的搜索（2）.全文检索部分信息建立索引好比我们的字 ...

分类：Web程序时间：2020-05-02 11:47:41 阅读次数：80

入门自然语言处理（NLP）的门

自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数 ...

分类：编程语言时间：2020-04-20 21:20:49 阅读次数：98

十九种Elasticsearch字符串搜索方式终极介绍

刚开始接触Elasticsearch的时候被Elasticsearch的搜索功能搞得晕头转向，每次想在Kibana里面查询某个字段的时候，查出来的结果经常不是自己想要的，然而又不知道问题出在了哪里。出现这个问题归根结底是因为对于Elasticsearch的底层索引原理以及各个查询搜索方式的不了解，在... ...

分类：其他好文时间：2020-04-17 00:14:52 阅读次数：59

Elasticsearch的分词

什么是分词分词就是指将一个文本转化成一系列单词的过程，也叫文本分析，在Elasticsearch中称之为Analysis。举例：我是中国人 --> 我/是/中国人结果： { "tokens": [ { "token": "hello", "start_offset": 0, "end_offse ...

分类：其他好文时间：2020-04-13 23:03:30 阅读次数：65

基于Python实现词云制作

1 第三方库的安装与简介 1.1 Python第三方库 jieba（中文分词） 1. 特点（1）支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分， ...

分类：编程语言时间：2020-04-10 21:06:58 阅读次数：142

jieba

1 #jieba文本分析 2 import jieba 3 txt = open("C:/Users/86136/Documents/python文件测试/test.txt","rt",encoding="utf-8") 4 words=jieba.lcut(txt.read()) 5 counts ...

分类：其他好文时间：2020-04-09 20:20:20 阅读次数：108

共342条上一页 1 2 3 4 ... 35 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)