内容简介 · · · · · · 本书以小说的形式展开,讲述了主人公俵太从大学文科专业毕业后进入征信所,从零开始学习数据分析的故事。书中以主人公就职的征信所所在的商业街为舞台,选取贴近生活的案例,将平均值、t检验、卡方检验、相关、回归分析、文本挖掘以及时间序列分析等数据分析的基础知识融入到了生动有趣 ...
分类:
其他好文 时间:
2018-10-07 14:40:36
阅读次数:
180
基于jieba包的自动提取 关键方法:jieba.analyse.extract_tags(content,topK=n) 具体思路:通过jieba包自带的extract_tags方法,在遍历读取文件内容时,获得每篇文档前n个关键字 使用的包: 过程: 最终得到包含文件路径,文件内容,和每篇5个关键 ...
分类:
其他好文 时间:
2018-09-22 17:04:17
阅读次数:
585
文本挖掘是将文本信息转化为可利用的数据的知识。 第一步:创建“语料库” 语料库(Corpus)是我们要分析的所有文档的集合。 实现逻辑: 将各文本文件分类放置在一个根目录下,通过读取根目录下所有子目录中的所有文件, 然后将读取结果赋值到一个数据框中,得到含有文件路径、文件内容的结果。 代码核心: 构 ...
分类:
其他好文 时间:
2018-09-11 23:50:44
阅读次数:
220
1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方 ...
分类:
编程语言 时间:
2018-08-30 16:51:47
阅读次数:
276
# -*- coding: utf-8 -*- from pandas import read_csv import numpy as np from sklearn.datasets.base import Bunch import pickle # 导入cPickle包并且取一个别名pickle ...
分类:
编程语言 时间:
2018-08-21 16:01:32
阅读次数:
157
讲师:庞雨秾 讲师简介: 法狗狗法律人工智能技术总监,伦敦大学玛丽女皇学院认知科学硕士。专注于自然语言处理方面的研究与应用,负责研发了包括处理垂直于法律领域的智能咨询系统、分布式非结构化文本挖掘系统等一系列基于自然语言分析的商业应用。 分享大纲: 在一个对话系统中,应该如何支持多轮对话?有哪些系统性 ...
分类:
其他好文 时间:
2018-08-10 15:52:52
阅读次数:
275
NLPIR大数据语义智能分析平台平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。 ...
分类:
其他好文 时间:
2018-07-31 11:52:38
阅读次数:
166
import xlrd import jieba import sys import importlib import os #python内置的包,用于进行文件目录操作,我们将会用到os.listdir函数 import pickle #导入cPickle包并且取一个别名pickle #持久化类 ... ...
分类:
其他好文 时间:
2018-07-23 15:05:15
阅读次数:
238
文本挖掘 (Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。 文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考 。 文本预处理 文本处理的核心任务是把非结构化和半结构化的文本转换为结构化的形式,即 ...
分类:
其他好文 时间:
2018-06-04 22:31:18
阅读次数:
248
讲师:庞雨秾 讲师简介: 庞雨秾,法狗狗法律人工智能技术总监,伦敦大学玛丽女皇学院认知科学硕士。专注于自然语言处理方面的研究与应用,负责研发了包括处理垂直于法律领域的智能咨询系统、分布式非结构化文本挖掘系统等一系列基于自然语言分析的商业应用。 FMI线上直播 分享主题:NLP的未来—语义落地 (Se ...
分类:
其他好文 时间:
2018-05-25 14:50:04
阅读次数:
246