本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。下载图片的步骤如下: 获取网页html文本内容; 分析html中图片的html标签特征,用正则解析出所有的图片url链接列表; 根据图片的url链接列表将图片下载 ...
分类:
编程语言 时间:
2018-12-31 21:53:13
阅读次数:
189
书接上文,考虑4个核心功能的实现,先考虑:数据预处理和按纬度统计。1、数据预处理1.1、基本原则首先,考虑数据的格式。业务数据是保存在关系型数据库中的。数据分析的部分,我们将使用Weka,虽然Weka习惯ARFF格式,为了实现数据分析和提取的自动化,我们将通过Weka的JDBC接口为其提供数据。这样,可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换。
在开发阶段,我们基本上可以将...
分类:
其他好文 时间:
2015-05-29 08:40:35
阅读次数:
183
1、业务背景某业务内容为短文本,5字或200字左右,针对某个专题,有附属属性。
提交人为非专业用户。提交后,专家进行审核,某几个专家针对某个行政区划。对审核不通过的内容,专家会给出修改建议。业务量较大,单次审核周期一般在1~3个工作日。如果能够提高一次通过率,将直接提高系统效率。对于5字左右短文本,如果能够智能审核,减轻专家工作量,也将对系统整体效率带来促进。2、业务分析有几件事情可以做:
分析历...
分类:
其他好文 时间:
2015-05-28 07:07:00
阅读次数:
154