聚焦爬虫:爬取页面中指定的页面内容 - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储 数据解析分类: -正则 -bs4 -xpath(***) 数据解析原理概述 https://book.apeland.cn/details/78/ - 解析的局部的文本内容都会在标签之间 ...
分类:
其他好文 时间:
2020-07-28 10:13:43
阅读次数:
76
案例一:解析出全国所有城市名称代码如下:importrequestsfromlxmlimportetreeif__name__=="__main__":headers={‘User-Agent‘:‘Mozilla/5.0(Macintosh;IntelMacOSX10_12_0)AppleWebKit/537.36(KHTML,likeGecko)Chrome/73.0.3683.103Safar
分类:
编程语言 时间:
2020-07-23 19:04:28
阅读次数:
103
聚焦爬虫:爬取页面中指定的页面内容。编码流程:1.指定url2.发起请求3.获取响应数据4.数据解析5.持久化存储数据解析分类:1.bs42.正则3.xpath(***)数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储1.进行指定标签的定位2.标签或者标签对应的属性中存储的数据值进行提取(解析)bs4进行数据解析数据解析的原理:1.标签定位2.提取标签、标签属性中存
分类:
编程语言 时间:
2020-07-22 20:21:41
阅读次数:
68
案例:使用正则爬取糗图百科图片单页面的代码importreimportrequestsimportos#创建文件夹ifnotos.path.exists(‘./qiutu‘):os.mkdir(‘./qiutu‘)headers={‘user-agent‘:‘Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)‘‘C
分类:
编程语言 时间:
2020-07-22 16:05:52
阅读次数:
79
页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构,(http://www.baidu.com) 结构化数据:先有结构、再有数据(https://www.qiushi ...
分类:
编程语言 时间:
2020-07-21 13:36:53
阅读次数:
73
爬虫步骤 确定爬取目标的url 使用python代码发送请求获取数据 解析获取到的数据(精确数据) 找到新的目标(新的url)回到第一步,再次获取 -- 自动化 数据持久化 python3(原生提供的模板):urllibb.request urlopen 返回response对象 response. ...
分类:
其他好文 时间:
2020-07-20 10:42:59
阅读次数:
88
JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 Python3 中可以使用 json 模块来对 JSON 数据进行编解码,它包含了两个函数: json.dumps(): 对数据进行编码。 json.loads() ...
分类:
编程语言 时间:
2020-07-10 11:35:51
阅读次数:
59
最近一直有用到解析各种数据,主要是用FastJson进行数据解析,其中一个重要的类为JSONObject,今天有时间,所以进行总结一下: JSONobject是FastJson提供的对象,在api中是用一个私有的常量map进行封装的,实际就是一个map,只不过FastJson对其进行了封装, 添加了 ...
分类:
Web程序 时间:
2020-07-02 16:52:10
阅读次数:
89
JSON和XML的对比 json和xml都用于接收web服务端的数据. 但json和xml在写法上还是有很大不同的 , 如下所示: json { "sites": [ { "name":"百度" , "url":"www.baidu.com" }, { "name":"google" , "url" ...
分类:
Web程序 时间:
2020-06-30 20:20:12
阅读次数:
107
1.概述 数据结构主要包括列表,字符串,跳表,map,set等,底层基于c实现。 2.sds redis自建的字符串,数据结构 struct sdshdr{ int len; int free; char buf[]; } 主要解决缓存溢出问题。 3.链表 redis自建的链表保存了双向信息,包括头 ...
分类:
其他好文 时间:
2020-06-29 00:09:25
阅读次数:
61