欢迎关注公众号:Python爬虫数据分析挖掘,回复【开源源码】免费获取更多开源项目源码 01 快速爬取网页 1.1 urlopen()函数 import urllib.request file=urllib.request.urlopen("http://www.baidu.com") data=f ...
分类:
编程语言 时间:
2020-09-17 19:34:00
阅读次数:
33
1、前言 学习Python二个多月啦,周末时开始兴趣学习爬虫,虽然有点概念,但是也折腾了大半天,下面就开始简要记录一下吧。 2、需要的准备 Python:需要基本的python语法基础 requests:专业用于请求处理,requests库学习文档中文版 lxml:其实可以用pythonth自带的正 ...
分类:
编程语言 时间:
2020-04-26 18:31:25
阅读次数:
162
因为教程的demo网站糗事百科已经gg(好像是涉及用户私人信息什么的原因),所以我就只好随便找了个网站练手。 前几天学习了部分lxml的用法,主要是etree,因为4.4.2版本的更新,etree现在在ElementInclude包内,直接引用是不行了,并且etree添加了新的parser,调用pa ...
分类:
编程语言 时间:
2020-01-12 00:27:47
阅读次数:
136
re简单实践 分析网页,很容易得出规律: css字体颜色标记电话号码 代码实现: import re import requests headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/ ...
分类:
编程语言 时间:
2020-01-08 23:04:51
阅读次数:
230
有道词典的web接口,实际上可以用爬虫模拟,输入key,拼接为有道词典接口的formdata,爬取返回值,实际为Ajax动态生成的translation,这样外部来看实现了翻译接口的模拟,相当于爬虫模拟浏览器调用了有道词典web接口,其实讲真的话来说,直接调用有道web接口,传json参数就可以了, ...
分类:
编程语言 时间:
2019-12-15 16:44:34
阅读次数:
108
51zxw发布了一个新课程,是今年二月份的,现在总算是辞职空下来时间了,想着学习下爬虫吧,反正学了也不亏。爬虫算是最简单的东西了,爬虫背靠数据挖掘、数据分析和机器学习,与大数据和AI相比显得没那么高大上,随便一个程序员都能写一个的小爬虫。可是,在数据封锁隐藏,反爬机制不断深入的今天,如何设计爬虫分布 ...
分类:
编程语言 时间:
2019-12-13 23:43:12
阅读次数:
138
在进行爬虫实践时,我已经爬取到了我需要的信息,那么最后一个问题就是如何把我所爬到的数据存储到Excel中去,这是我没有学习过的知识。 如何解决这个问题,我选择先百度查找如何解决这个问题。 百度查到的方法千万种,我先选择看得懂的文章下手,不断尝试,最后解决了问题 那么到底如何解决这个问题呢? 解决这个 ...
分类:
其他好文 时间:
2019-10-07 00:31:02
阅读次数:
109
1 ''' 2 爬取京东商品信息: 3 请求url: 4 https://www.jd.com/ 5 提取商品信息: 6 1.商品详情页 7 2.商品名称 8 3.商品价格 9 4.评价人数 10 5.商品商家 11 ''' 12 from selenium impo... ...
分类:
编程语言 时间:
2019-06-18 21:40:12
阅读次数:
146
1 from selenium import webdriver 2 import time 3 4 driver = webdriver.Chrome(r'D:\BaiduNetdiskDownload\chromedriver_win32\chromedriver.exe') 5 6 # 把窗口... ...
分类:
编程语言 时间:
2019-06-18 21:33:54
阅读次数:
203
下面研究如何让<html>内容更加“友好”的显示 之前略微接触的prettify能为显示增加换行符,提高可阅读性,用法如下: 同样,它也可以为其中的个别标签做专门的处理,比如对a标签进行处理 代码如下: 其输出结果如下: <a class="mnav" href="http://news.baidu ...
分类:
编程语言 时间:
2019-03-10 00:04:51
阅读次数:
313