Python爬虫的一个案例 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据 import requests from fake_useragent import UserAgent ua = UserAgent(use_cache_server=False,verify_ssl ...
分类:
其他好文 时间:
2020-02-08 00:38:03
阅读次数:
75
经过几天的学习,今天终于完成了首都之窗的数据爬取,现在进行一下总结: 首都之窗的爬取我进行里两步: 一,使用selenium模拟浏览器翻页,爬取列表页上的信息,主要是各个详情页的url(详细说明请看上篇博客) spider.py 1 # -*- coding: utf-8 -*- 2 import ...
分类:
其他好文 时间:
2020-02-08 00:04:06
阅读次数:
66
利用pc编写python爬取大学排名的数据,如图: import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.rais ...
分类:
编程语言 时间:
2020-02-07 22:17:53
阅读次数:
89
壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物。 ...
分类:
编程语言 时间:
2020-02-07 16:59:12
阅读次数:
109
python时间戳 将时间戳转为日期 #!/usr/bin/python # -*- coding: UTF-8 -*- # 引入time模块 import time #时间戳 timeStamp = 1581004800 timeArray = time.localtime(timeStamp) ...
分类:
编程语言 时间:
2020-02-07 16:45:36
阅读次数:
54
不懂编程?一文学会网络爬虫!
带你走进网络爬虫和coding的世界。 ...
分类:
其他好文 时间:
2020-02-07 14:47:32
阅读次数:
108
时间:2020.2.6 今天把昨天做到一半的首都之窗百姓信件爬取完成了。 源码如下: 1 import requests 2 import io 3 from bs4 import BeautifulSoup 4 #信1705-1 赵路仓 5 kv = {'user-agent': 'Mozilla ...
分类:
编程语言 时间:
2020-02-07 01:24:07
阅读次数:
110
今天本来想把昨天安装的intellij配置好,但是一直显示没有网络,网上查了相关资料也没有查出来解决办法。 然后暂停了intellij的配置,开始做了几个Python爬取简单数据的实例,先做了几个最简单的,以后再加大难度(用idle编码): (1)京东商品页面爬取: 链接:https://item. ...
分类:
编程语言 时间:
2020-02-07 01:02:38
阅读次数:
79
学了使用scarpy框架进行爬虫,爬取了某网站的部分信息。 部分代码: # -*- coding: utf-8 -*- import scrapy from dangdang01.items import Dangdang01Item from scrapy.http import Request ...
分类:
其他好文 时间:
2020-02-06 23:27:34
阅读次数:
77
1.selenium获取网页iframe内容 语法:driver.switch_to.frame(iframe) ①通过tag_name driver.get(url) #该iframe为页面的第几个iframe iframe = driver.find_elements_by_tag_name(' ...
分类:
Web程序 时间:
2020-02-06 16:49:03
阅读次数:
104