# coding: utf-8 import socket from urllib.parse import urlparse def get_url(url): url = urlparse(url) host = url.netloc path = url.path if path == "": ...
分类:
编程语言 时间:
2020-08-02 16:13:18
阅读次数:
115
# 设置爬虫的用户代理池以及ip代理池 import urllib.request import random def set_user_ip_proxy(): #设置用户代理池 header_list = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv ...
分类:
Web程序 时间:
2020-07-27 09:27:04
阅读次数:
116
python 网页解析器 1、常见的python网页解析工具有:re正则匹配、python自带的html.parser模块、第三方库BeautifulSoup(重点学习)以及lxm库。 2、常见网页解析器分类 (1)模糊匹配 :re正则表达式即为字符串式的模糊匹配模式; (2)结构化解析: Beat ...
分类:
编程语言 时间:
2020-07-26 00:29:13
阅读次数:
83
#coding=utf-8#Version:python3.7.4#Tools:Pycharm 2018.3.5_date_ = '2020/7/13 23:42 'import urllib.requestimport urllib.parseurl="https://tieba.baidu.co ...
分类:
编程语言 时间:
2020-07-24 09:23:40
阅读次数:
75
首先先关闭st3 之后在安装的路径下创建Data文件夹,然后打开st3(sublime Text 3简写)CTRL+`打开命令行输入以下内容,直接回车,等待下载完成就可以了import urllib.request,os,hashlib; h = '6f4c264a24d933ce70df5dedc ...
分类:
其他好文 时间:
2020-07-23 22:15:54
阅读次数:
85
知网爬取勿做商用 import requests, time, parsel, re from selenium.webdriver.chrome.options import Options from urllib.parse import urlencode from selenium impo ...
分类:
其他好文 时间:
2020-07-23 16:07:56
阅读次数:
157
来自 《Python项目案例开发从入门到实战》(清华大学出版社 郑秋生 夏敏捷主编)中爬虫应用——抓取百度图片 本文使用 request 库来爬取某个网站的图片,前面几章博客介绍了如何使用 urllib 库来抓取网页,本文主要使用的是 request 库来抓取网页内容,使用方法基本一致,但 requ ...
分类:
编程语言 时间:
2020-07-22 15:59:59
阅读次数:
96
import re from odps import ODPS from threading import Thread import threading from urllib import parse from datetime import datetime import random imp ...
分类:
其他好文 时间:
2020-07-21 21:37:00
阅读次数:
61
1. urllib https://docs.python.org/zh-cn/3/library/urllib.request.html#module-urllib.request 2. BeautifulSoup https://www.crummy.com/software/Beautiful ...
分类:
其他好文 时间:
2020-07-21 01:10:58
阅读次数:
71
""" 使用urllib.request()请求一个网页内容,并且把内容打印出来。 """ from urllib import request import chardet if __name__ == '__main__': # 有的网站url使用不了 url = "https://www.cn ...
分类:
Web程序 时间:
2020-07-19 23:19:06
阅读次数:
78