import requests from bs4 import BeautifulSoup as bs import re import pandas as pd from sqlalchemy import create_engine from pandas.io.sql import to_sq ...
分类:
编程语言 时间:
2020-04-15 00:44:12
阅读次数:
89
#无状态请求:啥东西都不给我 #有状态请求:返回一个东西给我(相当于分配一个id给我,浏览器则保存了这个id,第二次请求时不用。。。。) import requests,lxml,re from bs4 import BeautifulSoup while True: page=3 for i in ...
分类:
编程语言 时间:
2020-04-11 18:25:04
阅读次数:
68
import hackhttp from bs4 import BeautifulSoup as BS import re def tomcat(raw): url = 'https://www.cnvd.org.cn/flaw/list.htm?flag=true' hh = hackhttp.h ...
分类:
Web程序 时间:
2020-04-10 01:01:27
阅读次数:
382
请求库urllib使用 请求库requests库使用 python操作excel 解析库BeautifulSoup使用 解析库Xpath使用 解析库pyquery使用 python3用execjs执行JS代码 Selenium浏览器自动化测试工具 静态字体加密分析 ...
分类:
其他好文 时间:
2020-04-06 10:03:52
阅读次数:
98
```python from bs4 import BeautifulSoup from urllib import request import threading import re import os from lxml import html class SpiderCategory(thr... ...
分类:
编程语言 时间:
2020-04-06 00:13:04
阅读次数:
69
#!/usr/bin/py2 # -*- coding: utf-8 -*- #encoding=utf-8 from bs4 import BeautifulSoup from scrapy.http import Request, FormRequest from spider_test.ite ...
分类:
Web程序 时间:
2020-04-02 22:20:48
阅读次数:
95
一个简单爬虫案例 from bs4 import BeautifulSoup import os import requests response = requests.get("http://www.90xiaohua.com/") response.encoding = "utf-8" # pr ...
分类:
其他好文 时间:
2020-03-25 10:38:34
阅读次数:
52
content 1.什么是爬虫? 2.为什么用python做网页爬虫 3.python环境配置 4.我需要了解哪些python爬虫的前置知识 5.关于正则表达式 6.提取网页内容并用正则表达式处理 7.xPath和BeautifulSoup工具简介 1.爬虫简介 简单来讲,爬虫就是一个探测机器,它的 ...
分类:
编程语言 时间:
2020-03-24 00:46:56
阅读次数:
96
记录一下在用python爬取百度链接中遇到的坑: 1.获取百度搜索页面中的域名URL BeautifulSoup获取a标签中href属性后,链接为百度url,利用request直接访问默认会直接进行跳转,无法获取所需域名 此时需要将requests的allow_redirects属性设置为False ...
分类:
编程语言 时间:
2020-03-23 13:50:02
阅读次数:
82
import requestsfrom bs4 import BeautifulSoup url = 'http://fj.huatu.com/zt/2019zwb/'def sss(url): reque = requests.get(url) reque.encoding=reque.appar ...
分类:
Web程序 时间:
2020-03-21 23:37:30
阅读次数:
113