我们用爬虫爬取页面时会出现因解码方式错误出现乱码。需要去查询页面的编码方式。直接F12中控制台输入document.charset ...
分类:
其他好文 时间:
2021-06-13 09:54:01
阅读次数:
0
本文所指之数据工程,限定于: 数据分析、数据采集(集成) 1 网站 spider-flow - 智能高效的在线爬虫 spider-flow 是一个无需写代码的爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫 superset.workerindata.com - 账号: bilibili ...
分类:
数据库 时间:
2021-06-11 18:27:40
阅读次数:
0
python3+openpyxl操作excel(xlsx)学习分享,如有问题请大佬指教! 代码如下: 1 import openpyxl 2 3 class DoExcel: 4 """操作excel类:xlsx格式文件 5 file:文件名及路径 6 sheet:表单名""" 7 def __in ...
分类:
编程语言 时间:
2021-06-10 18:24:32
阅读次数:
0
在学习python协程的过程中,结合生成器函数,实现了新浪新闻的深度爬取,深度爬取可以一边获得新生成的url,一边向URL发出请求,下面上代码 import aiohttpfrom lxml import etreeimport csvimport asyncioimport osfrom logu ...
分类:
其他好文 时间:
2021-06-10 17:45:03
阅读次数:
0
Python3 1. 命令行快速搭建本地http服务器 python3 -m http.server 8000 在命令行中输入此命令,就会在当前目录下搭建http服务器,可以通过访问http://localhost:8000/查看, 这样就可以用同一网段的设备从这个http服务器下载文件 ...
分类:
编程语言 时间:
2021-06-09 10:40:33
阅读次数:
0
Selenium简介 Selenium是一个web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。【爬虫效率比较低】 安装方法如下: pip install selen ...
分类:
其他好文 时间:
2021-06-08 22:42:27
阅读次数:
0
python客户端代码,可直接使用 import websocket import json import time import threading class WebsocketClient(object): """docstring for WebsocketClient""" def __i ...
分类:
编程语言 时间:
2021-06-07 21:05:52
阅读次数:
0
面试题 一个包含n个整数的数组a,判断a中是否存在三个元素,a,b,c,使得a+b+c=0? 找出所有和为0并且不重复的三元组。不可包含重复的三元组。 如;a=[-1,0,1,2,-1,-4] 输出:[[-1,-1,2],[-1,0,1]] 如:a=[] 输出[] 如:a=[1,2] 输出[] 思考 ...
分类:
编程语言 时间:
2021-06-06 19:48:51
阅读次数:
0
面试题 某大厂迎来了新入职的大学生,现在需要为每个新同事分配一个工号。 人力资源部同事设计了一个方法为每个人进行排序并分配最终的工号,具体规则是: 将N(N<10000)个人排成一排,从第1个人开始报数;如果报数是M的倍数就出列,报到队尾(最后一位),则从头(回到对头)继续报,直到所有人都出列;最后 ...
分类:
编程语言 时间:
2021-06-06 19:03:35
阅读次数:
0
Python3 pandas DataFrame 基本功能讲解 import pandas as pd 导入库 df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) 创建一个DataFrame 代 ...
分类:
编程语言 时间:
2021-06-06 18:58:17
阅读次数:
0