在学习python协程的过程中,结合生成器函数,实现了新浪新闻的深度爬取,深度爬取可以一边获得新生成的url,一边向URL发出请求,下面上代码 import aiohttpfrom lxml import etreeimport csvimport asyncioimport osfrom logu ...
分类:
其他好文 时间:
2021-06-10 17:45:03
阅读次数:
0
下面是新浪微博上曾经很火的一张图: 一时间网上一片求救声,急问这个怎么破。其实这段代码很简单,index数组就是arr数组的下标,index[0]=2 对应 arr[2]=1,index[1]=0 对应 arr[0]=8,index[2]=3 对应 arr[3]=0,以此类推…… 很容易得到电话号码 ...
分类:
编程语言 时间:
2021-04-23 11:49:50
阅读次数:
0
接上个文章,因为失败,思考了一下原因,参考了其他的博主。 使用cookie可以免密码登入网站。 所以自动化登录微博首先需要获取已经登录微博后浏览器的cookie。 接下来上代码: # 导入需要的数据包 from selenium import webdriver import time # 将获取的 ...
分类:
其他好文 时间:
2021-03-02 11:42:50
阅读次数:
0
新浪财经是金融新闻类数据挖掘很重要的一个数据来源,它的新闻质量一般都很高。在这里使用爬虫的方法来获取新浪财经的一些新闻资讯。 第一步: 打开新浪财经网站 第二步: 搜索‘工商银行’ 第三步: 获取新浪财经里的‘工商银行’的url url = 'https://search.sina.com.cn/? ...
分类:
其他好文 时间:
2021-03-02 11:42:14
阅读次数:
0
1. Nginx简介 1.1 Nginx 的应用场景 Nginx ("engine x") 是一个 高性能的 HTTP 和反向代理服务器,特点是占有内存少,并发能力强。事实上 Nginx 的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用 Nginx 的网站用户有:百度、京东、新浪、网易、腾 ...
分类:
其他好文 时间:
2021-01-14 11:28:46
阅读次数:
0
1. 常规的行情网站 #新浪财经 http://hq.sinajs.cn/list=sh601003,sh601001 var hq_str_sh601003="柳钢股份,5.170,5.180,5.140,5.180,5.080,5.140,5.150,11017629,56533311.000, ...
web的发展史 web1.0 简单的静态页面 早期三大门户 搜狐 新浪 网易 web2.0 更注重用户之间的交互 用户即是信息的消费者也是制造者 微博 web3.0 人工智能 复杂的页面功能 即时通讯 web的前景 pc端的网页 移动端的网页 ios android 网页三层结构 HTML 结构层- ...
分类:
Web程序 时间:
2021-01-04 11:01:34
阅读次数:
0
前端的概述 web的发展史 web1.0 简单的静态页面 早期三大门户 搜狐 新浪 网易 web2.0 更注重用户之间的交互 用户即是信息的消费者也是制造者 微博 web3.0 人工智能 复杂的页面功能 即时通讯 web的前景 pc端的网页 移动端的网页 ios android vscode编译器的 ...
分类:
Web程序 时间:
2020-12-24 12:02:09
阅读次数:
0
随着业务的增长,一般的公司都会经历一个从单库单表到分库分表的过程 , 需要考虑以下要素判断是否开始分库分表 1. 如果mysql单库的QPS超过1000就要考虑分库了 , 一般根据业务进行分库 目前新浪邮箱的主库是sinanet 各种辅助库 userservice客服系统 sinastore 文件存 ...
分类:
数据库 时间:
2020-12-16 11:44:14
阅读次数:
5
■ 定义 用作标签的容器 span意为跨度,跨距 ■ 使用说明 <span>标签没有语义,用于布局 一行上可以放多个span,可以认为是一个小盒子 ■ 示例 <span>百度</span> <span>新浪</span> <span>搜狐</span> 效果: span标签是可以一行放置多个的,因此 ...
分类:
其他好文 时间:
2020-12-11 12:25:09
阅读次数:
5