现在最大的技术博客论坛莫非《博客园》和《CSDN》,假如我们想知道自己的博客技术站是否收到欢迎,可以通过查看百度收录来查看,假设直接把自己的网址复制到百度收录统计官网,只能看到博客园官网的收录数据。 下面教大家一条命令,直接在百度首页搜索即可 site:www.cnblogs.com inurl:c ...
分类:
Web程序 时间:
2019-11-29 12:53:27
阅读次数:
131
有些网站上面的元素,我们鼠标放在上面,会动态弹出一些内容。 比如,百度首页的右上角,有个更多产品选项,如下图所示: 如果我们把鼠标放在上边,就会弹出下面的百度营销、音乐、图片等图标。 如果我们要用selenium自动化点击音乐图标,就需要F12查看这个元素的特征。 但是当我们的鼠标从音乐图标移开,这 ...
分类:
其他好文 时间:
2019-11-28 01:16:22
阅读次数:
94
1 由于(https://www.cnblogs.com/S-Mustard/p/11924227.html)讲到通过telnet访问百度首页,现在通过java代码来实现访问百度服务,获取首页信息。 try(Socket s=new Socket("www.baidu.com",80); Scann ...
分类:
编程语言 时间:
2019-11-26 22:45:32
阅读次数:
110
Python:requests库、BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一、requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起来比urllib更加简洁方便。 requests是第三方库,使用前需要通过pip安装。 pip in ...
分类:
编程语言 时间:
2019-11-10 19:44:47
阅读次数:
98
Selenium对网页的控制是基于各种前端元素的,在使用过程中,对于元素的定位是基础,只有准去抓取到对应元素才能进行后续的自动化控制,我在这里将对各种元素定位方式进行总结归纳一下。 这里将统一使用百度首页(www.baidu.com)进行示例,f12可以查看具体前端代码。WebDriver8种基本元 ...
分类:
其他好文 时间:
2019-11-09 21:26:26
阅读次数:
206
引言: 很多网页呈现给我们的静态页面,但是实际上是由服务器端的动态页面生成的。再加上网站设有反爬虫机制,所以抓取到的页面不一定和源码相同。 所以!!从源码里copy xpath,不一定能取到数据! 实例: 非常的简单,从百度首页上,抓取“新闻”这两个字。 接下来打印一下我们抓取到的页面 看不出来啥, ...
分类:
编程语言 时间:
2019-11-03 19:57:29
阅读次数:
473
百度首页上图:当前webstorm的文件目录<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>百度一下,你就知道</title><linkhref="css/index.css"rel="stylesheet"></head>&
分类:
其他好文 时间:
2019-10-25 23:34:55
阅读次数:
98
窗口截图 目的:当脚本执行出错时对当前窗口进行截图 方法:get_screenshot_as_file() #打开百度首页,搜索“selenium",完成后进行截图,并将结果保存至D:/test.png from selenium import webdriver import time drive ...
分类:
其他好文 时间:
2019-10-18 22:38:58
阅读次数:
121
因很多人需要百度相关搜索,很多人用这个技术卖钱,自己本着技术的爱好,把这个分享给大家! 刷相关搜索的实现方法: 第一:比如圆柱模板,我们可以先搜索圆柱模板厂家,然后接着再去搜索圆柱模板价格,那么每天以几倍的方式增加,当达到一定搜索量的时候,那么圆柱模板的相关词搜索就会出现圆柱模板价格了。 打开百度首 ...
分类:
其他好文 时间:
2019-10-15 09:23:15
阅读次数:
124
浏览器的缓存可分为HTTP缓存和离线缓存,下面将分别介绍HTTP缓存只有GET请求能被缓存,POST不能被缓存。Modified Time/ETag/Expires/Cache都是HTTP协议的缓存策略先来一个例子当我们第二次访问百度首页,在Chrome的Network面板中打开一个静态文件时会发现... ...
分类:
其他好文 时间:
2019-10-09 12:29:02
阅读次数:
88