在学习python后,想做个爬虫,抓取博客园文章。 爬虫思路很简单,模拟浏览器访问网页,得到网页的html代码,再根据页面结构,从html中提取自己需要的内容。 本文代码主要分为3个部分: 1、读取博客园首页文章链接。 https://www.cnblogs.com/是博客园的首页,列出了文章,分析 ...
分类:
数据库 时间:
2018-07-29 22:32:12
阅读次数:
205
#!/usr/bin/python3#!-*-coding:utf-8-*-#导入库#import requestsfrom bs4 import BeautifulSoup#模拟浏览器访问#headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM
分类:
其他好文 时间:
2018-05-17 13:40:45
阅读次数:
124
模拟浏览器请求数据:importsocket#创建TCP链接tcp_socket=socket.socket(socket.AF_INET,socket.SOCK_STREAM)#DNS解析和链接HTTP服务器tcp_socket.connect(("www.qq.com",80))#编写请求头,发送HTTP请求报文#请求行request_line="GET/HTTP/1.1\r\n"#请求头,设
分类:
编程语言 时间:
2018-04-07 01:08:36
阅读次数:
322
在开发过程中常常遇到这样的需求,模拟浏览器访问某接口,并获取返回数据。我们比较常使用的方法是fsockopen与接口建立连接,然后发出指令,然后通过fgets接受返回值。但是我们发现,通过PHP模拟访问接口往往比浏览器访问同样的接口慢很多。这个问题困扰过我很久,今天终于找到原因了。我看网上很多朋友有 ...
分类:
Web程序 时间:
2017-10-26 23:10:03
阅读次数:
371
1、将网址在页面上打开可以正常访问,但是用file_get_content请求则访问不到。这个是因为对方挡住了非浏览器访问导致的。需要改下php配置,模拟浏览器访问。 user_agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" ...
分类:
Web程序 时间:
2017-09-27 19:12:13
阅读次数:
173
$args = array( 'user-agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'header... ...
分类:
Web程序 时间:
2017-09-03 09:58:05
阅读次数:
239
一、HTML 初识 web服务本质 通过上面的代码可以模拟浏览器访问网页的过程 html介绍 html是什么? 超文本标记语言(Hypertext Markup Language,HTML)通过标签语言来标记要显示的网页中的各个部分。一套规则,浏览器认识的规则 浏览器按顺序渲染网页文件,然后根据标记 ...
分类:
Web程序 时间:
2017-07-31 20:44:09
阅读次数:
168
在开发过程中常常遇到这样的需求,模拟浏览器访问某接口,并获取返回数据。我们比较常使用的方法是fsockopen与接口建立连接,然后发出指令,然后通过fgets接受返回值。 但是我们发现,通过PHP模拟访问接口往往比浏览器访问同样的接口慢很多。这个问题困扰过我很久,今天终于找到原因了。我看网上很多朋友 ...
分类:
Web程序 时间:
2017-06-01 10:19:16
阅读次数:
198
我们一般要抓取一个网站的静态页面来完成我们的需求,其实在这里面有很多种方式可以完成, php内置函数file_get_contents();file();readfile();都可以进行网页抓取,但是这种方式毕竟是有很大 局限性的,例如我们要访问一个需要登录的网站,需要登录验证信息,这是后php内置 ...
分类:
Web程序 时间:
2016-07-07 14:23:25
阅读次数:
334
一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面 有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都 不会构成问题。 ...
分类:
编程语言 时间:
2016-04-26 16:01:44
阅读次数:
668