码迷,mamicode.com
首页 > Web开发 > 详细

使用curl模拟ip和来源进行网站采集的实现方法

时间:2017-07-13 20:37:15      阅读:302      评论:0      收藏:0      [点我收藏+]

标签:erro   blank   ons   res   pre   get   方法   方式   top   

对于限制了ip和来源的网站,使用正常的采集方式是不行的。本文将介绍一种方法,使用php的curl类实现模拟ip和来源,实现采集限制ip和来源的网站。

1.设置页面限制ip和来源访问

server.php

<?php
 
$client_ip = getip();
$referer = getreferer();
 
$allow_ip = ‘192.168.1.100‘;
$allow_referer = ‘http://www.uxuew.cn;
 
if($client_ip==$allow_ip && strpos($referer, $allow_referer)===0){
  echo ‘allow access‘;
}else{
  echo ‘deny access‘;
}
 
 
// 获取访问者ip
function getip(){
  if(!empty($_SERVER[‘HTTP_CLIENT_IP‘])){
    $cip = $_SERVER[‘HTTP_CLIENT_IP‘];
  }elseif(!empty($_SERVER[‘HTTP_X_FORWARDED_FOR‘])){
    $cip = $_SERVER[‘HTTP_X_FORWARDED_FOR‘];
  }elseif(!empty($_SERVER[‘REMOTE_ADDR‘])){
    $cip = $_SERVER[‘REMOTE_ADDR‘];
  }else{
    $cip = ‘‘;
  }
  return $cip;
}
 
// 获取访问者来源
function getreferer(){
  if(isset($_SERVER[‘HTTP_REFERER‘])){
    return $_SERVER[‘HTTP_REFERER‘];
  }
  return ‘‘;
}
 
?>

2.使用curl正常访问

<?php
function doCurl($url, $data=array(), $header=array(), $timeout=30){
 
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
  curl_setopt($ch, CURLOPT_POST, true);
  curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data));
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
  curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
 
  $response = curl_exec($ch);
 
  if($error=curl_error($ch)){
    die($error);
  }
 
  curl_close($ch);
 
  return $response;
 
}
 
// 调用
$url = ‘http://www.uxuew.cn/server.php;
$response = doCurl($url);
 
echo $response;
?>

 

3.使用curl模拟ip和来源进行访问

模拟来源

curl_setopt($ch, CURLOPT_REFERER, ‘来源‘);

模拟ip

curl_setopt($ch, CURLOPT_HTTPHEADER, array(‘CLIENT-IP: 模拟ip‘,‘X-FORWARDED-FOR: 模拟ip‘));

完整代码如下:

<?php
function doCurl($url, $data=array(), $header=array(), $referer=‘‘, $timeout=30){
 
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
  curl_setopt($ch, CURLOPT_POST, true);
  curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data));
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
  curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
 
  // 模拟来源
  curl_setopt($ch, CURLOPT_REFERER, $referer);
 
  $response = curl_exec($ch);
 
  if($error=curl_error($ch)){
    die($error);
  }
 
  curl_close($ch);
 
  return $response;
 
}
 
// 调用
$url = ‘http://www.example.com/server.php‘;
$data = array();
 
// 设置IP
$header = array(
  ‘CLIENT-IP: 192.168.1.100‘,
  ‘X-FORWARDED-FOR: 192.168.1.100‘
);
 
// 设置来源
$referer = ‘http://www.uxuew.cn/;
 
$response = doCurl($url, $data, $header, $referer, 5);
 
echo $response;
?>

 

使用curl模拟ip和来源进行网站采集的实现方法

标签:erro   blank   ons   res   pre   get   方法   方式   top   

原文地址:http://www.cnblogs.com/uxuew/p/7162014.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!