NodeJS爬虫系统 NodeJS爬虫系统0. 概论爬虫是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化。 robots.txt是一个文本文件,robots....
分类:
Web程序 时间:
2015-12-21 21:41:41
阅读次数:
240
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文...
分类:
编程语言 时间:
2015-12-18 06:56:32
阅读次数:
378
网页可见区域宽: document.body.clientWidth 网页可见区域高: document.body.clientHeight 网页可见区域宽: document.body.offsetWidth (包括边线的宽) 网页可见区域高: document.body.offsetHeight...
分类:
Web程序 时间:
2015-12-17 15:59:45
阅读次数:
122
前言:和我一样喜欢UI的一定喜欢这里的内容。下面是关于sketch资源获取网页,点击图片就能进入:连接是:https://github.com/JakeLin居然意外百度到Sketch中国,还提供sketch破解版下载哦:http://www.sketchs.cn/index.htmlSketch ...
分类:
Web程序 时间:
2015-12-11 23:53:56
阅读次数:
294
码如下:function getPageContent($url) { //$url='http://www.ttphp.com; $pageinfo = array(); $pageinfo[content_type] = ''; $pageinfo[charset] = ''; $pageinf...
分类:
Web程序 时间:
2015-12-08 01:56:35
阅读次数:
367
测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0测试网址:http://tieba.baidu.com/p/2827883128目的是下载该网页下所有图片,共160+张。可以分为以下几步:1、获取网页源代码。发现直接通过urllib2或者req...
分类:
编程语言 时间:
2015-12-06 15:55:01
阅读次数:
301
获取网页的表格的某个单元格的值,直接上代码如下:package com.table;import java.util.List;import org.openqa.selenium.By;import org.openqa.selenium.WebDriver;import org.openqa.s...
分类:
Web程序 时间:
2015-12-04 12:27:18
阅读次数:
149
主要用到的是MSAA(Microsoft Active Accessibility) 函数:ObjectFromLResult,该函数在动态链接库 oleacc.dll 中定义。uses SHDocVw, MsHtml, ActiveX;type TObjectFromLResult = funct...
javascript实现:top.location.href顶级窗口的地址
this.location.href当前窗口的地址PHP实现#测试网址:http://localhost/blog/testurl.php?id=5
//获取域名或主机地址
echo$_SERVER[‘HTTP_HOST‘]."<br>";#localhost
//获取网页地址
echo$_SERVER[‘PHP_SELF‘]."<br&..
分类:
Web程序 时间:
2015-12-01 16:34:39
阅读次数:
170
URL url = new URL(path);//path为url路径HttpURLConnection conn = (HttpURLConnection) url.openConnection();// 利用HttpURLConnection对象,我们可以从网络中获取网页数据.conn.set...
分类:
Web程序 时间:
2015-11-30 19:58:59
阅读次数:
130