码迷,mamicode.com
首页 >  
搜索关键字:爬虫    ( 10452个结果
Java 爬虫
import java.awt.BorderLayout;import java.awt.Cursor;import java.awt.Font;import java.awt.GridBagConstraints;import java.awt.GridBagLayout;import java....
分类:编程语言   时间:2014-07-31 12:50:26    阅读次数:318
CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据
本文参考链接详细介绍如何使用Jsoup包抓取HTML数据,是一个纯java工程,并将其打包成jar包。希望了解如何用java语言爬虫网页的可以看下。 杂家前文就又介绍用HTTP访问百度主页得到html的string字符串,但html的文本数据如果不经过处理就是个文本字符串没有任何效果的。所谓的浏览器就是负责将文本的html“翻译”成看到的界面。在前文有介绍,这个csdn的客户端app分首页、业界、...
分类:移动开发   时间:2014-07-31 03:03:25    阅读次数:430
java 爬虫在 netbeans 里运行和单独运行结果不一样
java 程序在 netbeans 中运行与单独运行的结果不一样...
分类:编程语言   时间:2014-07-30 14:53:23    阅读次数:353
Windows 环境下运用Python制作网络爬虫
import webbrowser as web import time import os i = 0 MAXNUM = 1 while i <= MAXNUM: web.open_new_tab('要刷的网络地址') os.system('taskkill /F /IM 浏览器文件名(chrome.exe)') i += 1 else:...
分类:编程语言   时间:2014-07-29 22:08:12    阅读次数:324
C#中使用正则表达式提取超链接地址的集中方法
一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)]*?href=(['""]?)(?[^'""\s>]+)\1[^>]*>(?(?:(?!"); MatchCollection mc =...
分类:其他好文   时间:2014-07-29 17:24:42    阅读次数:267
php网页爬虫
<?php/*网页爬虫*/#最简单的使用,属性都采用默认值/*$curl=curl_init(‘http://www.baidu.com‘);$output=curl_exec($curl);curl_close($curl);echo$output;*/#稍微复杂一点的,对页面进行操作/*$curl=curl_init();curl_setopt($curl,CURLOPT_URL,‘http://www.baidu.com‘);//..
分类:Web程序   时间:2014-07-29 15:46:39    阅读次数:293
使用PHP创建基本的爬虫程序【转】
Web Crawler, 也时也称scrapers,即网络爬虫,用于自动搜索internet并从中提取 想要的内容。互联网的发展离不开它们。爬虫是搜索引擎的核心,通过智能算法发现符合 你输入的关键字的网页。Google网络爬虫会进入你的域名,然后扫描你网站的所有网页,从中析取网页标题,描述, 关键字...
分类:Web程序   时间:2014-07-29 10:25:48    阅读次数:369
js 中的正则表达式
一:正则表达式定义:记录文本规则的代码作用:表单验证,爬虫技术,可以对目标的内容进行替换。二:正则表达式的组成 1:普通字符组成正则浏览器的输出 2:定义字符集组成正则 3:特殊字符集组成正则 4:限制字符集组成正则 5:模式修正符
分类:Web程序   时间:2014-07-28 11:31:10    阅读次数:205
开源新闻采集器(一)内容简介
1.最近闲来无事,想把自己最近一段时间工作的东西整理下。目标:新闻采集器 1.只需要输入列表网址,采集器将自动采集所有的文章。 2.采集器最后无需写任何采集规则。 3.基于静态爬虫的HTML分页获取 策略(自己捉摸的,准确度不高) 4.基于开源项目的内容提取算法(Html2Arti...
分类:其他好文   时间:2014-07-28 11:22:50    阅读次数:197
用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。教程介绍了如何用WebCollector打造一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)...
分类:编程语言   时间:2014-07-27 11:50:23    阅读次数:424
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!