搜索关键字：java爬虫，搜索到135个结果！码迷,mamicode.com！

基于webmagic的爬虫小应用--爬取知乎用户信息

最近跟舍友@小疯一起研究爬虫他写了个小应用-CSDN博客爬虫有兴趣的朋友可以点进去看看哦~ 一起学习。一起进步。听到“爬虫”，是不是第一时间想到python/php ？多少想玩爬虫的java学习者就因为语言不通而止步。Java是真的不能做爬虫吗？当然不是。只不过python的3行代码能解决的问题，而Java要30行。这里推荐大家一个大牛做的java爬虫框架...

分类：Web程序时间：2016-05-03 18:07:07 阅读次数：573

java爬虫学习日记2-宽度优先爬虫代码实现

爬虫两种方式--宽度优先和带偏好爬虫先复习下上次学了什么：URL和URI的结构组成根据指定网址爬取网站内容（get方式和post方式）上一日记中学到了抓取单个页面内容的方法，但实际项目中则需要爬虫遍历互联网，把互联网中相关的页面都抓取回来。那么爬虫是怎样遍历互联网，把页面..

分类：编程语言时间：2016-04-26 16:09:09 阅读次数：247

Java 爬虫入门(网易云音乐和知乎实例)

最近公司赶项目，过上了996的生活，周日还要陪老婆，实在没时间静下来写点东西，于是导致了swift编写2048的第三篇迟迟没有开工，在此说声抱歉，尽量抽时间在这周末补出来。首先来介绍下爬虫的作用，爬虫主要用于大批量抓取网站中我们所需数据，其实就是模拟出http请求，之后解析分析所得的数据获取我们需要的信息的这么一个过程。由于网上已经有很多现成的爬虫框架了，这里就不重复造轮子了，先给大家说一下原...

分类：编程语言时间：2016-04-22 20:27:30 阅读次数：1094

java爬虫框架webmagic

最近需要爬去网站的一些商品,就开始在网上找方法,本来是想着用Python做的,因为以前用Python写过一个小脚本,爬取一个文献网站上的免费文献. 步骤大概是这样的:1,先获取给定URL的html文件,然后在这个文件中用正则表达式匹配出需要的URL(可能含有分页的URL),然后再获取匹配出的URL的

分类：编程语言时间：2016-02-26 20:43:20 阅读次数：237

用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）

简单介绍： WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API。仅仅需少量代码就可以实现一个功能强大的爬虫。怎样将WebCollector导入项目请看以下这个教程： JAVA网络爬虫WebCollector深度解析——爬虫内核參数： WebCol

分类：编程语言时间：2016-02-19 14:09:48 阅读次数：771

Java爬虫框架SeimiCrawler的工程自动打包工具使用

为了便于开发者对使用SeimiCrawler框架开发的爬虫工程的打包部署，SeimiCrawler现已推出maven-seimicrawler-plugin，一个maven工程的自动化打包插件。下面简要介绍下他的使用。开始pom添加添加plugin cn.wanghaomiao mave...

分类：编程语言时间：2016-01-15 01:11:44 阅读次数：281

Java爬虫实战（二）：抓取一个视频网站上2015年所有电影的下载链接

前言：这是Java爬虫实战的第二篇文章，在第一篇文章仅仅只是抓取目标网站的链接的基础上，进一步提高难度，抓取目标页面上我们所需要的内容并保存在数据库中。这里的测试案例选用了一个我常用的电影下载网站（http://www.80s.la/）。本来是想抓取网站上的所有电影的下载链接，..

分类：编程语言时间：2015-12-31 13:04:59 阅读次数：575

Java爬虫实战（一）：抓取一个网站上的全部链接

前言：写这篇文章之前，主要是我看了几篇类似的爬虫写法，有的是用的队列来写，感觉不是很直观，还有的只有一个请求然后进行页面解析，根本就没有自动爬起来这也叫爬虫？因此我结合自己的思路写了一下简单的爬虫，测试用例就是自动抓取我的博客网站（http://www.zifangsky.cn）..

分类：编程语言时间：2015-12-29 16:23:25 阅读次数：297

使用HtmlUnit实现数据抓取

HtmlUnit将HttpClient和java自带的网络API进行结合，使抓取数据变的更加容易、更加易于操作。HtmlUnit的底层还是封装了HttpClient，但是经过封装后，解析出来的内容更像一个网页，而不是抽象的请求和响应，所以更加便于开发人员上手。//[1]new一个WebClient，在其中定义一种浏..

分类：Web程序时间：2015-12-20 17:41:33 阅读次数：400

通过wireshark获取应用接口并使用爬虫爬取网站数据（二）

接上文找到接口之后连续查看了几个图片，结果发现图片都很小，于是用手机下载了一个用wireshark查看了一下url之前接口的是imges_min下载的时候变成了imagessoga，知道之后立马试了一下果然有效，但是总不能一个一个的查看下载吧于是连夜写了个java爬虫下面是代码package com...

分类：Web程序时间：2015-11-13 19:00:42 阅读次数：400

共135条上一页 1 ... 8 9 10 11 12 ... 14 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)