搜索关键字：爬虫，搜索到10452个结果！码迷,mamicode.com！

使用“关键字+时间段+区域”搜集新浪微博数据的方法

作为国内社交媒体的领航者，很遗憾，新浪微博没有提供以“关键字+时间+区域”方式获取的官方API。当我们看到国外科研成果都是基于某关键字获得的微博，心中不免凉了一大截，或者转战推特。再次建议微博能更开放些！庆幸的是，新浪提供了高级搜索功能。找不到？这个功能需要用户登录才能使用……没关系，下面将详细讲述如何在无须登录的情况下，获取“关键字+时间+区域”的新浪微博。首先...

分类：其他好文时间：2014-07-27 11:38:44 阅读次数：386

最新Python新浪微博爬虫2014-07

之前微博的登陆密码加密是三层sha1算法，现在更改为rsa2算法下面是python脚本，并把首页账号首页微博抓取下来。亲测可行。#! /usr/bin/env python# -*- coding: utf-8 -*-import sysimport urllib2import urllibimpo...

分类：编程语言时间：2014-07-26 14:13:17 阅读次数：267

python 爬虫抓取心得分享

/** author： insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/??? 0x1.urllib.quote(‘要编码的字符串‘) 如果你要在url请求里面放入中文...

分类：编程语言时间：2014-07-26 03:36:37 阅读次数：334

83款网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&搜索引擎 NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游In...

分类：其他好文时间：2014-07-26 01:46:06 阅读次数：442

构建基于Javascript的移动web CMS——加载JSON文件

在上一篇中说到了如何创建一个Django Tastypie API给移动CMS用，接着我们似乎也应该有一个本地的配置文件用于一些简单的配置，如"获取API的URL"、"产品列表"、"SEO"(在一开始的时候发现这是不好的，后面又发现Google的爬虫可以运行Javascript，不过也是不推荐的。)这些东西是不太需要修改的，直接写在代码中似乎又不好，于是放到了一个叫作configure.json的...

分类：移动开发时间：2014-07-25 11:13:01 阅读次数：474

scrapy-redis实现爬虫分布式爬取分析与实现

一 scrapy-redis实现分布式爬取分析所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository（链接：）已经做了翻译（README.rst）。在前面一篇文章中我已经借助两篇相关文章分析了使用redis实现爬虫分布式的中心。归结起来...

分类：其他好文时间：2014-07-24 23:13:44 阅读次数：306

网页爬虫

/* 网页爬虫*/import java.io.*;import java.net.*;import java.util.regex.*;class RegexTest2{ public static void main(String[] args) throws Exception { getMa...

分类：Web程序时间：2014-07-23 20:34:25 阅读次数：217

线程死锁的思考

线程池中的死锁情况这次死锁发生在什么情况下呢？在最开始写线程池的时候，我设计了线程是可重用的，主要是通过Event信号实现，通过在每个线程核心工作代码执行完毕后会将自己归还到池中，然后等待Event信号。主线程会以循环超时阻塞的方式监视一个任务队列，当发现有任务时便会从线程池中取出一个线程，并设置它的任务和目标函数，然后去start或者resume，resume就是会设置Event信号让线程不再阻塞，这里，从池中取线程的方法_get和归还线程方法returnThread都已经加锁，_get和return...

分类：编程语言时间：2014-07-23 17:15:01 阅读次数：333

Java广度优先爬虫示例(抓取复旦新闻信息)

一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE)为intelij 13.1,Jar包管理工具为Maven,不习惯用intelij的同学,...

分类：编程语言时间：2014-07-23 11:59:36 阅读次数：627

python实现简单爬虫（二）---- 使用urllib等python模块

之前使用scrapy实现了一个超级简单的爬虫工具，用于抓取豆瓣上面所有的编程书籍信息（由于不需要爬取整个页面的所以链接，所以不需要用到BFS or DFS，只实现顺序抓取下一页）这次使用的是python自带的urllib 和urllib2等python模块实现，同样以豆瓣上面的爱情电影信息作...

分类：编程语言时间：2014-07-22 22:47:35 阅读次数：347

共10452条上一页 1 ... 1027 1028 1029 1030 1031 ... 1046 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)