码迷,mamicode.com
首页 >  
搜索关键字:爬虫    ( 10452个结果
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息。爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表...
分类:编程语言   时间:2014-10-11 20:13:06    阅读次数:260
设计题
1.一个有10亿条记录的文本文件,已按照关键字排好序存储,设计算法,可以快速的从文件中查找指定关键字的记录。$10亿=10^9~2^30$,每行记录如果是1kB的话,总共是1TB。将文件分割成1000份,每份1G,load进内存作二分查找即可。2. 设计一个爬虫系统。3. 设计一个长连接手机云推送服...
分类:其他好文   时间:2014-10-11 17:12:05    阅读次数:160
爬虫功能
感觉写得有点烂,因为很多地方都需要做判断,而我不懂HTML语言,所以有些关键位置判断做得很潦草。什么都要学,为什么我这么菜。找个标签都要找很久。。。下一个版本马上就要出来了,修复了好多地方,好多BUG。。。
分类:其他好文   时间:2014-10-11 01:55:14    阅读次数:305
总结2
当技术达到一定的地步之后, 思维是关键 把一些基础的技术组合起来,运用起来, 而不是在去学习新的技术像我现在来讲,已经能看懂一些PHP 了, xss+csrf 或者php审计更契合当前的技术。 python +EXP 的编写和爬虫组合更棒, 而不是直接去学新的技术liunx是需要掌握 ,LIUNX是...
分类:其他好文   时间:2014-10-10 23:44:14    阅读次数:284
用python爬虫抓站的一些技巧总结
1.[代码]最基本的抓站 ?12import urllib2content = urllib2.urlopen('http://XXXX').read()2.[代码]使用代理服务器 ?12345import urllib2proxy_support = urllib2.ProxyHandler({'...
分类:编程语言   时间:2014-10-10 19:32:24    阅读次数:226
半年涉及到的技术
webservice运行原理需要继续对底层机制进行研究,常见的WS调用方式、MQ通信、 线程池和多线程管理机制 异常处理机制 数据库连接池管理 RMI远程调用 log4j日志管理 dom4j进行xml解析 页面爬虫,涉及到HTTP协议 开源...
分类:其他好文   时间:2014-10-10 16:12:35    阅读次数:139
基于JAVA语言的网络爬虫
Introduction: 这个小demo用于爬取淘宝网的相关链接。 首先从“www.taobao.com"这个url开始,手机页面上的所有url,然后存入toCrawList 。当toCrawList不为空时,拿出一个url,把它存入数据集并且搜寻这个url上的所有链接充入toCrawList. 这是一个BFS过程。 Framework: Code: 就网络爬虫来讲这个de...
分类:编程语言   时间:2014-10-09 18:49:37    阅读次数:345
树莓PI上跑爬虫
主要是进行主机上使用myeclipse开发后,在从机上跑最后的程序在主机上和树莓上都安装好java环境,maven,ant拷到RPI上的时候修改为拷贝到RPI上的目录结构mvn compileant -f spy1\build.xml clean build App
分类:其他好文   时间:2014-10-09 02:08:38    阅读次数:404
再论pyquery
发现对于QQ群空间文件的抓取毫无办法。QQ空间的代码可圈可点:做了一个js的“客户端”,第一次加载时,将文件的列表信息全部抓取出来,然后基于js进行翻页和排序。因此,想要抓取js渲染的dom,是不可能的,此处只能用js或者jq来操作了。对于这种情况,得用js写“爬虫”逻辑。附上qq空间群文件的抓取逻...
分类:其他好文   时间:2014-10-07 22:39:24    阅读次数:159
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转自:http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%...
分类:编程语言   时间:2014-10-07 19:07:03    阅读次数:331
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!