昨天,京东在美国上市了,你知道吗? 美国当地时间5月22日,京东在美国的纳斯达克成功上市,市值将近300亿美元,成为中国继腾讯和百度之后的第三大互联网上市公司。有趣的是,今年也是其创始人刘强东40岁的生日。 作为京东的一位普通用户,我想说一下最近我和它的两次“亲密接触”。 第一次“亲密接触”,我使用安卓手机客户端在京东上买了两本书,是第一天晚上八点多下的单...
分类:
其他好文 时间:
2014-05-26 06:12:35
阅读次数:
315
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
详细可参考
(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》
(2)【搜索引擎基础知识1】搜索引擎的技术架构
(3)【搜索引擎基础知识2】网络爬虫的介绍
1、...
分类:
其他好文 时间:
2014-05-26 05:45:24
阅读次数:
266
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。
1. 网络爬虫本质就是浏览器http请求。
浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:
1)首先, 客户端程序连接到域名系统...
分类:
其他好文 时间:
2014-05-26 05:26:52
阅读次数:
358
Originated
From:http://blog.csdn.net/pi9nc/article/details/9734437#comments[Python]网络爬虫(一):抓取网页的含义和URL基本构成一、网络爬虫的定义网络爬虫,即Web
Spider,是一个很形象的名字。把互联网比喻成一...
分类:
编程语言 时间:
2014-05-25 23:58:31
阅读次数:
584
#encoding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from sgmllib import SGMLParser
import re
import urllib
class URLLister(SGMLParser):
def start_a(self, attrs):
url = [v ...
分类:
编程语言 时间:
2014-05-25 22:47:56
阅读次数:
340
最近在抽空学了一下python,于量就拿爬是练了下手,不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。#test
rdpimport urllib.requestimport re#登录用的帐户信息d...
分类:
编程语言 时间:
2014-05-25 22:07:34
阅读次数:
449
clear all
A4=440;%标准音A4 不同的曲调音调不同scale的取值范围不同
pt=44100;p0=pt/2;%频率
scale=A4/2^(9/12)*2.^((-12:11)/12);%这里可以调节音调高低,eg:改变式子中的-12:11为0:23
map=[1 3 5 6 8 10 12 13 15 17 18 20 22 24 25];%音符,这个需要看曲谱编码...
分类:
其他好文 时间:
2014-05-25 07:27:55
阅读次数:
1212
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349
最近有点着迷Python,学习基本语法之后,首先从爬虫开始,看了《使用python登录人人网并发表状态》一文后,很感兴趣,然后又曾经苦于人人网聊天记录删除的繁琐,于是决定写一个聊天记录一键删除的小脚本,好啦,废话不多说:#encoding:utf-8import
urllib2, urllib, c...
分类:
编程语言 时间:
2014-05-24 09:35:03
阅读次数:
390