如何挖掘网络资源（编程随想的博客）

时间：2017-11-25 21:42:20 阅读：291 评论：0 收藏：0 [点我收藏+]

一：网站的类型和使用场景

　　首先来介绍一下网站的类型和特点。不同的网站特点将决定你挖掘资源的方式。

★网站内容的指标

　　要挖掘互联网的资源，首先需要关注网站的内容。俺大致总结了几个指标，任何网站的内容，都具有这几个指标。
　　通过这些指标，可以评估某个网站【对你的价值】到底有多大，还可以评估你挖掘其中的内容需要耗费多少时间和精力。

◇内容的信噪比

　　任何一个网站的内容，都会有一些信息是无用的，咱们称之为“噪声”。所谓的【信噪比】，就是是“有用信息”与“垃圾噪声”的比率。显然，信噪比越大越好。
　　提醒一下：信噪比的评价是主观的。因为每个人的关注点（价值取向）不同，所以同样的内容，对不同的人，会有不同的信噪比。

◇内容的可搜索性

　　主要指网站的内容是否容易被搜索引擎检索和收录。
　　这个指标是客观的。

◇内容的生命周期

　　主要指网站内容的生命周期的长短。关于信息的生命周期，稍微解释一下：对于某个信息而言，只有在它的生命周期之内，该信息才有价值；过了生命周期，就没有价值。
　　举例：
　　比如美国大选之前，某人制作了一个分析报告，分析竞选双方的得票率。那么，当大选结果揭晓之后，这个报告的生命周期就结束了。
　　这个指标是半主观半客观的。
　　俺通常关注那些生命周期较长的内容。因为在网上冲浪是需要消耗时间和精力的。如果你关注的都是生命周期很短的信息，从“投资回报率”的角度来看，是不合算滴！

◇内容的组织性

　　指的是网站的不同内容之间，是否具有较好的分类，是否具有较好的层次，是否具有较好的关联。
　　这个指标是客观的。
　　组织性越好，你就越容易找到该网站的其它感兴趣的内容。

★网站的类型

　　互联网上的网站，大致上可以分为“功能型”和“内容型”。如果你要在网上找自己感兴趣的资源，“内容型”网站才是你的最终目标。
　　“内容型”的网站的网站，按照内容创建的方式，大体上可以分为“Web 1.0”和“Web 2.0”两大类。这两类的区别如下：
“Web 1.0”——网站内容由专职的网站编辑创建
“Web 2.0”——网站内容用户创建，洋文叫“UGC”
　　对于 Web 2.0 的网站，还可以再细分为如下几类：
论坛类（BBS、邮件列表）、博客类（包括轻博客）、微博客（Micro Blog）、社交类（SNS）、文件共享类、百科类、问答类、等等。
　　对于上述这些分类，俺来分别介绍一下。

★Web 1.0

　　Web 1.0 的典型代表，包括早期的门户网站、某些专业类网站、某些报考杂志的Web版、等等。

◇内容的可搜索性

　　这类网站通常是“搜索引擎友好”的，甚至还会针对搜索引擎做优化（SEO）。因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性

　　这类网站的内容是由专职编辑维护的，所以内容的组织性通常比较好。比如网站通常会有分类导航，相关的网页之间会有超链接。

◇内容的生命周期

　　如果是专业性的网站，内容的生命周期一般比较长；如果是新闻类的，则比较短。

◇内容的信噪比

　　对于新闻类的网站，信噪比通常不会太好。对于专业类的网站，则视具体情况而定。

◇俺的使用场景

俺平常不会主动去逛那些 Web 1.0 的网站。
通常是在搜索引擎中找某关键字，然后跳转到该网站的某篇文章。
如果俺觉得这篇文章的质量差，直接关掉。
如果俺觉得这篇文章的质量好，会顺便浏览该网站相关的文章（根据站内导航、文章的交叉链接）。
如果浏览了多篇文章之后，发现总体的质量较好，会把该网站加入自己的收藏或者是订阅该网站的 RSS（如果有的话）。

★论坛类（BBS）

　　论坛类的网站，早在 Web 2.0 概念提出之前，就已经很流行了。

◇内容的可搜索性

　　大部分论坛的内容，是无需登录即可浏览的。所以大部分论坛都是可搜索的；极少数是不开放的，则搜索引擎无法收录论坛内容。

◇内容的组织性

　　论坛里面的帖子，通常会根据类型分在不同的板块。板块内的帖子，通常只提供排序功能（比如按时间、浏览数、回帖数等），有些论坛可以按照发帖人来组织帖子。
　　总的来说，论坛类内容的组织性，算中上。

◇内容的生命周期

　　这取决于论坛的定位。不同的论坛，差异较大。
　　比如：一个讨论娱乐圈八卦的论坛，帖子的生命周期就比较短；而一个讨论哲学的论坛，帖子的生命周期相对较长。

◇内容的信噪比

　　大部分论坛的信噪比都不好——灌水的比例居高不下。
　　有些论坛的版主会专门整理一个精华区，那么信噪比会有所改善。

◇俺的使用场景

传统的BBS，俺没注册过帐号；邮件列表倒是注册过几个。
平时俺不会主动去逛论坛类网站。
通常是在搜索引擎中找某关键字，然后跳转到某论坛的某帖子。
如果俺觉得这篇文章的质量差，直接关掉。
如果俺觉得这篇文章的质量好而且是原创，会顺便浏览该发帖人的相关文章（这种情况不多见）。

★博客类（Blog）

◇内容的可搜索性

　　这类网站通常是“搜索引擎友好”的，因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性

　　大部分博客都支持分类导航或者是标签（Tag）导航，某些博客之间还会搞交换链接。
　　组织性算是好的。

◇内容的生命周期

　　这个视具体的博客而定。

◇内容的信噪比

　　总的来说，博客的信噪比好于论坛、SNS、微博客。

◇俺的使用场景

　　博客类网站是俺的主要信息来源之一。关于博客类网站的信息获取，俺会在本系列后面专门介绍。

★微博客类（MicroBlog）

　　微博客是最近几年突然火爆起来的。国外首屈一指的当属“Twitter”，国内知名的山寨有“新浪微博”。

◇内容的可搜索性

　　通常情况下，微博客是可搜索的。但是，某些做成长微博的图片，其内容是不可搜索的。

◇内容的组织性

　　内容的组织较差，通常是根据时间轴组织内容。
　　信息的碎片化非常非常严重。

◇内容的生命周期

　　微博客的内容，通常生命周期都很短。你设想一下，你会去看某人在一个月之前发的微博客内容吗？甚至2-3天之前的内容，就已经没人关注了。

◇内容的信噪比

　　在这几种类型的网站中，微博客的信噪比估计是最差的。里面充斥着大量的噪声，还有大量同质化的信息。

◇俺的使用场景

　　俺在开博客前就注册过 Twitter 的帐号，平时几乎不用；没注册过国内的微博客。
　　至于俺为啥不用微博客类，请参见《为啥俺不常用微博——兼谈时间管理心得》。

★社交类（SNS）

　　SNS 已经火了好几年了。国外首屈一指的当属“Facebook”，国内知名的山寨有“开心网”和“人人网”。

◇内容的可搜索性

　　有的 SNS 对搜索引擎友好（比如 G+），有些则不友好（比如 Facebook）。

◇内容的组织性

　　通常是按照用户来组织组织；对于具体的用户，再按照时间轴组织内容。
　　信息有不同程度的碎片化（视具体网站的具体用户而定）。总的来说，内容的组织性“中下”。

◇内容的生命周期

　　总的来说，内容的生命周期比博客短，比微博长。

◇内容的信噪比

　　总的来说，SNS的信噪比不如博客，好于微博客。

◇俺的使用场景

俺在开博客前就注册过 Facebook，前两年 G+ 推出后也注册了。不过平时很少用。
通常是在搜索引擎中找某关键字，然后跳转到 SNS 网站的某页面。
如果觉得该页面的内容没价值，直接关掉。
如果觉得该页面的内容有价值，再去看看该 SNS 用户的其它内容。
如果该 SNS 用户的很多内容都不错，看看此人是否有博客，有的话就订阅。

★百科类

　　百科类网站，全球首屈一指的当然是“维基百科”，国内有山寨的“百度百科”和“互动百科”。

◇内容的可搜索性

　　这类网站通常是“搜索引擎友好”的，甚至还会针对搜索引擎做优化（SEO）。因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性

　　通常会有良好的分类组织，词条之间会有很多交叉连接。
　　总的来说，内容组织性较好。

◇内容的生命周期

　　百科类网站的内容，通常生命周期很长。

◇内容的信噪比

　　百科类网站的词条，通常是以多人协作的方式维护的，一般不会有垃圾信息。
　　总的来说，信噪比很好。

◇俺的使用场景

俺通常只用维基百科。因为维基百科的词条最多，支持多种语言（可惜俺只看懂中文和英文），而且不存在"和谐"的问题。国内的百科类网站，政治敏感内容是查不到滴。
当俺接触到一个不熟悉的词汇，通常会先用搜索引擎搜该词条的维基百科。
看完维基百科对该词条的解释之后，如果意犹未尽，就再看看跟该词条相关的其它词条。
维基百科包含大多数主流的语言。所以有时候看完中文的词条，再去看看对应的英文词条。

★文件共享类

　　文件共享类的网站，有时候又称为“网盘”。不同的文件共享网站，内容和功能差异较大。

◇内容的可搜索性

　　在文件共享类网站中，有的是提供 Web 界面的——这类网站通常是搜索引擎友好的；还有一些是通过专门的 P2P 软件进行文件分享和下载的，搜索引擎未必能收录其内容。
　　即使是 Web 界面的文件共享，搜索引擎通常只能收录文件名，无法抓取文件内容。

◇内容的组织性

　　有些网站会根据文件上传者进行分类组织（比如新浪爱问），有些会根据文件内容所属领域进行分类（比如百度文库）。还有些网站会提供相关性推荐——列出下载该文件的网友同时也下载其它哪些文件。
　　总的来说，组织性中等。

◇内容的生命周期

　　被分享的文件，生命周期通常不会短。

◇内容的信噪比

　　信噪比因上传者而异，有的好有的差。

◇俺的使用场景

电子书是俺获取信息的主要途径之一，所以俺经常会去网上找电子书。
通常是在搜索引擎中找某电子书（搜索书名），然后跳转到某文件共享网站，下载之。
如果文件共享类网站提供相关性推荐，偶尔也会根据“相关性”的推荐，下载另外的电子书。

★问答类

　　问答类是最近几年兴起的，国外的代表是“Quora”和“Stack Overflow”，国内的山寨是“知乎”。

◇内容的可搜索性

　　这类网站通常是"搜索引擎友好"的，甚至还会针对搜索引擎做优化（SEO）。因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性

　　通常会根据问题领域做分类，某些较好的问答类网站支持标签（Tag）功能。
　　总的来说，内容组织性较好。

◇内容的生命周期

　　这类内容的生命周期，通常较长。

◇内容的信噪比

　　信噪比中上，至少比论坛好。

◇俺的使用场景

俺没有注册过问答类网站的帐号，平时也不会主动去逛问答类网站。
通常是碰到某技术问题，在搜索引擎中找相关的关键字，然后跳转到某问答类网站的某话题。
如果觉得这篇文章没帮助，直接关掉。
如果觉得这篇文章有帮助，看完，关掉。

★结尾

　　通过上述对比，你应该大致看出来，哪些类型的网站比较可能找到高价值的内容。

二：Google 搜索的基本语法

★搜索引擎的选择（为啥不用百度）

　　首先，俺简单说一下“搜索引擎的选择”。
　　在咱们天朝，Google 屡屡被 GFW 骚扰，导致百度占了便宜，成为份额最高的搜索引擎。不过今天这篇教程，俺还是继续拿 Google 来说事儿。为啥俺不喜欢用百度，主要原因如下：

◇搜索结果的阉割很严重

　　这点是众所周知的。
　　百度毕竟是在天朝混饭吃的，不得不向朝廷妥协，对搜索结果进行自我审查。假如某个页面符合你的搜索条件，但碰巧包含某个敏感词，那么该页面就不会出现在搜索结果中。
　　因此，你用百度搜索，看到通常都是比较“和谐”的内容。久而久之，你就真的以为这世界很和谐（长期用百度搜索，就如同长期看新闻联播）。

◇对洋文的收录不如 Google

　　这点是比较显然的，俺就不举例了。
　　对于经常上网查（理工类）技术资料的网友，这点也很重要。这方面的网上资源，洋文总是比中文的更丰富。

◇对墙外网站的收录不如 Google

　　这点，很多人可能体会不深。俺举个例子。
　　刚才测试了一下，分别用 Google 和百度搜索 "编程随想" （此处须用半角引号，其作用后面会介绍。为了客观性，俺使用一个干净的浏览器——没登录过任何帐号，清空了 cookie）
　　Google 搜到的第一条就是俺博客主站点的首页，而百度搜到的第一条是俺在 CSDN 博客的首页（从2012年春节就没更新了）。除了第一条，其它几条也是 Google 的结果相关度较高，而百度的结果相关性较差。
　　考虑到俺博客在墙外，而且俺最近1-2年写的都是敏感的政治内容，转载的大都是墙外网站，外链主要也位于墙外。所以俺猜测，百度对墙外页面的抓取不如 Google 丰富。

　　虽然说了 Google 的很多好话，估计有些同学还是会问：Google 已撞墙，咋办捏？
　　其实很简单，你只要会翻，墙就成了浮云。俺博客上有很多FQ教程，而且俺每1-2个月会发一篇“FQ快报”。FQ学起来并不难，不要因为FQ问题而损失了一个很好的搜索引擎。
　　下面，俺就开始介绍 Google 的各种常用技巧。

★关键词的逻辑关系

　　首先说一下关键词的逻辑关系。

◇"与"关系

　　当你在搜索框输入多个关键词的时候，默认情况下，这些关键词之间是“与”关系。也就是说，某个页面通常要包含你输入的每一个关键词，才会出现在搜索结果中。

◇"或"关系

　　有些时候，你希望使用“或关系”来组合搜索关键词，那么，可以用 OR 语法，格式如下：

关键词1 OR 关键词2

　　请注意：
　　这里的 OR 一定要大写。

★精确搜索

　　所谓的精确搜索，就是采用某些特定语法，尽量缩小搜索结果的范围，以提高信噪比（关于信噪比，俺在前一篇解释过）。

◇限定关键词的排列

　　比如你直接在搜索框输入不带引号的 编程随想
　　那么，搜索到的结果里面，可能会包含这样的网页——在网页的头部出现 编程，在网页的尾部出现 随想，两者相距甚远。这显然不是你想要的。
　　如果你想明确告诉搜索引擎，这4个字必须紧挨着，那么，你可以使用引号的语法 "编程随想"

　　请注意：
　　这里的引号一定要用半角的。

◇限定搜索的网站

　　1. 限定具体的网站域名
　　有时候，你只想搜索指定网站的内容，可以用 site: 语法。

　　举例——只搜索俺博客的内容：

关键词 site:program-think.blogspot.com

　　请注意：
　　site: 之后的部分，【不】需要写 http:// 或 https://

　　2. 限定具体的网站域名及目录名
另外，site: 之后的部分，还可以带目录名。
比如俺博客的目录结构是按照年份和月份归档的，如果你想搜索俺博客在这个月的内容，可以用如下语法

关键词 site:program-think.blogspot.com/2013/03

　　3. 部分限定域名
　　该语法还有如下变形，支持对域名的部分限定。

　　举例——只搜索 com 顶级域名：

关键词 site:.com

　　举例——只搜索国内的教育网：

关键词 site:.edu.cn

◇限定搜索的网页元素

　　你可以指定让 Google 只搜索网页中的特定元素，有如下几种语法：

　　1. 只搜索标题
用如下语法，要求关键词2 必须在标题中，关键词1 可以在任何网页的地方

关键词1 intitle:关键词2

用如下语法，则要求两个关键词都在标题中

allintitle:关键词1 关键词2

　　2. 只搜索网页正文
语法同上，使用 intext: 和 allintext: 语法。

　　3. 只搜索网页的 URL 网址
语法同上，使用 inurl: 和 allinurl: 语法。
（网页的网址，就是你在浏览器地址栏里面看到的那串）

　　4. 只搜索网页中的超链接
语法同上，使用 inanchor: 和 allinanchor: 语法。
（使用此语法，只搜索网页中可以点击的链接的文字）

◇限定文件格式

　　可以使用 filetype: 语法告诉 Google 只搜索某些类型的文件格式。
　　这个语法用来搜电子书或论文比较方便。比较常用的文件格式有：pdf、doc、rtf、ppt、xls

　　举例——搜索 PDF 文件：

关键词 filetype:pdf

★模糊搜索

◇同义词（波浪号）

　　紧挨着关键词之前放波浪号 ~ 表示搜索同义词。
　　有了这个功能，你就不必用 OR 写一堆关键词。因为 Google 是足够聪明的，知道哪些词汇是近义词。

　　举例：
　　用如下语法，既可以搜索到包含 food 的网页，也可以搜索到包含 nutrition 的网页

~food

　　请注意：
　　这里的波浪号一定要用半角的。

◇数字范围（两点）

　　在两个数字之间放两个小数点 .. 表示模糊搜索该数字范围。

　　举例：

世界杯 2002..2010

　　也可以仅指定一个数字。如下例子表示搜索大于 2002 的数字

　　举例：

世界杯 2002..

　　请注意：
　　这里的小数点一定要用半角的。

◇通配符（星号）

　　你可以用星号 * 指代任何一个词汇。使用此语法，通常配合引号，以提高信噪比。

　　举例：
　　比如“以飨读者”这个成语，第二个字你不知道怎么写，也不知道怎么发音——用输入法写不出来。可以用如下语法搜索，就可以找到该成语的写法。

"以*读者"

　　请注意：
　　这里的星号一定要用半角的。

　　另外，星号也可以配合刚才提到的 site: 语法一起使用。

　　举例：
　　比如新浪有如下几个域名
sina.com.cn
sina.com.hk
sina.com.tw
　　你用如下语法，就可以限定搜索范围在上述几个域名

关键词 site:sina.com.*

★【排除】某些关键词

　　紧挨着关键词之前放减号，表示排除该关键词。也就是说，网页如果包含该关键词，就不会出现在搜索结果中。

　　举例：
　　比如你搜索甲骨文，既找到“考古”方面的页面，也会找到“Oracle 数据库”方面的页面。如果你仅仅想要考古方面的，可以用如下方式排除数据库相关的结果。

甲骨文 -数据库

　　请注意：
　　这里的减号一定要用半角的。

　　这个语法也可以跟前面提到的几个语法（比如 site: 和 filetype:）组合使用。

★括号的使用

　　如果你需要混用上述几种语法，就得考虑使用括号——看起来清晰而且不容易搞错不同语法的优先级。

　　举例：

关键词1 关键词2 (关键词3 OR 关键词4)

★其它的搜索小技巧

　　以下是若干小技巧，平时不经常用。一旦需要，会很方便

◇Google 当词典

　　使用如下语法，Google 会给出该单词的注解和音标。

define:某单词

◇Google 当计算器

　　有些稍微复杂的表达式（比如带多重括号的），用 Windows 计算器不太方便，你可以让 Google 帮你算。
　　只需把数学表达式输入到搜索框，动态提示中就已经告诉你结果了

　　举例：

((1+2)*3)^2

　　提醒一下：
　　表达式中可以使用常见的数学函数（log、ln、sin、cos、等）

◇用 Google 换算汇率

　　比如用如下语法，可以计算 100 美元可兑换多少人民币，还配有近期走势图（USD 是美元货币代码，CNY 是人民币货币代码）。

100 USD to CNY

　　有些同学会问：去哪找那些货币代码捏？
　　没关系，先在搜索框输入上述这串，敲回车；Google 会显示一个界面，上面有换算货币的下拉框，你就可以选世界上的各种外汇。

◇用 Google 换算温度

　　这个可能用得不多——貌似天朝很少人用华氏温度。

　　举例——摄氏温度转华氏温度：

100 c to f

　　举例——华氏温度转摄氏温度：

100 f to c

三：解答 Google 搜索的常见问题（FAQs）

★如何禁用“国别重定向”？

　　（这个问题是问的人最多的）
　　Google 通常会根据“发起搜索的 IP 地址”来进行“国别重定向”。
比如：天朝的网民不FQ直接访问 Google 搜索，就会被重定向到 Google 的香港站点；
比如：你通过 I2P FQ访问 Google 搜索，可能会被重定德国的 Google——因为 I2P 的出口节点在德国。
　　要想禁止国别重定向，可以点击如下网址，然后 Google 会在你本地保存一个 cookie 设置，下次再访问，就不会被重定向了。
http://www.google.com/ncr

★为啥要使用加密搜索？

　　Google 大概是在 2011 年开始提供基于 HTTPS 的加密搜索。在那之前，主流的搜索引擎都是明文搜索的。
　　为啥 Google 要提供 HTTPS 的加密搜索捏？主要目的是：避免你的搜索行为被别人监控。

◇明文搜索的隐患

　　那么，什么情况下，你的搜索行为会被监控捏？主要有如下几种可能性（注意，是【可能性】，不是必然会发生的）：
1. 在公司上网
如果你所在的公司部署了上网审计，或者你公司的网管有偷窥癖。那么你在网上进行明文的搜索（包括 Google、Baidu、Bing 等），有可能会被看到。
2. 在网吧上网
如果你去网吧上网，道理同上。
3. 使用公共 wifi 热点
如果你到公共场合，使用公共的 WIFI 上网（比如某些咖啡吧提供的免费 WIFI），也存在类似隐患。道理同上。
4. 使用FQ软件
在天朝上网，FQ已经是越来越普及的一项运动。要FQ，通常需要FQ软件来帮忙。用了FQ软件之后，你的上网数据都要流经FQ的服务器（包括代理服务器、VPN 服务器）。那么，一旦FQ服务器监控你的网络流量，就有可能知道你的上网行为。

◇加密搜索的好处

　　先表扬一下：在【主流的】搜索引擎中，Google 最先提供了基于 HTTPS 的加密搜索。
　　用了加密搜索之后，即使有人监控你的上网流量（术语叫“网络嗅探”），也只能知道你在用搜索引擎；以下几项内容，监控者是【无法】知道滴。
1. 你在搜索引擎上搜了哪些关键字，监控者是看不到滴
2. 搜索引擎返回给你的查询结果，监控者是看不到滴

　　提醒一下：
　　如果你在 Google 的搜索结果中点击某个网页，并且那个网页是明文的（网址以 http:// 开头）；那么，你点击的这个网页的内容，还是可能被监控者看到。

★两个加密搜索域名有啥差异？

　　Google 目前有两个加密搜索的网址，网址分别是：

https://encrypted.google.com/
https://www.google.com/

　　可能很多人不清楚这两个域名有啥区别。好奇的同学可以看 Google 官方的帮助（在“这里”）。
　　总的来说，https://encrypted.google.com/ 比 https://www.google.com/ 略为安全一些。

★加密搜索能规避浏览器的监控吗？

　　答案是：不能！
　　加密搜索只能规避网络流量的监控（网络嗅探），但是无法防止浏览器窥探你的上网行为。

　　拿老流氓 360 来举例：
　　前几年 360 浏览器就被曝光过严重的用户隐私问题。它的行为很恶劣，会把用户访问的每一个网址都收集下来，然后发送到 360 自己的服务器上。这种情况下，加密搜索是帮不了你的。因为浏览器可以直接拿到地址栏里面的内容（也就是网址）。如果你使用搜索引擎，那么，根据相应的网址就可以判断出你输入了哪些搜索关键字。

　　所以，俺顺便再啰嗦一句：
　　别用那帮国产的浏览器。不论 360 还是腾讯，都不是啥好鸟。360 尤其恶心，整天嚷嚷着要维护用户利益，背地里不知道干了多少龌龊事情。

★Google 的网页缓存（快照）有啥用处？

　　很多网友都知道，搜索引擎的缓存，可以帮你看到已经被删除的页面。其实捏，搜索引擎的缓存还有如下好处。

◇支持 HTTPS

　　刚才介绍了加密搜索的好处，但是也提到了一点：如果你点击某个搜索结果的页面，并且该页面是明文的，那么你的上网行为还是有可能被监控。换句话说：如果有人监控你，可以知道你点开了哪个页面。
　　如何避免这种情况捏？办法之一就是：访问【加密的】搜索引擎缓存（快照）。目前 Google 的缓存是支持 HTTPS 加密的。所以，你可以通过 HTTPS 方式访问某个网页的缓存，就可以部分降低（但不是完全避免）被监控的风险。
　　为啥不是“完全避免”捏？因为 Google 的缓存，只是保存了页面本身的 HTML 内容。它并不保存页面上附加的网页元素（比如：图片、JS、CSS）。如果某个网页元素是通过 HTTP 明文传输的，那么，当你打开这个页面的缓存时，这些明文传输的内容还是会被监控到。
　　拿俺博客举个例子：
　　你可以用加密方式访问俺博客首页的缓存。但是因为俺博客上有图片（右上方的 Logo），而且这个图片是明文传输的。这种情况下，虽然缓存本身是 HTTPS，但 HTTP 明文传输的图片，还是会被监控者看到。并且因为这张图片是俺博客的 Logo，那么监控者就可以猜测你在访问“编程随想”这个博客。但是，网页的 HTML 文本（也就是网页的文字内容）是 HTTPS 加密的，所以监控者比较难判断你在看哪一篇博文。
　　要想解决此问题，有一个替代方法——仅查看缓存的“纯文字版”（下面会提到）。

◇查看有风险的网页（避免网页挂马）

　　Google 在缓存网页的时候，会检查页面上是否有恶意代码。这样有一个额外的好处——规避网页上的挂马。另外，Google 的缓存有两种：一个是完全版，另一个是纯文字版。完全版基本上是页面的原貌，而纯文字版会滤掉网页的附加元素（JavaScript 脚本、CSS 样式表）。显然，“纯文字版”比“完全版”更加安全。
　　举个“纯文字版”的使用场景：
　　时不时会有某读者给俺来信，说某某网页上的内容很有趣，并附上网址。通常情况下，俺是不会直接去点这个网址的。
　　俺的做法是：在 Google 缓存里面查看该网页的（纯文字版）。这样的好处在于：万一这个网址是个陷阱，也不容易中招。

★如何快速打开某页面的 Google 缓存？

◇在搜索框输入网址

　　在 Google 的搜索框中输入：

cache:你要看的网址

　　举例：
本系列的目录页，网址是：https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html
你只需在 Google 搜索框输入如下，即可看到该页面的缓存：

cache:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html

　　上述方式看到的是缓存的“完全版”，在页面上方有一个链接，可以让你切换到“纯文字版”。

◇在地址栏输入网址

　　如果你想用缓存的方式，查看某个有风险的网页。这时候你自然想直接打开“纯文字版”，那么可以在浏览器地址栏输入如下：

https://webcache.googleusercontent.com/search?strip=1&q=cache:

　　然后把你要看的网址，追加到上述地址后面，变成这样

https://webcache.googleusercontent.com/search?strip=1&q=cache:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html

　　上述网址中的 strip=1 表示“纯文字版”，滤掉页面的附加元素（JavaScript、CSS、等）；如果改为 strip=0 就表示“完全版”，不滤掉页面的附加元素。
　　提醒一下，有些网站的功能非常依赖于 JavaScript 和 CSS，用纯文字版的缓存，可能会显示不正常。

◇使用浏览器书签

　　上述那串网址很长，不好记。如果你用的是 Firefox，可以添加一个带变量的书签，就可以做到快速打开 Google 缓存。具体做法如下：
　　在 Firefox 书签菜单或书签工具栏上点右键，选“新建书签”，会弹出创建书签的对话框。
　　名称随便写一个，地址用如下两个之一。（这两个网址只有 strip 部分有差异，刚才解释过这两者的不同）

“纯文字版”的缓存

https://webcache.googleusercontent.com/search?strip=1&q=cache:%s

“完全版”的缓存

https://webcache.googleusercontent.com/search?strip=0&q=cache:%s

　　在书签的“关键字”一栏，写 cache（如果你喜欢，也可以用其它单词），点“确定”按钮，就 OK 了。
　　使用举例：
如果你想看俺博客主页的 Google 缓存，只需要在浏览器地址栏输入

cache https://program-think.blogspot.com/

Firefox 就会自动转向到如下

https://webcache.googleusercontent.com/search?strip=1&q=cache:https://program-think.blogspot.com/

就可以显示出俺博客主页的缓存。

★如何使用 TOR 访问 Google 搜索？

（如果你平时不用 TOR，请跳过本章节）

◇先描述一下问题

　　经过俺的普及，博客的读者里面，有越来越多人开始用 TOR 来隐匿踪迹。对经常用 TOR 上网的同学，多半会碰到一个问题——Google 搜索经常会报错，或者经常让你输入识别码。为啥会这样捏？
　　因为如今用 TOR 的网友越来越多（不仅是天朝，全世界都是）。但是捏，TOR 在全球的【出口节点】，数量很有限。这就造成一个后果——每一个出口节点都会频繁地发起对 Google 的搜索请求。
　　对 Google 来说，当某个 IP 非常频繁地请求 Google 的搜索页面，Google 就会怀疑该 IP 的请求不是人类发起的，而是由软件自动发起的。所以 Google 会跳出一个页面，让你输入一串人类识别码（注册邮箱的时候，通常也会让你输入这种识别码）。如果某个 IP 的请求频率超过一定的限度，Google 忍无可忍，直接给出一个报错页面（连输入识别码的机会都不给）。

◇解决方法之“浏览器的代理扩展”

　　浏览器的代理扩展具有这样的功能：你可以通过配置，指定某种特征的网址通过某个代理来打开。
　　常见的代理扩展有：FoxyProxy
　　在天朝，使用 TOR 的同学多半是通过双重代理（关于如何搞 TOR 的多重代理，俺在“这里”有介绍）。也就是说，TOR 是通过其它FQ工具联网的。为了叙述方便，把“其它FQ工具”称之为 XXX。这里的 XXX 可以是各种代理工具。
　　这种情况下，你的电脑同时存在两个代理的端口，一个是 TOR 的端口，一个是 XXX 的端口。
　　如果你安装了代理扩展，你可以配置一下，让 https://encrypted.google.com/ 开头的网址都通过 XXX 的端口，而其它网址通过 TOR 的端口。这样就可以避免从 TOR 的出口节点访问 Google 搜索功能。

　　某些安全意识比较高的网友可能会担心：这样一来，访问 Google 就只经过一重代理，会不会有隐患？
　　俺个人觉得：
用基于 TOR 的双重代理来隐匿自己的公网 IP，主要是为了对付国内的网站——比方说你要在国内网站发表政治敏感言论。
对于 Google 的搜索请求，一重代理就够了，不需要双重代理。

◇解决方法之“StartPage”

　　假如你对安全性具有偏执狂，死活不肯用单重代理。或者你嫌浏览器的代理扩展太麻烦，懒得去配置。那么还有一个办法：直接使用 StartPage 进行搜索。
　　这个 StartPage 相当于是一个专门为 Google 定制的 Web 前端。使用 StartPage 进行搜索，你的浏览器先把搜索请求提交给 StartPage 的服务器，然后 StartPage 的服务器再转发给 Google 服务器。如此一来，Google 看到的搜索是来自于 StartPage 而不是来自于 TOR 出口节点。
　　关于 StartPage 本身是否会有隐私问题，待会儿后面还会提到。

★如何避免 Google 搜索的隐私问题？

（如果你只是普通网民，不是敏感人士，请跳过本章节）

◇先描述一下问题

　　大部分 Google 的粉丝，想必都注册了 Gmail 帐号，并且经常使用 Gmail。如此一来，当你登录 Gmail 的时候，Google 会在你的浏览器中保存一些 cookie。
　　通常来说，这些 cookie 是为了给用户带来方便的：
比如你下一次登录 Gmail，就不需要再输入用户名，因为用户名已经保存在 cookie 里面了。
比如你在 Google 上搜索，Google 通过 cookie 就知道你的身份，然后会分析你以前的搜索历史，智能地判断哪些内容你所偏好的。然后这些你偏好的内容，在搜索结果的排名就会略微靠前。
　　对于大部分网友而言，cookie 导致的身份识别，问题不大。因为 Google 相对于国内的某些流氓公司而言，是比较靠谱的。他应该不会拿你的个人隐私去卖钱的。所以，就算让 Google 知道了你的搜索历史，也无所谓。
　　但是，少数安全性要求非常高的网友，他们可能不希望让 Google 了解自己的搜索历史。打个比方：Google 可能会被骇客入侵，然后入侵者拿到了 Google 的某些用户资料，那么自己的隐私可能会被曝光。
　　这种风险不是俺凭空想像滴，现实生活中发生过真实的案例——2009年的极光行动，骇客企图入侵 Google 的 Gmail 系统，主要攻击目标是“中国政治异议人士的邮箱”。（从当时的迹象看，攻击者显然是天朝的御用骇客。此次事件直接导致 Google 退出大陆）
　　所以，如果你是一个敏感人士（比如：政治异议人士、维权人士...），并且你对隐私方面具有很高的要求，可以通过下面介绍的方面，让 Google 无法知道你的搜索历史。

◇“不彻底”的解决方法——关闭 Web History

　　当你访问 https://history.google.com/ 并登录了帐号之后，可以通过界面配置，关闭“Web History”功能。关闭了之后，你就看不到自己的历史搜索记录了。
　　但是，你看不到了，不等于它就不存在了。有可能用户已经关闭了 Web History，但是 Google 依然在记录用户的搜索历史，只是不显示给你看而已。
　　所以，这个解决办法是【不彻底】的。根本的解决之道在于：要让 Google 不知道你的身份。但是很多时候，咱们又需要登录才能用 Google 的很多服务（比如 Gmail）。怎么解决这个矛盾捏，请看如下几个【彻底解决】之道。

◇解决方法之“多浏览器”

　　这是最简单的解决方法——只需安装两款不同的浏览器（这两款最好是【不同内核】的）。
浏览器 A
用来登录 Gmail，然后在该浏览器上使用 Google 那些【需要登录】的服务（比如：Gmail、Google Plus、Google Voice ...）。
浏览器 B
不登录 Google 的帐号，然后在这个浏览器上进行 Google 搜索。

◇解决方法之“浏览器多实例”

　　有些同学比较挑剔，就喜欢某款浏览器，非它不用。那么，你可以尝试一下“多实例”的玩法。
　　当浏览器配置为多实例，实例之间是完全隔离的——会使用独立的插件、扩展、页面缓存、cookie、等等。因此，咱们可以利用浏览器多实例之间的隔离性，创建两个实例。一个实例用来登录 Google 帐号，使用那些【需要登录】的服务（比如：Gmail、Google Plus、Google Voice ...）；另一个实例不登录，只是用来搜索。
　　目前主流的浏览器中，Firefox 和 Chrome 都支持多实例。关于这两款浏览器如何配置“多实例”，请看俺之前的博文《如何防止黑客入侵[6]：Web相关的防范》，此处不再啰嗦。（提醒一下：Chrome 的“多用户”功能跟“多实例”是两码事儿。即使你配置了多用户，还是在同一个“实例”里面）

◇解决方法之“StartPage”

　　聪明的同学，刚才看过 StartPage 的介绍之后，多半猜到这个工具也可以用来进行匿名搜索。
　　使用 StartPage 进行搜索，虽然最终你的搜索请求还是发送到 Google，但是 Google 看到的搜索请求是从 StartPage 的服务器发出。也就是说，Google 不知道是你本人在进行搜索。

　　可能有的同学会担心——StartPage 本身是否会有隐私问题？
　　俺个人觉得：
首先，StartPage 无需注册，所以它没法通过登录帐号来进行身份识别
其次，如果你使用FQ方式访问，那 StartPage 就无法通过公网 IP 来对你进行定位
最后，StartPage 默认是不保存 cookie 的（俺测试过）。除非你在它页面上点 Setting 按钮进行了某些设置（比如每页显示多少条搜索结果），它才会保存 cookie

　　所以，StartPage 也不失为解决方法之一。

四：搜索关键字有啥讲究

　　未完待续

五：扫盲博客阅读器的使用

　　未完待续

如何挖掘网络资源（编程随想的博客）

标签：span 网络它的检索存在今天网民 2.0 关联

原文地址：http://www.cnblogs.com/WangBoBlog/p/7896286.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行