标签:访问 垃圾邮件 icm nbsp alt 就是 存在 公共前缀 chrome
程序 = 数据结构 + 算法
—— 图灵奖得主,计算机科学家N.Wirth(沃斯)
进入 BAT 这样的巨头企业工作,无疑是很多程序员的梦想。但事实上,能通过这些公司高难度编程面试的只是一小撮人。
作为程序员,我们做机器学习也好,做Python开发也好,Java开发也好。
有一种对所有程序员无一例外的刚需 —— 算法与数据结构
日常增删改查 + 粘贴复制 + 搜索引擎可以实现很多东西。
同样,这样也是没有任何竞争力的。
我们只可以粘贴复制相似度极高的功能,稍复杂的逻辑没有任何办法。
语言有很多,开发框架更是日新月异3个月不学就落后。
我们可以学习很多语言,很多框架,但招聘不会考你用5种语言10种框架实现同一个功能。
真正让程序员有区分度,企业招聘万年不变的重点 —— 算法与数据结构。
今天小七给大家介绍的就是面试当中非常实用的两个数据结构,面试当中一提,秒变编程老司机。
前缀树(prefix trie)
前缀树是一种数据结构,允许你通过其前缀快速查找字符串,还可以查找有公共前缀的字符串。
我对介绍这一数据结构的第一条建议是,将它称为“前缀树”,而不仅仅是“树”。
这样,你就让面试官知道你是那种了解与前缀和后缀相关算法的人,并且你也希望对你的fancy数据结构进行准确描述。
后缀树也是一个非常有趣的话题,但实现细节十分残暴。这就是为什么我只是谈论前缀树,并且假装了解后缀树。
谁会真的用前缀树?
基因组学研究人员!
事实证明,现代基因组研究在很大程度上依赖于字符串算法和数据结构,因为你试图从组成基因组序列的数百万个核苷酸中探索奥秘。
对于基因组数据,你经常需要对齐序列,找到差异或找到重复的模式。如果你想了解更多相关信息,可以先阅读生物信息学读物,然后参与“DNA测序算法”或“生物信息学算法”等课程。
如果你想要阅读一些真正有意思的读物,我强烈建议你读一读药物基因组学。随着基因组测序和字符串算法的进步,我们实际上可以预测使用个体的基因组,来确定它们是否具有对药物正确反应的正确基因。
例如,如果他们的基因组缺少用于产生处理某种药物的酶的基因,那么药物可能会对他们产生副作用。如果我们知道什么基因是重要的,我们可以给他们一种不同的药物!
我承认,前缀树和基因组学之间的联系不太紧密。其实前缀树的最直接用法就是用来查字典啦!但光这么讲不是忒无聊了点么。
前缀树的原理
想象一下,你有一棵树,每个节点都有一个包含26个子节点的数组,每个子节点对应一个英文字母。(如果要包含其他字符,可以将26更改为不同的值。)要在你的树中表示单词,你将从根节点开始,沿着路径向下走,并在每个节点添加一个字母。
例如:对于“tea”这个词,你从根开始,被引导到t节点,然后是e,最后是a。因此,搜索单词需要O(N)的时间(其中N是单词的长度),如果单词的前缀不存在,则可以提前结束。如果我查询“zzzzzzzz”,树可以在“zz”之后结束查询。
布隆过滤器
布隆过滤器是集合的概率版本。检测集合是否包含某元素的时间复杂度为O(1)、空间复杂度为O(N)。
Bloom过滤器也可以检测出集合是否可能包含该元素,它的时间复杂度为O(1),而空间复杂度只需要O(1)!
谁会真正使用布隆过滤器?
Chrome需要在不牺牲速度或空间的情况下保护你免受访问垃圾邮件网站。
想象一下,如果每次你点击一个链接,Chrome都必须进行网络通话来检查它庞大的垃圾邮件URL数据库,然后才允许你访问这个页面,这会不会让你等疯掉。
此外,设想一下,如果Chrome改善延迟的解决方案是在本地存储整个垃圾邮件URL列表,这根本就是不可行的!
所以,chrome在本地存储了一个潜在垃圾邮件URL的布隆过滤器,这既节省时间又节省空间,可以快速检查给定的URL是否为垃圾邮件。
对于普通的URL,布隆过滤器对“非垃圾邮件”的响应就足够判定了。
如果一个URL被标记为“可能是垃圾邮件”,那么Google可以在跳转之前检查它真实数据库。
事实证明,当你愿意牺牲绝对时,你可以做出伟大的事情!
布隆过滤器的原理
大致做个介绍:
如果你想在Bloom过滤器中插入一个元素,首先假设有N个不同的确定性哈希函数。当同一个元素输入不同哈希函数时,会得到不同的值(冲突是可以有的)。
使用每个哈希函数的输出作为数组的索引[注释1,注释2],并对应每个索引i将数组[i]设置为true。插入元素就完成了!插入元素的时间复杂度是O(1),因为对每个插入元素所做的唯一工作是运行恒定数量的哈希函数,并设置恒定数量的数组索引。
那该如何检查布隆过滤器是否包含该元素? 再次运行所有相同的哈希函数!
哈希函数是确定性的,因此相同的输入应返回相同的输出。所以相对应每个索引,检查布隆过滤器的数组是否在该索引处设置为true即可。
如果哈希函数输出的数组的每个单元都为真,那么可以很高的概率说这个元素已经插入到了布隆过滤器中。这一方法总是存在误报的可能性。
不过,布隆过滤器的一大特色是永远不会出现漏报。
注释1:如何使用哈希函数的输出作为索引:设哈希函数输出整数值M,取长度N。N%M(N mod M)得到一个值Q,即0≤Q<M。这是一种取任意值并在一个范围内均匀分布的简便方法。
如果你以前没有遇到过这个问题,那么应该阅读关于mod运算符的内容,绘制一些示例数组,并使用M的不同值进行实验,以了解N%M的效果。
注释2:实际上,你应该使用位数组而不是普通数组。数组的每个元素至少需要1个字节,而你只需要为“数组”的每个元素存储true / false。
因此,你可以通过将其存储为位数组来节省空间,这是这个数据结构的重点。
如果你想要听起来很聪明,那么位数组(也就是位向量)也值得你在面试时提出。嗯,真正的面试专家建议总是在脚注中。
注释3:严格来说,如果你的所有哈希函数都在O(1)时间内运行,那么插入的复杂度才是O(1)。
标签:访问 垃圾邮件 icm nbsp alt 就是 存在 公共前缀 chrome
原文地址:https://www.cnblogs.com/julyedu/p/11457989.html