2015百度校招用户行为分析研发工程师笔试题

时间：2015-06-29 21:48:46 阅读：119 评论：0 收藏：0 [点我收藏+]

标签：

一，简答题(本题共30分)
　　1. 当前计算机系统一般会采用层次结构来存储数据，请介绍下典型的计算机存储系统一般分为哪几个层次，为什么采用分层存储数据能有效提高程序的执行效率?(10分)

技术分享

所谓存储系统的层次结构，就是把各种不同存储容量、存取速度和价格的存储器按层次结构组成多层存储器，并通过管理软件和辅助硬件有机组合成统一的整体，使所存放的程序和数据按层次分布在各种存储器中。目前，在计算机系统中通常采用三级层次结构来构成存储系统，主要由高速缓冲存储器Cache、主存储器和辅助存储器组成。
存储系统多级层次结构中，由上向下分三级，其容量逐渐增大，速度逐级降低，成本则逐次减少。整个结构又可以看成两个层次：它们分别是cache一主存层次和主存一辅存层次。这个层次系统中的每一种存储器都不再是孤立的存储器，而是一个有机的整体。它们在辅助硬件和计算机操作系统的管理下，可把主存一辅存层次作为一个存储整体，形成的可寻址存储空间比主存储器空间大得多。由于辅存容量大，价格低，使得存储系统的整体平均价格降低。由于Cache的存取速度可以和CPU的工作速度相媲美，故cache一主存层次可以缩小主存和CPU之间的速度差距，从整体上提高存储器系统的存取速度。尽管Cache成本高，但由于容量较小，故不会使存储系统的整体价格增加很多。
综上所述，一个较大的存储系统是由各种不同类型的存储设备构成，是一个具有多级层次结构的存储系统。该系统既有与CPU相近的速度，又有极大的容量，而成本又是较低的。其中高速缓存解决了存储系统的速度问题，辅助存储器则解决了存储系统的容量问题。采用多级层次结构的存储器系统可以有效的解决存储器的速度、容量和价格之间的矛盾。

　　2. Unix/Linux系统的僵尸进程是如何产生的?有什么危害?如何避免?(10)

僵尸进程：一个进程使用fork创建子进程，如果子进程退出，而父进程并没有调用wait或waitpid获取子进程的状态信息，那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵死进程。

危害：如果进程不调用wait / waitpid的话，那么保留的那段信息就不会释放，其进程号就会一直被占用，但是系统所能使用的进程号是有限的，如果大量的产生僵死进程，将因为没有可用的进程号而导致系统不能产生新的进程. 此即为僵尸进程的危害，应当避免。

避免：1、通过信号机制；2、fork两次。

详见点击。
　　3. 简述Unix/Linux系统中使用socket库编写服务器程序的流程，请分别用对应的socket通信函数表示。

　　二，算法与程序设计题(本题共45分)
　　1，使用C/C++语言写一个函数，实现字符串的反转，要求不能用任何系统函数，且时间复杂度最小。函数原型是：char *reverse_str(char *str)(15分)

简单题，不解释。时间复杂度：O(n)。
　　2，给定一个如下输入格式的字符串，(1，(2，3)，(4，(5，6)，7))括号内的元素可以是数字，也可以另一个括号，请实现一个算法消除嵌套的括号。比如把上面的表达式变成：(1，2，3，4，5，6，7)，如果表达式有误请报错。(15分)

算法描述：

step1:在字符串str从头到尾方向找到第一个‘(‘，下标记为start；在字符串str从尾到头方向找到第一个‘)‘，下标记为end。

step2:新建一个字符串rstr，从start到end遍历str，如果str[i]为‘(‘或者‘)‘,则i++，否则rstr+=str[i];

step3:rstr即为题目要求消除嵌套括号的字符串。
　　3，相似度计算用于衡量对象之间的相似程度，在数据挖据，自然语言处理中是一个基础性
计算，在广告检索服务中往往也会判断网民检索Query和广告Adword的主题相似度。假设Query或者Adword的主题属性定义为一个长度为 10000的浮点数据Pr[10000](称之为主题概率数组)，其中Pr[i]表示Query或者Adword属于主题Id为i的概率，而Query和 Adword的相似度简化定义为两者主题概率数组的内积，即 sim(Query,Adword)=sum(QueryPr[i]*AdwordPr[i])(0<==i<10000).在实际应用场景中，由于大多数主题的概率都为0，所以主题概率数组往往比较稀疏，在实现时会以一个紧凑型数组topic_info_t[]的方式保存，其中 100<=数组大小<=1000，并按照　　topic_id递增排列，0<=topic_id<10000,0 ,0<topic_pr<1.
　　Struct topic_info_t{
　　Int topic_id;
　　Float topic_pr;
　　}
　　现在给出Query的topic_info_t数组和N(N>=5000)个Adwords的 topic_info-t数组，现要求出Query与Adwords的相似度最大值，即max(sim(Query,Adword[i]) (0<=i<N).
　　Float max_sim(const vector<topic_info_t> &query_topic_info,
　　Const vector<topic_info_t> adwords_topic_info[],
　　Int adwords_number);
　　编写代码求时间复杂度最低的算法，并给出时间复杂度分析。(15分)

　　三，系统设计题(本题共25分)
　　在企业中，对生产数据进行分析具有很重要的意义。但是生产数据通常不能直接用于数据分析，通常需要进行抽取，转换和加载，也就是业界常识的ETL.
　　生产数据
技术分享
　　为了便于开发和维护，并提高数据实时性，通常将一个完整的ETL过程分析哼多个任务，组成流水线，如下图所示：

　　假设任务定义和任务之间的依赖关系都保存在文件中，文件格式分别如下：
　　表格1任务元数据

文件	格式	例子
任务定义文件	每行表示一个任务，3列： 1， ID 2，开始运行时间 3，最大运行时长（分钟）	100,01:00:00,60 110,02:00:00,30
任务依赖关系	每行表示一个关系，2列： 1，前置任务 2，后置任务	100,110

　　问题：
　　1，下图是ETL调度系统的模块图。请描述各个模块的主要职责，以及各个线条的含义。(10分)
技术分享
　　2，添加依赖关系时要避免产生环，假设系统同一个时刻只允许一个人添加任务依赖，请实现一个函数来检查新的依赖是否导致环，如果该依赖的上游存在环会导致非正常的调度，因此也希望能避免。(10分)
　　a) 函数名：checkCycle
　　b) 输入：pairs，已存在的依赖关系((pre,post)),newPair新的依赖关系(pre,post)
　　c) 输出：True：不存在环，False：存在环
　　3，如果调度时，某个任务在其依赖的任务之前执行，必然导致错误，请实现调度算法，确保任务按照依赖顺序执行?(10分)
　　a) 函数名 schedule
　　b) 输入1：tasks，整型数组
　　c) 输入2：tasks-relations，二元组数组，每个二元组表示一组关系
　　d) 输出：task_id序列，并行执行的用“,”分隔，其他的用“;”分隔
　　4，给定一个任务，如何计算出他的最晚完成时间?(10分)
　　a) 函数名：calMaxEndTime
　　b) 输入1：tasks,3元组数组，(task_id,start_time,max_run_time);
　　c) 输入2：task-relations，2元组数组，每个二元组表示一组关系;
　　d) 输入3：task-id
　　e) 输出：最晚完成时间;

2015百度校招用户行为分析研发工程师笔试题

标签：

原文地址：http://www.cnblogs.com/hzhtracy/p/4608348.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行