标签:博客 wing traffic level 未成年 开始 dict sql 随机数
1. 2018-08
marketplace pricing组,data engineer
我们组负责用machine learning models做实时的用户定价,直接影响Uber营收,利润和成长。可以说,我们组的performance相当程度上影响明年Uber上市的股价。
工作当中需要涉及到的系统包括backend server,database,data pipeline,(py)spark等等。编程语言是python和java。工作地点旧金山。
组里的情况是,scope比较大,活多,非常缺人:-) 我主要给自己组做内推,如果简历符合要求,直接进入快速通道,最快速度安排电面和onsite。
2. 2016-12-20电面&onsite
电面1: 和team manager,问了三个问题:
用公式解释PCA
如何预测Uber的司机会不会接乘客叫车?如何判断哪些features更重要?
如何预测一个城市的Uber trips?如果给你的历史数据有weekly seasonality 如何处理?
电面2: 和software engineer,问了一个问题,写完code问了一些如何测试code和什么是unit test之类的问题-google 1point3acres
病人每天从早上九点开始以均值为10每小时的泊松分布访问诊所,诊所接受任何在早上九点到下午四点之间的预约,医生需要把所有预约了的病人看完才能关门,医生给每个病人看病的时间服从5~20分钟的均匀分布,写代码对任意一天的情况进行仿真从而回答以下问题
#1 医生在这一天当中一共会见多少病人?
#2 在这一天当中会等待的病人总数?
#3 平均等待时间
#4 诊所关门时间
Onsite1: 和software engineer,问了三个问题
字符串全排列(无重复字符)
字符串全排列(有重复字符)
实现hashTable(get,update, insert)
Onsite2:和senior data scientist,印度大叔问了无数问题,就是不相信我会。。。。
K-mean 写peudo-code, 如何定义距离,在高维空间下会有什么情况,如果要on-line batch updating需要怎么做?
Seasonal ARIMA细节, 什么是AR,AR的假设是什么,什么是I,为什么MA可以解决AR的局限性,双重seasonality如何解决,如何测试模型性能,RMSE和MAPE有什么不同?
Onsite3:和data scientist
一来问了很多behavior问题,不赘述了
估算ARIMA参数的时候,初始值如果不设成0有没有更好的办法
如何给time series中的特殊event建模,比如Uber的promotion,异常的天气,还有演唱会什么的, 为什么predict interval在有特殊event的情况下会失效
Onsite4:和data scienitst(bar raiser)
跟我讨论了很久我现在公司做的project,可能聊了有半个小时,基本cover所有的details
说一个你convince你manager不要按照他的想法做的例子
uber有两种incentives,一种是同时给rider和driver折扣,一种是让driver每周达到一定的trips后给奖励,请你设计实验证明哪个更有效
uber墨西哥有几个城市的数据突然指数上升,CXO问你是怎么回事,给你一个小时你怎么找答案,给你一个月你又怎么找答案?
Onsite5: 和data scientist manager. 牛人云集,一亩三分地
描述你理想的team
给出一个heuristic来计算Uber的surge price,不同heuristic的pros和cons
给你所有trip的起点和终点,如何将uber的trip从地理上分成不同的group,从而group之间的trips尽量少,如果你只能sample其中20%的数据点你会怎么sample,不同sample method的区别,如何保证你的模型两年后不做任何改变也还能用?
什么是exponential smothing?
Onsite6:和data scienitst围观我们假设uber的用户都过着 家-公司-酒吧 三点一线的生活,你如何建模来描述用户在不同点之间转移的情况,有哪些factor可能影响这个转移?
如何建立一个模型来预测要不要给一个uber发promotion?
3. 2018-7-4 onsite
uber ds的面经,应该是不是典型,一共五论
第一轮:主要考了一些概率和统计的问题,
问了个经典的掷色子的问题,就是
有一个普通6面骰子,游戏者最多掷三次,可以选择掷一次或两次后停止。奖金是最后一次的骰子的点数。比如最后一次是6点,获得6美元。如果是3点,获得3美元。请问如何找出最佳策略这样游戏者可以获得最多的奖金?
统计问了几个distribution,解释了一下poisson distribution
第二轮:统计的问题,ab testing,machine learning
统计的问题,例如p value是什么,什么是confidence level, 什么是power,type I, type II error
machine learning: 解释k-means,如何决定k,一定converge吗,k-means和gaussian mixture model区别
第三轮:machine learning
主要问了tree相关的问题, DT的pro and con,什么是rf,什么是boosting tree,boosting trees和rf区别,boosting如何实现,ada boosting和gradient boosting相同点和区别
第四轮:coding
问了简单的graph问题,dfs和bfs区别,然后让inplement了bfs,解释了一下需要用到的data structure,问了一些complexicity之类的问题
第五轮:behavior和brain storming
问了一些遇到困难怎么办,如何和非technical stakeholders交流之类的
brain storming问了经典的估算多少个加油站
4.2017-9-19 电面
第一轮直接和组里的一个member聊的,人很nice,听起来像印度口音,信号不是很好杂音很多,以至于很多问题听不太清楚要求重复T_T. more info on 1point3acres
没有behavior,上来先介绍组内工作,感觉Safety做的内容包含很多方向,很有意思。然后自我介绍,然后就开始technical
questions.本文原创自1point3acres论坛
问了知不知道OLS,为什么OLS很普遍很流行,OLS的output是什么,OLS的assumptions
如何解释coefficient,给一个non-technical的人解释coefficient,如何检验coefficient是不是significant
大概就是这些,历时30min。没想到会问OLS,回答的感觉不是很好,至少assumptions没有说对(之前学过的都忘掉了,答案应该是iid)
5.2018-07-01电面
1.
简化版KNN算法写code实现,用Euclidean distance。(heap tree那里我是用heaplist实现的,出了个bug,而且写得太慢把时间耗光了)
2. 概率题,扔硬币,n次中有m次head,问是否能说明硬币是biased,写个函数算出来(经典题不难,但是没时间了没做完。). 1poin
6.2017-10-12 onsite
Uber onsite data
scientist 跪经分享,求大神指导.1point3acres网
4个小时面了7个人
先是一个political science背景的 data scientist
1.(一直纠结一个问题,怎么阐释p value和coefficient-google 1point3acres
如果pvalue = 0.001, coefficient = 10000如何解释
如果pvalue = 0.3, coefficient = 10000如何解释. 围观我们@1point 3 acres
如果pvalue = 0.001, coefficient = 0.1如何解释
你能说这个feature have a big influence吗?)
等等等,求大神解读这个问题要怎么答好 “第一个问题就是standard error和coefficient的比例问题,固定比例是一样的p值,这个比例就是p值对应的Z值”
还问了相关算法,
2.(random forests 和linear regression在unbalanced dataset情况下选哪个的问题。).
Waral 博客有更多文章,
然后和他和hiring manager一起吃饭。亩三分地
然后就和一个foresting背景的 data scientist聊
3.(问了一些针对0.05%target 的unbalanced dataset如何处理的问题。)
4.(还有就是如果linear model如果有multi colinearity的问题的话怎么办,drop掉某些feature吗?怎么选择drop掉哪些?如果只用于prediction不用于interpretion要不要全留着?)
5.问了一些天马行空的关于uber如何在地图上区分出哪些是机场,火车站,night life,hotel,球赛场的问题,因为他们在路线图上看起来都差不多,像是市中心。
6.还问了一些关于boosting method的问题。
. visit 1point3acres for more.
然后是其他组的日本人,有个人shadowing
他做的是matching algorithm,就问了一些你对于他做的东西最近遇到的问题的想法。
然后又是一个同组的modeler,
6. 问了sql的aggregation function怎么写,
7.(还有modeling中feature selection的问题。怎么select? )
hiring manager:
brainstorming, 聊了一个case,
为未成年人提供特殊uber服务,怎么测试有没有效?
想了很多metrics,什么revenue啊,complaint的个数啊等等等,彻底展开思路,需要whiteboarding设计一个a/b
test. (t-test)
product manager:
讲了之前我做的一个项目,详细就recall和precision如何平衡的问题进行了讨论。
7.2017-3-20 onsite
one
1, How can you estimate the
precision of the model decision.
Two
1,1,2,5,10 one boat 2 people a time, what is the shortest time to ship those 4.
http://www.mytechinterviews.com/four-people-on-a-rickety-bridge
2,What do you like the current company and not like
3, Why this company
4, How can improve your efficiency
. more info on 1point3acres
Third
1,Do you think we still need strategy with model
2, How can you know your reject is correct or not
3, Why this
Fourth
1, How to handle the model unstable in variable selection
2,what role you want to do
3, How to convince your manager
Fifth
1. Describe the credit card fraud
Sixth,
1, If drive more than expect. How to cover the loss.
2, Uber for business, what other risk you should consider.
3, What is the importance for the model
4, what kind of fraud in U
8.2017-10-14 电面
1. 他介绍freight组 做什么等等
2. self introduction
3. describe one of my projects, what tools do i
use ? 我讲到一半被打断。没机会说到我的achievement。 事后回想觉得我自己说的不够简洁。. 1point 3acres 论坛
4.describe to a non tech ppl what is sql left
join?
5. difference between for and while loop
6. what is long format v.s. wide format? how do
you choose between them?
7. case: on the freight
driver‘s side app, we show the description of a shipment (origin, destination,
distance, weight, volumn etc), how do you determine the price (aka, reward) to
driver?
8. let me ask questions.
9.2017-03-08 电面
一个data scientist(白人哥哥), 一个Hiring
manager(国人姐姐), share screen coding.
http://www.1point3acres.com/bbs/thread-236357-1-1.html
1. 上来就让你自己写weighted sampling,
不能用existing function。 给两个vector,
一个是要选的数,另一个是相应的weight。 我说根据相应的weight来replicate选择的数,再用一个uniform
distribution来随即选index。白人哥哥但是这样会有个问题,我说是阿,如果weight是小数的话就有问题,可以试着把weight vector整体乘一个很大的数,变成整数之类的。。。。
第一题可以用rejection sampling的方法
https://www.python-course.eu/weighted_choice_and_sample.php
假设 samples = [1,2,3,4,5]
weights = [0.1,0.1,0.2,0.2,0.4]
可以generate一个随机i of vector index (i = 1 to 5 in
this case), 再generate一个uniform
[0,1]之间的随机数 prob,if prob <=
weights[i] then output samples[i], else break, jump to next iteration.1point3acres网
2. 给你一个vector,找到里面所有加起来等于8的pair,很简单的code完了。然后又加大难度,说怎么从中找出所有的组合加起来等于8呢(就是不一定是两个数相加,可以是任何个数的数相加等于8),说了一下思路,加起来不足8的话,就继续找其他的数,直到没有一个满足的。。。。感觉这个算法很expensive,但是那当会儿也没有想到很好的算法。。。。
第二题好像是码农刷题经典的2sum,3sum. 1poin
第二题应该是leetcode combination sum那题t
. 一亩-三分-地,独家发布
3. 最后临走前又问了一个,怎么把数字都倒过来, 大概就是如果一个数是
-1234, 最后输出 -4321, 这个很简单,我很快code出来了。。。。
10.2018-02-13 电面&onsite
电面
如果在一个city deploy 类似于 expedia rental car 的东西, 但是是uber rental. 你怎么set price? 如何run abtesting 来确定是否要deploy 这个feature?
onsite:
Think of one feature that uber can improve on. And how to improve? Design A/b Testing experiment? (这个问题好像都见过的)
============================
Another manger asked a lot about past work experience.
coding 类似于 glass door:
Write out a function tocalculate the AUC of an ROC curve.
怎么确定一个司机可能使用超过一个app? 比如 uber, lyft, via ?
会问很多关于sampling, bias 的问题。 楼主自问统计知识还比较扎实。 但是经不住一国女各种为难。 6个人面下来, 面的好不好不说。其他5个人都挺nice. 这个国女态度有问题。 何必为难自己人呢? 组里有这样的人去不了也不可惜。
10.2018-01-21 电面&onsite
http://www.1point3acres.com/bbs/thread-315616-1-1.html
## Uber - DataScientist, Mapping Tools组
第一轮 HR screening
第二轮 Tech phone call case study 45 mins. 大概是讨论了如何predict 某个block的traffic情况。考了时间序列的一些模型和基础知识。
第三轮 Data challenge 给了一周时间两道题
1)时间序列建模分析uber request traffic。我建了个SARIMA模型。
2)leetcode简单题
第四轮 onsite 面了六轮,每个45 mins
1)HiringManager 聊了聊现在工作做的project。问如果这两个月Uber 在某国家使用量突然降低可能是哪些原因,如何验证是否因为是这些原因,如果都不是应该怎么办。
然后是和一个DS 吃午饭聊天
2)CaseStudy. 讨论Surge Price模型和如何根据定价鼓励Driver。
3) CaseStudy 关于Uber Eats的模型,如何根据 sensor数据predict送餐员的行为,如何create matrix,如何站在Mapping Tools组的角度convince Uber Eats组模型的有效性。
4)PM面,聊聊现在的工作,还有些behavior questions。
5)CaseStudy. 讨论如何建模分析手机是否被driver拿在手上。
6)两道leetcode。一道mergesorted array。一个是sorted 矩阵里面搜索某个值返回index。
总结:这个组感觉bar很高,面的非常tech,在白板上写模型思路连着写了几个小时几乎没有停下来休息。
more
https://instant.1point3acres.com/tag/uber
标签:博客 wing traffic level 未成年 开始 dict sql 随机数
原文地址:https://www.cnblogs.com/ffeng0312/p/9694576.html