听说有小伙伴最近在找工作?数据分析面试都会问到哪些问题呢?一起来看看吧~
1.第一个问题来了哈~如果某一次分析的结果数据特别大,有些结果数据扛不住了,请问该怎么办?
其实一般的结果数据的数据量没有那么大,也就几十万是样子,这样的数据级别,对于MySQL这样的数据库是没有任何压力的但是如果这个数据量千万或者亿级别,同时有复杂的SQL查询,这个时候MySQL就肯定扛不住了。这是需要结合实际情况去考量的了,这个问题考察的还是数据量的问题。出现这个情况的时候就需要我们构建索引(例如通过lucene来对于要检索的字段添加索引),或者用分布式的内存服务器来完成查询。总之,两套思路,一个是用文件索引的形式,就是空间换时间,另外一种是用内存,就是用更快的存储来请求。
2.第二个问题哈,解释一下应该如何处理可疑或缺失数据?
首先需要准备提供所有可疑数据信息的验证报告它可以提供相应的信息,如失败的验证标准以及发生的日期和时间。
3. 关于具体的产品指标的问题哈~指标的异常波动变化(例如日活下跌),你会如何分析?
我们可以从以下6个部分去分析
1.核查数据是否可靠;确定指标计算口径是否一致;确定是否是市场的整体趋势
2.描述并分析变化是否合理
3.多维度拆解分析,相关分析等等方法进行分析,寻找造成变化的相关因素
4.进行回归分析/预测,还会持续多久?最坏到什么程度?
5. 风险/损失评估,下跌对产品的核心KPI有什么影响
6. 制定策略,挽回损失/避免下次发生
4. 解释一下空间自相关分析是什么
空间自相关分析是地理空间分析的常用形式。它由一系列为不同空间关系计算的估计自相关系数组成。当原始数据表示为距离而不是单个点的值时,它可以用于构建基于距离的数据相关图。
5. 解释一下N-gram是什么?
N-gram是来自给定序列文本或语音的n个项目的连续序列。这是一种以(n-1)形式预测下一个项目的概率语言模型。
6.你认为数据分析的价值如何体现?
数据分析不是数据统计,不能仅仅停留在输出一份报告,给出一些数字,要给出结论,讲清楚数据背后的业务含义,数字的大小正负说明业务是好是坏,有多好多坏。
除明确数字背后的业务含义外,还要给出背后的原因,好的方面是否可以复用拓展,坏的方面原因是什么,应对方案是什么?要把方案推动落地到业务中执行,并且跟进执行的效果和复盘,螺旋上升,不断迭代优化。(价值不在与数据,而在于业务,以及背后的原因和优化方向)
7如何评估一场活动的效果?
如果可以结合自己过往的经验展开来讲那是最好的,可以从以下几个方面来讲:
1、活动关键指标达成分析
2、活动关键流程漏斗分析
3、活动的渠道、用户分析
4、活动策略、节奏分析
更多推荐