干货 is coming | 大数据的事怎能不举个栗子?

栏目: 数据库 · 发布时间: 5年前

内容简介:本文根据神策数据沙龙文章编辑。Teambition 的数据运营分析负责人纪杨,他的演讲主题是“Teamibition 如何从零构建数据平台”。饿了么的数据运营分析师胡晨川,他的演讲主题是“我在数据化运营过程中犯下的错”。

本文根据神策数据沙龙文章编辑。 干货 is coming | 大数据的事怎能不举个栗子? 本期读点

Teambition 的数据运营分析负责人纪杨,他的演讲主题是“Teamibition 如何从零构建数据平台”。

饿了么的数据运营分析师胡晨川,他的演讲主题是“我在数据化运营过程中犯下的错”。

神策数据的创始人&CEO 桑文锋,他的演讲主题是“创业公司如何构建数据指标体系”。

三个典型案例,三个风格迥异的互联网公司,三种不同形式的数据输出,百余人的思维碰撞,干货,不是说说而已。 干货 is coming | 大数据的事怎能不举个栗子? Teambition 如何从零构建数据平台

Teambition 作为一个团队协作的应用,对数据分析有着明显的需求,去年他们在用着免费的分析工具,谷歌分析、百度统计、友盟等,也有自己简单的报表后台,可以配置基础的报表,但是复杂的需求需要数据分析师手工导出。由于种种限制,他们做了部分调整,如安装 Piwik,使用 Tableau Server和Tableau Public,搭建电视墙。

这些调整解决了做报表的速度问题,但是本质的流量和用户行为分析都是基于谷歌去做,谷歌的三个维度一个指标不能很好地解决精细的数据分析,所以他们希望有更好的工具,从用户的角度去跟踪用户的活跃度、流程分析、漏斗分析。

所以他们当时做了一些事情。首先是用户的属性,用户属性就是当用户的每一个事件发生的时候,我们需要跟踪记录的数据,包括用户的 ID,用户的注册时间,用户当前的地址、设备和操作系统。当用户具体点击了一个事件,会默认有这样的事件属性。这里有些小技巧,把事件的名字尽量通用化,通过 Page Control Method 来区分不同页面、位置、动作做同一件事的情况。这样的好处是不用 add event,配置报表时只需要 added content,然后改变 type,无需改变报表。 干货 is coming | 大数据的事怎能不举个栗子? 举一个例子,他们的产品,当用户点击的时候触发事件,就是 add content,当用户实际创建完成点击保存的时候,会有任务方便大家进行漏斗分析,他也可以在不同的位置操作。Teambition 把每天的数据放到数据仓库里面,做相应的报表,工程师可以直接点到数据仓库里自助查询。

数据的同步,他们采用了业务数据(Mongodb->Mosql 同步),日志数据每隔五分钟同步一次,行为数据 Mixpanel 每日导出同步的方式。当这几部分数据进入到数据仓库,我们可以做很多事情。

再举个例子,假设同步了用户付费的企业表和成员关系表,就可以知道用户在其他的 APP 或网站上调用我们 API 的行为。我们把付费的企业表和成员关系表与 API 数据结合起来,就可以筛选出已付费的用户的表现。 干货 is coming | 大数据的事怎能不举个栗子? 列举一些常用的分析工具,流量的分析 工具 国外有谷歌分析或 Adobe 分析,还有 Webtrekk、Webtrends,国内用的比较多的有百度统计和CNZZ,移动端有友盟和 TalkingData,会分析一些用户在 app里的使用情况。用户行为事件分析国外用 Mixpanel,Interana,国内有神策分析,都很方便。Mixpanel 支持导出完整的 JSON 数据,但是需要自己处理和导入数据库,神策分析有数据仓库,SQL 查询接口和后台的报表展现。

选择工具层面有一些经验:

1.选择成熟的,容易跟你的数据做集成的一个工具。

2.由需要的人去推动工具的试用。因为只有他自己有使用上的痛点,他才会愿意使用新的产品。

3.购买工具的时候不仅考虑采购成本,也要考虑时间和人力成本。

干货 is coming | 大数据的事怎能不举个栗子?

我在数据化运营过程中犯下的错 胡晨川

首先是数据质量问题。 1.没有数据库,不好维护,初创期的朋友一定要完善数据库字典,会节约很多时间。

2.取数逻辑和取数口径没有理清就仓促做报表,浪费分析师的时间却得不到想要的数据。

3.历史的 SQL 不做存档与回顾,团队成员的流动导致后续工程师无法快速上手前人工作。

4.取数过程没有审核机制,突然的业务方复杂需求无法准确地取数验证。

5.忽略缺失值和异常值的重要性,代码忽略掉的缺失值将会导致样本的缺失,超过正常值序列3倍差的异常值也会影响结果,需要进行去掉或修匀。

干货 is coming | 大数据的事怎能不举个栗子?

下面讲一些数据分析师刚开始工作时犯的错误。

1.拿到数据先想好高大上的分析模型,再用数据值去套用,并试图去修这个结果,懂行的人都能看出数据问题所在。

2,数据指标盲目套用近几年比较火的业务指标梳理方法AARRR。比如用户激活环节,活跃的比例不断向下走,因为活跃用户群体不像分母增长速度那么快,对这个指标很头疼。后来想到对某个行为的一群人进行用户衡量,衡量分子在这个行为上更深一步的行为,在短时间内跟踪这个指标效果更好。

3.忽略描述统计,首先要通过描述统计观察数据集特征,排除空缺值和异常值等,才能套用模型,不做描述统计直接对分析模型的理论假设。

4.选择性忽略比不选择性忽略更可怕。

5.一切从既有数据触发,忽略调查研究。

那么与业务方如何协作呢?首先完全听从业务方,想当然,不重视指标的信度和效度,就不能反映出信息。其次,不重视你的成果传达给业务方,就无法落地给业务方,变成直接的策略,沟通成本会变得很高。分析师不能将自己定位成取数的工具,像神策这样的分析工具非常重要,部署工具会解放分析师的时间和头脑,不做重复的简单的生产力,就会去理解业务的项目。指标体系与业务目标脱节,就无法满足领导需求。

从团队管理层面来讲,人才没有梯队且背景单一,不能形成互补;没有激发团队的自驱力和分享意愿,成长缓慢;不重视研究成果的包装,成就感缺失;不善于寻找并应用工具,过多重复劳动;缺乏激励和评价。所以一个分析师团队的人才构成应该是统计学+计算机+管理学人才。

注重分析思维的培养,才能在数据驱动的道路上越走越踏实。不断深入,不怕困难,建立强烈的目标感和强大的自驱力。

数据驱动与指标体系构建 桑文锋

首先谈到数据驱动,数据驱动不是拍脑袋和因果驱动,既需要高效率的决策,也需要高准确度的判断。对于决策干活的人来说,宏观的一个数据是不够的,更理想的数据驱动是自助式数据分析。 自助式数据分析,是从数据源头去提炼,提供更强大的数据分析工具,自助式满足,效率变高。 干货 is coming | 大数据的事怎能不举个栗子?

数据分析的流程分为三个层次。底层是数据采集,数据采集是多维度的,我们把时间地点等信息全部采集下来,后面的需求就跑不出五指山了;第二步是数据建模,数据不是放在数据仓库就可以了,归根结底还是效率与准确性。数据杂乱也容易出错,所以还需要数据校验,最好的办法是从源头解决,对数据进行建模,再进行数据分析。

我们把创业公司分为三个阶段,第一个阶段是MVP阶段,第二个阶段是增长的阶段,第三个阶段是变现的阶段。MVP是最小可用产品,这个理念是说你把一个产品推荐给市场,先用最小代价的差去验证。第二阶段是增长阶段,这个阶段分为两个小的阶段,一个阶段是流程阶段,经过MVP阶段后我们确认了产品价值,我们去提升用户的流程,考虑留存分析;这个流程做得好会进入引见阶段,一个好的产品应该会自传播,但并不是每一个产品都具有病毒性,所以我们关心净推荐值(NPS)。第三个阶段是变现阶段,前提是产品有良好的用户体验和用户口碑,产品要侧重于某些重要的提升点,全部都想提升是不现实的。

接下来关心的是海盗指标法。 干货 is coming | 大数据的事怎能不举个栗子?

第一件事关注只有三点:获取、激活和引荐。获取用来吸引新用户,激活是使用关键功能的用户,引荐则是老用户吸引新用户。

第二件事是留存,对于一个电商来说留存比拉新更为重要。

第三点是营收,关注商业化,把指标体系竖立起来。

更多数据分析干货和案例,可以关注“神策数据”公众号了解~ 干货 is coming | 大数据的事怎能不举个栗子?


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

PHP程序设计

PHP程序设计

勒道夫 / 陈浩、胡丹、徐景 / 电子工业出版社 / 2009-3 / 80.00元

《PHP程序设计(第2版)》是最新版本PHP 5的权威指南,其中包含创建者PHP的创建者 Rasmus Lerdorf的独到的见解。《PHP程序设计(第2版)》以一种清晰而简练的风格介绍了PHP语言的语法和程序设计技术,并通过大量的示例演示了它们的正确使用方法和习惯用法。《PHP程序设计(第2版)》还给出了设计风格提示和实际的程序设计建议,这些将帮助你不仅成为一个PHP程序员,而且将是出色的PHP......一起来看看 《PHP程序设计》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试