耀世测速网址!查看有无重复值:首先看使用看各个字段的记录数,再看去除重复值后的数量。以此判断有无重复数据。
看到time是object类型的,不适合处理。同时我们一般将数据分为日期和时间格式,因此对其进行拆分处理。
这里的操作流程与hive-sql类似,我们需要先把max算出来,再去关联。
分析近30天的活跃天数,只要有浏览、收藏、加购和购物四种行为之一就认为是活跃。
我们可以通过查看所有用户30天活跃天数的分布情况,来确认一个分类的标准,判断某个用户是否活跃。
总体上看,访问天数多的访客比访问天数少的访客数量多,且以20次左右为拐点,因此定义访问天数小于20次的为低活跃,访问天数大于等于20次的定义为高活跃。此定义只是从用户的分布角度出发,工作中当从业务出发定义是否活跃。labels[buy_active_level] = 高 labels.loc[labels[counts_30_buy]=19,buy_active_level] = 低
明确今天的日期,在本项目中,“今天”指“2014-12-19”,然后统计订单表中用户某种行为的最大日期与当前日期的差值。
最近一次消费,我们按照最后一次购物距今的天数进行分组,同样是观看用户的一个分布情况,然后看如何进行分类。
最近一次消费距今天数(远)活跃度(高):重要唤回客户。历史活跃度比较高但是最近没买,说明存在流失的可能,要唤回他。
最近一次消费距今天数(近)活跃度(低):重要深耕客户。最近购买了,但是活跃度不是很高。是我们要努力留住的客户。
最近一次消费距今天数(远)活跃度(低):即将流失客户。历史活跃度比较低且最近没购买,可能用户就要跑路了。
可以看到在第8天前后,用户有明显的分层,因此按照8天对其进行划分,最后一次消费距今天数小于8天的,认为最近有消费,大于8天的认为最近无消费
提取bahavior=1或者behavior=4的数据,根据用户id、商品id以及用户行为来进行分组,统计每个用户的浏览情况和购买情况,每一个用户对于每一件商品,如果浏览了但是未购买,则将其记为1。
该标签基于的粒度是(用户,商品),若用户对某一商品浏览未下单,可相应地进行运营策略的投放。
以上的步骤到商品粒度,下面对用户进行统计,即只要用户有浏览未下单的行为就对其进行打标
分析平台用户的年龄、学历、性别、城市、职业、婚姻情况等,以便于我们去分析我们的典型用户是什么。
从年龄分布图中,可以看出平台的用户以25岁-40岁的用户居多。青年人和中老年用户较少。
从上图可以看出,该平台每天的下单用户数比较平稳,有一些周期性因素在其中,可能是每周周中和周末的购物情况不同。同时,注意到12.12这一天购物用户激增,可能是12.12购物节的因素。
从图中我们可以看到用户的喜欢的购物时间:周五,晚上9点。上午购物的人数都比较少,主要集中在下午和晚上。
通过用户的下单情况,我们可以对每周的下单用户进行分层,将其分为活跃用户、不活跃用户和回流用户。
从中可以看到,5周的复购用户都在50%以上,47周和51周的复购率较低,可能是因为数据不完整的原因。
由于数据原因,存在一人浏览一人购买的情况,所以有部分的转换率为100%。除去此部分数据,大部分的商品转换率在0.5以下。
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
这是第一次数据分析的实践,选择了比较经典的淘宝用户行为数据集,考虑到这个数据集比较大,能够了解一下各种程序对几个G...
01. 数据来源及说明 本文从数据集中选取包含了2014年11月18日至2014年12月18日之间,8477名随机...
1、数据来源说明: 本数据来源于阿里巴巴天池,选取了从2014年11月18日至2014年12月18日之间,8477...
为了创造更多利润、实现数据驱动运营,某CD网站拟对18个月以来的近7万条消费数据进行分析。具体的研究思路如下: 1...
参考自modelwahle上的用户[广发英雄帖]所做的数据分析案例,提取思路部分,仅供参考。 数据的预处理 为提高...
