目录
一、项目背景和目的
1.1项目背景
- 移动互联网企业运营管理过程中,需要结合用户行为、商品及其市场等数据分析,对用户开展有针对性的运营活动,提供个性化、差异化的运营策略,以实现运营业务指标。本项目利用sql对淘宝用户行为数据进行分析,结合人货场模型,提供针对性的运营策略。
1.2项目目的
- 通过对taobao用户行为数据分析,为以下问题提供解释和改进建议:
- 1、分析用户使用APP过程中的常见电商分析指标,找到用户偏好商品,针对用户行为提出营销策略,提高用户忠诚度。
- 2、研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律,在用户活跃时间点推出相应营销策略。
- 3、建立用户行为转化漏斗模型,确定各个环节的转化率,找到需要改进的环节
- 4、分析商品特征,寻找⾼浏览商品
二、数据来源和数据清洗
2.1数据介绍
- 阿里天池‘‘淘宝用户购物行为数据集'’: 数据集-阿里云天池
- 本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
- 原数据量太大,本项目仅截取100w条行为数据作为本次数据分析的数据集,使用的 Navicat Premium数据库管理工具连接Mysql 8.0,进行对UserBehavior.csv 数据集的处理
2.2数据清洗
2.2.1观察数据添加需要的字段
- 各字段数量
- 预览前十条数据。发现timestamp为整数型数据,可以在后期增加一个字段datetimes,把它修改成日期型。
- 添加字段前,可以更改一下缓冲值的大小,把缓冲值增加到10g,加快更改的速度
- 添加字段,根据Timestamp新建datetimes,date,time,hour
- 各字段数量
2.2.2检查是否存在重复值
- 可以将userid,itemid,categoryID,timestamp四者进行联合,对数据集分组。
- 结果:不存在重复值
- 可以将userid,itemid,categoryID,timestamp四者进行联合,对数据集分组。
2.2.3检查是否存在异常值
- 由于数据集时间范围为2017-11-25至2017-12-3,因此需要对不在该时间范围内的异常数据进行过滤。
- 结果:存在异常值
- 处理:去除异常值(注意:是去除异常值,日期范围要正确选择;是or不是and。)
- 再次检查,删除成功
- 由于数据集时间范围为2017-11-25至2017-12-3,因此需要对不在该时间范围内的异常数据进行过滤。
2.2.4检查是否存在缺失值
- 统计每一个字段下有多少行,若行数相等则说明没有缺失值
- 结果没有缺失值,且经过处理后的数据剩下999530
- 统计每一个字段下有多少行,若行数相等则说明没有缺失值
三、用户维度分析
3.1获客情况
- 每日的页面浏览量PV、独立访客人数UV,人均浏览次数PV/UV。
- 思路:pv 曝光了就要记一次(认定曝光就是浏览了一个页面 ,使用case when函数)
- 结果:日均UV、PV、人均浏览次数
- 创建表格保存数据
- 将上述查询所得表格导入Tableau中,绘制PV、UV及PV/UV每日变化趋势图。
3.2留存情况
3.2.1留存率
- 说明
- 分别以每一天为第一天,求每一天的计算次日、3日、7日留存率
- 分别以每一天为第一天,求每一天的计算次日、3日、7日留存率
- 算出留存用户,并创表保存
- 思路:用数据表以userid左关联,左a右b,筛选出a.date<b.date,使用函数datediff(b.date,a.date)=间隔天数 ,按照对应的间隔天数进行汇总,以时间(日期)分组
- 步骤
- 代码
- 结果
- 代码
- 算出留存率
- 思路:各天数留存用户/当天留存用户,先使用round函数对其保留两位小数,再使用concat函数与“%”连接
- 步骤及其结果
- 结果:留存率较高,淘宝用户粘性较高
- 说明
3.2.2跳失率
- 跳失率=只浏览一次页面的用户数/总用户数。跳失率:是指显示顾客通过相应入口进入,只访问了一个页面就离开的访问次数占该页面总访问次数的比例。跳失率可以反映用户对APP\网站内容的认可程度,或者说网站\APP是否对用户有吸引力
- 思路:按照用户分组,找出总行为数为1的用户,再进行用户数总和,跳失用户即只访问一次页面的用户数。
- 结果:数据太少没有跳失人数。也可以认为淘宝忠诚程度较高,用户对于淘宝的体验普遍很好
3.3行为情况
3.3.1时间序列分析
- 每天的用户行为分析(日间分析)
- 结果
- 将其可视化
- 分析:11-25、11-26、12-02、12-03为周末,各行为数据均比周一到周五高,正常现象。到了12月整体增高,说明可能在为双十二预热。12月初达到新高峰,可能由于到达双十二预热期,预热会使购买前置动作的收藏与加购行为量出现增长。
- 结果
- 每时的用户行为分析 (日内分析)
- 代码及其结果
- 可视化
- 分析:在每日18点开始上升,20-22点达到最高峰,23点开始下滑,2-5点呈现最低值,与国民作息规律相符。
- 同时创建字段,求每时的购买率和收藏加购率。分析:可以看到在10-12点购买率较高,而晚上购买率较低。说明可能人们更愿意在白天购买商品,晚上购买也会发不了货的心理,直接收藏到第二天再买。因此可以考虑在20~22点做一些力度较大的优惠活动以提高转化率,而在白天10-11点时多进行商品投放,在制定运营策略时也可以考虑在这两个时间段进行直播带货、商品宣传、拼单促销等活动。
- 代码及其结果
- 每天的用户行为分析(日间分析)
3.3.2用户转化率分析
- 概念:使用漏斗分析法。从业务流程起点开始到最后目标完成的每个环节都会有用户流失,因此需要一种分析方法来衡量业务流程每一步的转化效率,漏斗分析方法就是这样的分析方法。
- 本数据集只包含商品详情页(pv)、加入购物车(cart)、收藏(fav)、支付订单(buy)数据,因此将漏斗模型简化为:商品详情页—收藏并加入购物车—支付订单。因为加入购物车和收藏在购买商品的步骤上没有先后顺序,而且两种行为都能表现用户对产品可能存在购买意向,同属于购买意向确认阶段,所以可以将这两种行为合并作为购买意向确认阶段的行为总次数;
- 代码及其结果
- 可视化
3.3.3行为路径分析
- 原因:用户并非一定收藏加购后再购买,因此收藏加购-支付转化率的漏斗图并不准确。我们在此继续细分用户行为,分别取用户购买某商品行为前的4个行为,并将行为连接,以此作为字段计数分析。
- 思路:1、用户和商品种类作为分组对象,总和用户对该商品进行4种行为操作的次数。
- 2、将其结果进行标准简化,只要有过该类行为操作的用‘1’表示,没有则用‘0’表示。
- 3、四种行为用‘0’‘1’进行拼接,形成行为路径类型。结果显示共有8种路径类型。对其进行次数总和
- 4、对购买路径进行解释说明。最终进行拼接创表
- 结果进行可视化
3.4 RMF模型
- 概念
- RMF模型是衡量用户价值和用户创利能力的重要工具和手段,下面的三个要素构成了RMF模型的重要指标:R-Recency(最近一次购买时间)、F-Frequency(消费频率)、M-Money(消费金额)
- 由于数据源中没有消费金额,本项目仅使用R和F的数据对客户价值进行打分
- 思路:由于数据集统计的是2017年11月25日至2017年12月3日的用户行为数据,所以这里选取2017年12月4日作为计算日期,计算数据集中每个用户最近购买行为发生的日期与2017年12月4日之间的间隔天数,作为R指标,R值越小,客户价值越大;
- 步骤:1.按用户分组,找出购买的次数.2、插入购买间隔字段,使用datediff函数求数值。3、再增加一列对购买间隔打分(1-5),间隔越小分数越大。4、增加字段对购买次数打分,次数越大分数越大。5、重要一步:求其平均值进行比较,对用户分成四种类别
- 结果可视化
- 概念
四、商品维度分析
4.1商品浏览排行榜(前十)
- 求出浏览量前十的商品,即点击率较高的商品
- 代码及其结果
- 求出浏览量前十的商品,即点击率较高的商品
4.2商品类别浏览量排行榜(前十)
- 求出浏览量前十的商品类目
- 求出浏览量前十的商品类目
4.3各类别的热门商品中浏览量前十的
五、结论及其建议
- 1、根据留存率和跳失率来看,淘宝APP中的商品对用户具有足够的吸引力,用户粘性很大,忠诚程度较高,用户对于淘宝的体验普遍很好。可建立老客户社群,重点维系老客户和平台联系,适时发放优惠券等方法提高用户参与度,并进行老用户调研,提高产品使用感。
- 2、时间维度上看,人们更愿意在白天购买商品,会有晚上购买也会发不了货的心理,更愿意收藏到第二天再买。因此可以考虑在20~22点做一些力度较大的优惠活动以提高转化率,而在白天10-11点时多进行商品投放,在制定运营策略时也可以考虑在这两个时间段进行直播带货、商品宣传、拼单促销等活动。
- 3、漏斗模型上:页面点击pv到购买的转化率及其低,可以针对点击到购买的行为转化进行提升。建议有:尽量做到精准推荐,减少用户寻找信息的成本。优化收藏到购买的操作过程,增加用户收藏并加购的频率,以提高购买转化率。
- 4、RFM模型方面:对于价值用户,需要重点关注并保持,做到精准推荐,精准把握用户的偏好,提高满意度,增加留存;对于挽留用户,这种用户有即将流失的危险,需要关注他们的购物习性做精准化营销,可以通过问卷调查的方式,调查清楚哪里出了问题,制定相应的挽回策略,唤醒他们的购买意愿。
- 5、针对曝光点击率排名前十的商品,做好页面功能的效果营销,将其产品功能完美展现,提高用户的购买意愿。
六、数据可视化