教你如何做好用户画像?

打窝大师团队 2020-12-28 14:51
  经过2012-13,这两年的疯狂炒作,人们逐渐冷静下来,更多的关注于如何利用大数据来挖掘潜在的商业价值,如何将大数据技术真正应用到企业中。

  随着人们对大数据应用的探讨和创新,个性化技术成为人们关注的焦点。与传统的线下会员管理、问卷调查、购物篮分析相比,首次使用大数据可以使企业方便地利用因特网获得更广泛的用户反馈信息,为进一步准确、快速地分析用户行为习惯、消费习惯等重要商业信息提供充分的数据基础。随着人们对人类认识的逐渐加深,一个概念悄然诞生:用户画像(UserProfile)。其对用户信息全貌的完美抽象化可以被视为企业应用大数据的基础。

  告诉你,什么是用户画像?

  男,在线时长30秒,系统设备:  Lenovo A390t Android 4.0.3,和账号绑定。爱理财,自拍达人,喜欢淘宝上购物。

  这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。

  如果用一幅图来展现,即:


1609137438524513.jpg


  为什么需要用户画像?

  用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理。比如可以做分类统计:喜欢理财的人群中,男、女比例是多少?喜欢购物的用户有多少?

  也可以做数据挖掘工作:利用关联规则计算,喜欢理财的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢购物的人地区分布情况是怎么样的?

  大数据处理,离不开计算机的运算,标签提供了一种方便的方式,使计算机可以程序化地处理与人有关的信息,甚至可以通过算法、模型来“理解”人。电脑一旦具备了这一能力,无论搜索引擎、推荐引擎、广告投放等各方面的应用,都会进一步提高精确度,提高信息获取效率。

  如何构建用户画像?

  一个标签通常是人为规定的高度精炼的特征标识,如:性别标签”男、女”、地域标签“北京”,等等。标签呈现出两个重要特征:一是语义化,即人能很方便地理解每个标签的含义。这也使得用户画像模型具备实际意义,能够较好地满足业务需求。如:判断用户偏好。二是短文本,每个标签通常只表示一种含义,标签本身无需再做过多的文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。

  我们制定的标签规则,必须要确保所做的标签具备两个基本特性:人能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即用户标签,向我们展示了一种用于描述用户信息的朴素而简洁的方法。

  数据源分析

  构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。

  关于用户相关数据的分类,这里介绍一种重要的分类思想:封闭性的分类方式。

  这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。


1609137482888530.jpg


  本文将用户数据划分为静态信息数据、动态信息数据两大类。

  静态信息数据——

  用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面的数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据运营清洗工作,因此这方面信息的数据建模不是本篇文章重点。

  动态信息数据——

  用户不断变化行为的讯息,如果存在神,每个人的行为就会在瞬间被神那看不见的眼睛监视。一般而言,一个用户打开网页,买杯饮料,就像该用户在晚上溜狗,白天偷拿一次钱,打哈欠等等,都是在神的眼皮底下的用户行为。在互联网上,甚至在电商上,用户的行为都会有很多的聚焦。

  本篇文章以互联网电商用户为主要分析对象,暂不考虑线下用户行为数据(分析方法类同,只是数据获取途径、用户识别方式有些差异)。

  网络中,用户行为可以被看作是动态信息的唯一数据源。本文重点研究了如何从用户行为数据中建立数据模型,分析用户标签的方法。

  目标分析

  这个用户画像的目的是通过分析用户的行为,最终确定每个用户的标签,以及标签的权重。比如:女,网购,自拍。

  标签,表征了内容,用户对该内容有需求、兴趣、偏好等等。

  权重,表征了指数,偏好指数、用户的兴趣,也可能表征用户的需求度,可以简单地理解为可信度、概率。

  数据建模方法

  下面内容将详细介绍如何根据用户行为,构建模型产出标签、权重。一个事件模型包括时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间、什么地点,做了什么事。

  四、总结:

  注意:本文章不涉及具体的算法,更多的是阐述分析性思路。

上一篇 下一篇