为什么需要用户画像?
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理。比如可以做分类统计:喜欢理财的人群中,男、女比例是多少?喜欢购物的用户有多少?
也可以做数据挖掘工作:利用关联规则计算,喜欢理财的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢购物的人地区分布情况是怎么样的?
大数据处理,离不开计算机的运算,标签提供了一种方便的方式,使计算机可以程序化地处理与人有关的信息,甚至可以通过算法、模型来“理解”人。电脑一旦具备了这一能力,无论搜索引擎、推荐引擎、广告投放等各方面的应用,都会进一步提高精确度,提高信息获取效率。
如何构建用户画像?
一个标签通常是人为规定的高度精炼的特征标识,如:性别标签”男、女”、地域标签“北京”,等等。标签呈现出两个重要特征:一是语义化,即人能很方便地理解每个标签的含义。这也使得用户画像模型具备实际意义,能够较好地满足业务需求。如:判断用户偏好。二是短文本,每个标签通常只表示一种含义,标签本身无需再做过多的文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
我们制定的标签规则,必须要确保所做的标签具备两个基本特性:人能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即用户标签,向我们展示了一种用于描述用户信息的朴素而简洁的方法。
数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
关于用户相关数据的分类,这里介绍一种重要的分类思想:封闭性的分类方式。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。
本文将用户数据划分为静态信息数据、动态信息数据两大类。
静态信息数据——
用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面的数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据运营清洗工作,因此这方面信息的数据建模不是本篇文章重点。
动态信息数据——
用户不断变化行为的讯息,如果存在神,每个人的行为就会在瞬间被神那看不见的眼睛监视。一般而言,一个用户打开网页,买杯饮料,就像该用户在晚上溜狗,白天偷拿一次钱,打哈欠等等,都是在神的眼皮底下的用户行为。在互联网上,甚至在电商上,用户的行为都会有很多的聚焦。
本篇文章以互联网电商用户为主要分析对象,暂不考虑线下用户行为数据(分析方法类同,只是数据获取途径、用户识别方式有些差异)。
网络中,用户行为可以被看作是动态信息的唯一数据源。本文重点研究了如何从用户行为数据中建立数据模型,分析用户标签的方法。
目标分析
这个用户画像的目的是通过分析用户的行为,最终确定每个用户的标签,以及标签的权重。比如:女,网购,自拍。
标签,表征了内容,用户对该内容有需求、兴趣、偏好等等。
权重,表征了指数,偏好指数、用户的兴趣,也可能表征用户的需求度,可以简单地理解为可信度、概率。
数据建模方法
下面内容将详细介绍如何根据用户行为,构建模型产出标签、权重。一个事件模型包括时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间、什么地点,做了什么事。
四、总结:
注意:本文章不涉及具体的算法,更多的是阐述分析性思路。