这里发现
一只程序猿O(∩_∩)O
渴望用Hello World改变世界,喜欢电影,喜欢跑步,略带文艺的逗比程序猿一只!

Seminar : Telco Churn Prediction with Big Data – SIGMOD 2015

这篇paper来自SIGMOD2015,主要内容是利用通信运营商的大数据来预测其预付费用户的流失。文中实现的系统可以提供下个月可能流失客户的top50000的清单,准确率高达0.96。

  上图是中国某通信运营商12个月的客户流失数据,从中可以看出,prepaid 用户的流失率(平均9.4%)远高于postpaid用户(平均5.2%),所谓prepaid用户是指预付费用户,而postpaid用户个人理解指的是签约用户,类似于签约送手机的这类客户。

一、数据介绍

本文采用的数据分为两部分,BSS数据和OSS数据。

BSS(Business Supporting System)数据指业务信息,例如用户的个人信息、电话时长等等,主要来源于运营商的传统业务系统,每天产生的数据量约为24GB。详见下图:

OSS(Operation Supporting System)数据指运营商网络服务信息,比如电话断线率、网速等等,可以反映出运营商的服务质量,数据来源于运营商使用的通信基础设备,例如从华为的集成解决方案SmartCare中导入,每天产生的数据量高达2.2TB。详见下图:

比较发现,OSS数据占了总数据量的大约97%,而之前的研究中只用到了BSS数据。

二、特征提取

本文特征提取主要分为两部分,一部分是基本特征,另一部分是复杂特征。

首先来说一下基本特征,基本特征就是一些没有经过特殊计算的原生数据,主要分为Baseline特征、CS特征和PS特征。详见下图:

 

而复杂特征是通过一些无监督学习、半监督学习和有监督学习算法提取的特征,主要包括:基于图的特征、主题特征和二阶特征。

  • 基于图的特征

这些特征是指从CDR数据和MR数据中提取出来的通话图、消息图和共现图。所有这些图都是无向图,结点指客户,其中通过图和消息图边的权重分别指双方通话时长的累积和互发消息的条数累积,而共现图的边的权重指两人在20分钟内,100*100m的时空立方体中的共现次数。然后通过PageRank算法和标签传播算法来分别为每个图产生两个特征值。

  PageRank算法计算的特征权重计算公式如下:

其中N(m)指与边m连接的邻接结点的集合。阻尼系数d设置为0.85。Xm初始值为1,经过多次迭代,基于PageRank算法的随机游走,Xm将收敛于一个固定点,值越大代表在图中的重要性越高,例如在通过图中,较大的值表明很多人与这个客户打电话,意味着这个客户不易流失,这样每个客户会得到3个PageRank特征。

标签传播算法是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的相似度,节点的标签按相似度传递给其他节点。标签数据就像是一个源头,可以对无标签数据进行标注,节点的相似度越大,标签越容易传播。从一组已经知道是流失客户的结点开始,跟随边的权重来将流失客户的流失概率传递到未知的客户节点,经过多次迭代,算法收敛,每个未标记客户都与已流失客户有了一个表示权重的结果。值越大,表示这个客户与越像流失客户,这样可以得到三个标签传递的特征值。

最终每个客户生成六个特征值。

  • 主题特征

主题特征主要是从客户对服务的抱怨的记录以及搜索记录中提取。这里用到了LDA算法来从文本中提取了20个特征值。主题提取不太了解,LDA算法的具体操作没太仔细看,还不太明白,后期用到的时候专门写文章总结一下吧。

  • 二阶特征

在数据中有一些隐藏的关系我们无法发现,这时候会用到二阶特征或多阶特征,就是指通过两个或多个特征经过一定的计算来产生新的特征值。假设有N个特征,那么就可以产生(N+1)N/2个二阶特征,但是这样会很大的增加构建分类器的负担,所以需要通过一些方法来从中选出最有用的特征。这里利用LIBFM(Factorization Machine Library)(一个机器学习算法库)聚类模型来提取有用的二阶特征。

  三、构建分类器

这里选择随机森林分类器来进行预测,随机森林是一个有监督学习学习算法,首先需要人为来标定训练样本的分类,这里将欠费超过15天没充值的人定义为流失客户,以此来标定训练样本的分类,用这个训练样本来训练分类器,最终来预测未来的流失客户。

写不动了,歇会,明天继续!/(ㄒoㄒ)/~~

 

转载请注明出处fullstackdevel.com:SEAN是一只程序猿 » Seminar : Telco Churn Prediction with Big Data – SIGMOD 2015

分享到:更多 ()

Comment 2

评论前必须登录!

  1. #1

    为何不用英语写。。

    光线程序猿3年前 (2015-09-27)