通信人家园

标题: [原创]基于评分制的学生客户识别模型  [查看完整版帖子] [打印本页]

时间:  2011-12-26 17:06
作者: gechangwei     标题: [原创]基于评分制的学生客户识别模型



一、为何建模
  每年秋季开学,各家运营商都斗得不亦乐乎,仿佛校园是个大金矿。可事实上,这个市场并不大,浙江高校不少,但高校学生客户依然不足总客户的2%。更何况,这些年校园资费越走越低,营销成本却一直居高不下,使得校园市场几无利润可言。若仅从利润角度看,这个市场堪称“鸡肋”。
  尽管如此,校园市场依然不容忽视,因为学生这个群体最富潜力,也最有影响力。忽视了校园,就是忽视了未来。更何况,就算只为“不争馒头争口气”,校园市场也不容放弃。
  电信重组前,联通在校园市场虽然也有所努力,但一直收效甚微,绝大部分学生都用移动。那个时候,有没有模型关系不大。但重组后,电信凭借有线宽带优势,联通凭借高速上网优势,都吸引了不少学生。于此同时,随着语音资费的逐渐接近“白菜价”,作为移动杀手锏的校园虚拟网也仿佛廉颇老矣。如此此消彼长,整个校园市场的竞争形势开始复杂化。
  这个时候,仅凭简单取数已经掌握不了市场的现实。为此,我们在今年启动了校园分析应用项目,而其核心就是学生客户识别模型。
  
  二、建模思路
  著名管理学家德鲁克先生曾经说过:“一种工具,并不一定越大就越好。能够以最小的努力、最小的复杂性和最小的动力做好工作的工具,就是最好的工具。”
  这话非常在理。
  模型是分析的工具,同样越简单越好
  在很多年前,我们就开始应用各种技术和方法进行用户建模。从实际成效看,很多基于数据挖掘技术的、看上去很先进但一般人难以理解的模型,最终大家都是敬而远之,其成果大都束之高阁。而一些基于简单取数的、大家很容易理解的模型却被大家广泛应用。
  在学生客户识别模型的建模过程中,我们的思路也经历了一个“从复杂到简单”的回归。
  在建模初期,我们尝试过用集团下发方案中的“基于用户社交网络逐步扩散的校园学生用户识别模型”。这个模型实现起来不算复杂,但却让业务人员很难理解,且大家听后都是将信将疑。另外,这个方法的基础是外部收集的“种子用户”,而这个数据,浙江没有一个地市能够收集全。
  放弃集团方案后,我们在原先传统校园取数的基础上,结合交往圈因素,又做了一个模型。该模型主要利用校园套餐、校园虚拟网、校园基站通话和交往圈这四个元素,根据四个因素的不同组合来筛选出学生。并且使筛选出的规模跟经验值一致。
  该模型筛选出的学生规模跟经验值基本一致。经过外呼验证后,发现模型准确率达到73%。从建模角度看,这个准确率已经相当不错,不过这个离我们期待的80%以上的准确率依然还有一定差距。
  通过对外呼结果的分析发现,很多被误判成学生的客户,本身特征确实跟学生类似,比如很多都用动感校园套餐、加入校园虚拟网且同时在校园旁边活动,这些人中很多是教职工或刚毕业的学生。
  为了进一步提高模型准确度,我们考虑在模型中引入校园流量包、校园WLAN包、校园渠道业务办理等特征因素。但由于原先的模型已经是凭经验得来的多因素组合,本身已经够复杂。若再把新的因素一一叠加上去,那么模型就会变得非常费解。
  经过反复思考,我们找到了一个“化繁为简”的思路,这个思路就是“评分制”。
  我们知道,我们要在大量的用户中准确地识别出2%左右的学生客户,凭的就是学生客户的各种特征。客户每体现出一个学生的特征,意味着其是学生的可能性就会增加一分;体现出的特征越多,那么其是学生的概率就越高。
  这就像是考试,每答对一道题目,都会增加一种成绩及格的可能性。当最终获得的分数达到一定阀值时,也就意味着及格了。
  “基于评分制的学生客户识别模型”采用的就是类似考试的思路,该模型将每一个学生用户的特征看成“一道题目”,不同题目具有不同“分数”。模型根据每个用户的实际特征来给每个用户评分;当最终累加的分数达到一定值时,模型就将其判断为学生。
  
  三、模型简介
  “评分制”模型的关键是找到能够识别或排除校园用户的量化特征,对每一个特征赋予合适的分数并确定评分的规则。模型运行时,先对每一个客户进行评分,最后根据累计的分数筛选出学生客户。
  学生客户特征主要分成两类:
  第一类特征是“加分”特征,用来找到学生客户;越是符合这类特征,那么是学生的概率就越高,比如校园基站通话、加入校园虚拟网、办理了校园资费包等。
  第二类特征是“减分”特征,用来排除非学生客户;越是有这些特征,那么说明越不像是学生,比如用户很少发送短信、没有上网、入网时间过早、年龄过大等等。
  
  对于学生客户, “加分特征”有:
  1、校园虚拟网(20分)
  校园营销中,移动的一个主要武器就是校园虚拟网。大的学校有专门虚拟网,小的学校可能是多个学校共用一个虚拟网。
  加入虚拟网后,用户的平均语音资费能够下降一半,所以不加入虚拟网的学生不多。但跟校园套餐的原因一样,加入校园虚拟网的却未必是学生。
  若用户加入虚拟网且有虚拟网通话的,加20分;只加入没使用的,加5分。
  
  2、动感校园套餐(20分)
  针对校园用户,公司有专门的动感校园套餐,资费比社会资费低不少,绝大多数学生都是办理此类套餐。不过,因为某些地区该类套餐的控制并不严格,所以也有社会用户办理。
  若用户办理校园套餐,则加20分。
  
  3、校园资费包(20分)
  目前,有一些叠加资费包是特意针对学生的,到了学校外面就没有任何优惠,比如校园WLAN资费包,校园上网流量资费包。办理这些资费包的大部分是学生,但学生未必就一定办理这些资费包。
  若办理了校园流量包且上网流量大于5MB,那么加20分;若办理后有使用但是流量低于5MB,那么只加10分;若只办理无使用,则加5分。
  若再办理了校园WLAN资费包且有使用,那么加20分;若只是办理,那么加5分。
  
  4、校园基站通信(20分)
  校园基站下是否有通信行为,这是几乎所有校园模型都会用到的元素。不过,因为很多高校和居民区其实分的并不开,再加上校园基站数据的维护也未必完全准确,所以导致校园基站下通信的未必是学生。
  对于校园基站下的通信,要区分不同情况以确定不同的分数。若用户通信行为最多的基站是校园基站,那么加20分;若是2-3位的基站,那么加10分。若是3位以后且通话次数超过5次的,那么加5分;其余情况不加分。
  
  5、直邮卡清单(15分)
  秋季校园营销的发卡主要分两种:一种是直邮;一种是现场发卡。无论是哪种方式,地市都有号码清单。不过,清单中号码的真实使用者未必就是学生,也可能是其家人或朋友。
  处理这部分清单,特别是处理前些年的历史清单时,一定要注意做一些预处理。因为这些清单都是号码,而号码是可以重复利用的,所以每一份清单都必须确定一个用户入网时间的范围,对于超出范围的,要予以剔除。
  若用户号码在此类清单中且入网时间跟清单时间接近,那么加15分。
  
  6、校园渠道业务办理(15分)
  目前,移动在不少学校内部都建有专门的营业厅,若用户在这些地方办理过业务,那么这些用户很有可能是学生。
  若用户在校园渠道办理过业务,那么加15分。
  
  7、交往圈(30分)
  学生客户是个内聚性很强的群体,其小群体内的网内话务量很高,而跟网外客户的通话较少。所以,交往圈既被用作筛选学生,也被用来排除非学生。
  在应用交往圈之前,先利用上述消费特征对校园用户进行一个初选,初选的规模控制在经验值的的80%左右。
  对初选客户群的交往圈进行统计,找到每个客户跟群里多少人有通信行为,算出“群内交往圈大小”。若群内交往圈大小大于等于30个,那么增加30分。若大于5个,小于30个,那么以实际交往圈大小为分数。
  
  8、历史因素(20分)
  对于过往三月的模型进行累计,若连续三月都判成学生,则加20分;若最近连续两个月判成学生,那么加15分;若只有上月判成学生,那么加10分;其余情况不加分。
  
  以上列举的是用来找出学生客户的特征,下面要列举的是在可能的学生客户中,排除非学生客户的一些“减分特征”:
  1、用户通话次数(-50分)
  该项主要用来排除已经流失或接近流失的用户。
  若用户没有通话,那么减去50分;若月通话次数小于5次,那么减去30分。
  
  2、用户短信发送次数(-20分)
  若没有发送任何短信,那么扣20分;若发送短信的条数低于5条,那么扣10分。
  
  3、用户上网流量(-20分)
  若用户没有移动上网流量,那么扣20分;流量小于1MB,扣10分;流量小于5MB,扣5分。
  
  4、客户年龄(-15分)
  高校学生客户有一定的年龄范围,虽然个别可能异常,但是大部分应该都是正常的。
  学生客户的入网资料登记要比社会用户好一些,因为很多产品是限定学生产能办理。所以可以根据客户身份证号得出客户的年龄,而根据年龄可以排除一些非学生客户,特别是能够排除一些教职工。
  若用户没有登记身份证或身份证资料错误,不扣分。
  若用户实名且算出的用户年龄30周岁,那么减去15分。若年龄在26-30岁之间,减去10分。
  
  5、群内交往圈筛选(-20分)
  先应用加分规则,然后利用上面的减分规则,再次筛选出一个准学生客户,然后统计群内交往圈大小。
  若群内交往圈大小小于3个,那么扣20分;3-5个之间,扣10分。
  寒暑假月份不做筛选。
  
  四、模型调试
  尽管本文列举了不少可以用来筛选或排除学生客户的一些特征,但我相信实际能够用来判断的特征更多。在评分制思路下,增加新的判断特征非常容易,也就是说模型很容易进行扩展。
  同样的一个特征,在不同的地方可以有不同的权重,本文所列举的分数只是一个示意。比如,同样校园套餐,假如某地严格控制只有学生能够办理,那么其分数就可以加大。事实上,模型中大部分特征的分数都可以参数化,让各地的业务人员根据自己所在区域的特点作相应的调整。
  这个世界上,不存在什么绝对正确的模型,一个好的模型应该是能够根据业务人员的经验和反馈不断进行调整和优化的模型。
  评分制模型提供了一个学生客户识别的框架,但该模型要达到一个高准确率,还有赖于业务人员的经验和努力。
  外呼验证有助于提高模型准确率。因为我们可以根据外呼验证的结果反过来评定各个特征元素的判断效用,并以此为依据来调整模型参数。
  
  五、模型展望
  评分制模型是在当前四因素组合模型基础上演化而成的一个模型,目前该模型还在开发中,预计需要1-2周时间才能开发完毕。
  模型结果出来后,我们还需要再次进行外呼验证。考虑到初期四因素组合的模型准确率就达到了73%,预计最终模型的准确率应该能够达到80%以上。
  校园应用中除了本网学生客户的识别模型外,还需要建立竞争对手学生客户的识别模型。而竞争对手识别模型能够用到的元素相对较小,主要能够应用的因素只有跟本网学生用户的交往圈。也就是说,本网学生客户的模型越准确,对手的识别也将更加准确。
  如今,我们的竞争对手学生客户的识别准确率还只有55%左右,想要进一步提高准确率的难度极大,目前我们依然还在探索中,尚未找到理想的办法。
时间:  2011-12-27 11:33
作者: EDxianqin

第一次离ge老师这么近,真心学习了
时间:  2011-12-27 11:36
作者: 放开我的王菲

老葛这技术+市场模式的思考,值得我们学习
时间:  2011-12-27 14:36
作者: zerovincent

基站、交往圈两个因素进行圈地
再从客户行为进行打分
可能好一点
时间:  2011-12-27 18:35
作者: gechangwei

原帖由 zerovincent 于 2011-12-27 14:36 发表
基站、交往圈两个因素进行圈地
再从客户行为进行打分
可能好一点


1、假如学校跟居民区是完全分开的且地市提供的基站数据是准确的,那么基站这个数据可以作为重要基础。
可是,实际上,很多学校跟居民区混在一起,地市提供的数据有时候一次变更50%以上,所以这个数据其实是很不可靠的,在校园基站下有通话的用户往往是真正校园用户的6-10倍以上。

这些因素中,圈定学生的,最有效的其实是校园虚拟网,因为其中40%左右是学生。

2、交往圈因素的基础先找到一个基本靠谱的学生用户群,然后才可能以此扩散来查找学生。

3、集团下发的模型中主要就是应用了这两个因素的组合。从我们的实际应用看,效用是很差的,其效果比不上我们校园虚拟网+校园套餐两个条件的组合。
时间:  2011-12-27 19:39
作者: 山中人

不错,顶一下
时间:  2011-12-27 21:51
作者: jia498789

顶顶
时间:  2013-10-23 14:54
作者: fallraine

两年后再看,仍然很赞。。




通信人家园 (https://www.txrjy.com/) Powered by C114