@buptzym
2016-05-07T10:29:31.000000Z
字数 3266
阅读 491
未分类
1.我们问一下联通的工作人员,一个IMEI对应一个手机,一个IMEI有多条记录是因为这个手机换了不同的SIM卡。今天我们会将大家之前问的问题汇总,在论坛中发一个QA帖
那么用户还是原来50万里面的用户吗?是的,大家需要根据这些用户过去一年的数据(2015年1月-2015年12月),预测他们未来三个月(2016年1月-2016年3月)是否会换机
就是要用docker部署一个容器服务,通过这个容器可以访问volumn上的数据。具体操作方法可以通过daocloud右下角询问Daocloud的工程师
IMSI和IMEI一个标示卡,一个标示手机,数据集2里没有IMEI,应该看终端型号是否改变
如果是同一个imei,要考虑是不是山寨机——这数据是有多老啊?
下周我们会开放结果上传,届时会有详细说明。简单的说,赛题一要求上传ppt导出的pdf文档,赛题二要求上传预测结果的csv文件
shujudasai_1.csv第二列是加密后的IMEI。赛题一的两个数据的ID都是加密后的IMEI,可以进行关联。赛题三的数据是IMSI
@lolonger Q13:请问第三个数据里面相同手机品牌型号,在1-8月和9到12月为什么拼写不一样?
A13:联通内部8月-9月之间品牌和机型的标签发生了变化。8月份之前,总部品牌和机型都是英文的;9月份之后,给的都是中文的。由于品牌和机型的标签是总部给的,上海联通没有机型变化对照表,内部一般是8月份的数据用8月份之前的数据预测,9月份之后的数据用9月份之后的数据预测。真实业务数据中会经常出现这类数据质量的问题,赛题数据的真实情况也是对参赛选手的实务能力的考验。
关于“沃+”大赛,选手们问了小科很多问题,小科在此整理解答一下大家常问的问题。
Q1:是否可以结合自带数据?
A1:可以。
Q3:数据一的用户数有642548这么多?为什么distinct imei只有1万多点?
A3:是62万独立用户数。
Q4:请问一下 数据集1中是不是有些记录的轨迹坐标不全?我打开看有多条记录都是某几个小时的坐标数据缺失?
A4:数据集一中的轨迹坐标不全是因为用户的手机没有产生(短信、上网、语音等)业务行为,或者位置位置没有发生大规模移动。
Q5:第一题的第二张表里面(APP记录),一个IMEI对应很多条记录,比如某个IMEI对应16条不同的记录,这是为什么呢?
A5:重复的原因是因为手机出现了换卡的行为,使得一个IMEI对应一个手机;数据集3,终端数据的一个IMSI对应的一张SIM卡。
Q6:请问 问题一的数据样本里有用户性别年龄手机终端的信息,为什么在正式的比赛数据集里就没有这些信息了呢?
A6:具体参赛数据以正式比赛数据为准。
Q7:数据集二中,为什么有些用户没有标签信息?
A7:用户标签信息中有些用户的标签缺失是因为是非上海联通的用户,上海联通的库中没有这部分用户的标签信息。
Q8:数据集1中的示例的经纬度使用的是哪个坐标系? 用户在1小时内可能是在不停移动的,此时是怎样确定一个小时中的经纬度的?
A8:是单位小时内,用户停留时长最久的经纬度。
Q9:数据集一与数据集二是通过“IMEI”字段来关联吗,数据集一与数据集二的IMEI能对应得上吗?
A9:是可以通过IMEI进行关联。
Q10:数据集一的时间是1月份的,数据集二没有给出时间,命题中说明是会给出八月份的数据,比赛用的数据到底是哪个月的?
A10:数据集一和二都取自十二月底和一月初。
Q11:数据集二的 交往圈规模是依据什么统计的,是本月的通话联系人个数,还是通话与短信的联系人个数。
A11:交往圈是当月产生主被叫通话行为的人数。短信不计入交往圈的数量。
Q12:终端型号 字段是如何统计的,以当月1号使用手机型号为准,还是当月使用天数最多的手机型号为准?
A12:以当月最新的手机为准。
Q13:请问第三个数据里面相同手机品牌型号,在1-8月和9到12月为什么拼写不一样?
A13:联通内部8月-9月之间品牌和机型的标签发生了变化。8月份之前,总部品牌和机型都是英文的;9月份之后,给的都是中文的。由于品牌和机型的标签是总部给的,上海联通没有机型变化对照表,内部一般是8月份的数据用8月份之前的数据预测,9月份之后的数据用9月份之后的数据预测。真实业务数据中会经常出现这类数据质量的问题,赛题数据的真实情况也是对参赛选手的实务能力的考验。
Q14:命题2的比赛打分数据,是来自训练数据集的50万人,还是新人;打分数据的用户也是给定过去1年的历史记录吗?
A14:大家需要根据这些用户过去一年的数据(2015年1月-2015年12月),预测他们未来三个月(2016年1月-2016年3月)是否会换机
Q15:题目二最终生成的模型要以什么样式提交?
A15:最终会要求大家提交对于换机预测概率的CSV文件,每一行是“IMSI,probability”,IMSI是SIM卡编号,probability表示换机的概率,建议数值取小数点后四位,如0.7594。在开放提交后,科赛网会提供结果样例文件供大家参考。
Q16:苹果A1530,A1528算是不同手机吗?
A16:不同国家的同一款手机对应不同的型号,同一个国家,不同运营商的版本(比如:联通2G、联通3GG、通用版等)也不同;同一机型,在用户数据中出现了不同的型号的情况也属于产生换机行为。联通内部做预测的时候,会采用字符串严格匹配的方案确定是否换机,本次比赛也将采用这种方法。
Q17:无法领取DaoCloud优惠券问题怎么办?
A17:如果已经通过科赛网的身份验证,但是无法领域优惠券,可先在DaoCloud网站首页右下角的反馈系统(DaoVoice)联系DaoCloud官方客服。若问题仍然无法解决,请将客服聊天截图发给admin@kesci.com,由科赛网帮助处理。
Q18:请问时空数据表中,每一行坐标数据是当天0点、1点、2点……这样时间排列的数据吗
A18:是的。每一条数据表示每个用户每天的时空行为,共50个字段,除去时间与imei共48个字段,是24个经纬度坐标(lng,lat),每个小时归并一次。
Q19:问题二中的预测结果提交,是否基于经过清洗的36万用户的IMSI名单?
A19:是的。经过清洗的36万用户的IMSI名单,可以“比赛规则”页面中进行下载,去除了有数据质量问题的主要数据(有小部分数据,仍存在数据质量问题)。
Q20:如果某用户在12月份为Coolpad 7295,到次年1月为Yulong 7295,这是否判定为换机?
A20:是的。为了确保可操作性,换机的定义将严格定位为终端型号发生变化。经过数据检测,问题中所描述的这种情况,在经过清洗的36万用户的IMSI名单中,仅占到极小的比例,对预测和成绩的影响有限,故不再进行规则调整。
赛题描述:用户需要根据2015年1月-2015年12月的“用户终端使用变迁”数据,预测用户在2016年1月-2016年3月期间,是否会更换手机。
数据清洗:“用户终端使用变迁”数据中一共有不重复的IMSI 50万条,但是其中会有部分字段缺失,为了降低选手数据清洗和预测的难度,科赛网决定使用比较严格的数据清洗规则,去掉2015年1月-2016年3月,所有含有缺失值(""和"")的数据条目,去除之后剩余360698行数据,剩余数据的IMSI见需要预测的IMSI 。
换机标准:
将用户2015年12月的终端品牌、终端型号与2016年1月—2016年3月的终端品牌、终端型号相比较(严格字符串匹配),如果发生了变化,则这部分用户发生了换机行为 。
具体代码:
数据说明及比赛提示:
选手可以选择只用9-12月的数据进行训练和测试;也可以用1-8月和9-12月的数据分别训练和测试模型,最后融合;还可以用自然语言处理的方法将1-8月和9-12月描述发生变化的终端品牌和终端型号建立对照字典。
为保证比赛与实际业务场景相符,2016年1-3月的数据没有公开,选手需要在2015年1-12月的数据上自行划分训练集和测试集。