蚂蚁金服1/4员工“专工”风险管理业务

阿里赴美IPO之后,狂欢之际,更多人关注到,当初建立在淘宝电商之上,如今对阿里来说是最大“意外收获”的支付宝却并不在上市计划内。同样不在上市计划之内的是包括支付宝在内的阿里又一张王牌——阿里金融,全称:浙江蚂蚁小微金融服务集团,如今更多人愿意称其为蚂蚁金服。
在阿里上市之后一个月,阿里小微正式更名蚂蚁金服,旗下框架初步浮出水面,当时的主要业务板块还仅是包括支付宝、余额宝、招财宝、蚂蚁小贷,以及正在筹建的网商银行。
《第一财经日报》记者日前走访了蚂蚁金服,揭秘这一已经将业务板块拓展至支付宝、蚂蚁花呗、网商银行、芝麻信用、余额宝、招财宝、蚂蚁聚宝、蚂蚁达客、保险业务等,囊括了“存贷汇”业务的金融巨舰的风控内幕。
采访过程中,本报记者获得一组数据,目前蚂蚁金服共有员工6000余人,其中有1500人专门从事风险管理业务,占据全部人员的25%。同时在这1500人中,又有超过三分之二为数据分析人员和技术研发人员。
在设备投入方面,大安全部门约有2200台服务器专门用于风险监测、分析和处置;工具方面,共有5000~6000条规则、60多个模型用于风险的识别、分析和管控。
核心技术:CTU智能风控大脑
蚂蚁金服在风险控制技术上的核心是基于海量数据的智能风控大脑,在内部被称之为“CTU”。蚂蚁金服安全&服务及数据事业群高级经理郑良西对记者进一步解释到,所谓CTU其核心任务之一就是判断账户是否由账户的拥有者操作
如果是就通过,如果不是则要通过验证,通不过验证就要阻止交易发生。”郑良西表示,CTU是通过多维度进行检测和判断,包括买家信息、买家信息、历史交易信息等,判断后会有管控决策以及人工审核。“80%是通过智能审理的方式处理,一部分通过人工方式进行审核。”郑良西说。
用户在实际使用账户的过程中,经常遇到的场景就是输入验证码、短信验证、安全问题回答等。在安全系统看来,每一次验证对于用户都是一次打扰,如何能够在安全和用户体验之间平衡,打扰的频次和打扰的方式起着决定性作用。
“这是一个集群化概念,用10%的高效互动,实现最大化的安全。”郑良西称当前交易的打扰率已经下降了65%。
除此,蚂蚁金服在账户安全方面还根据事前、事中、事后进行了不同的风险防控手段。例如,事前将账户的风险分成,不同账户对应不同风险等级。事中,对新上线的产品进行风险评审以及监控策略方案评审。在走访中,本报记者看到支付宝大楼某一层有一个蓝色的实时全业务数据监控大屏。在事后,针对确定发生的风险事件打造了智能风险审理系统。
记者在采访过程中了解到,目前蚂蚁金服正在与公安机关、检察院、法院合作,对线下扰乱互联网金融秩序的的违法犯罪分子协同打击。数据显示,在过去蚂蚁金服协助破获的案件中,70%为盗用案件,其中具体包含银行卡盗用、账户盗用、设备丢失、扫号、洗号等,除盗用案件外还包括红包赌博、骗取贷款、木马案件、反洗钱等。
在蚂蚁金服这一大机器运转中,无论是业务发展、产品策划、市场营销还是风险防控,每一个环节都是由一个个数据构成的, 蚂蚁金服信息安全部总监王心刚称,“数据使用的策略是按需申请,且是最小授权,即在满足业务需要过程中的最小数据。”王心刚表示,在流转层面,在蚂蚁金服内部必须实现内循环。即当业务员在A业务系统进行操作的过程中,如果有数据需要传导至B操作系统,不能够发生先将数据下载到本机,再行上传到B业务系统。“这个数据流转路径存在一定风险,我们一直强调数据不能落地。”
大数据:从获取到应用要走6步
目前,蚂蚁金服旗下的业务包含支付宝、蚂蚁花呗、网商银行、芝麻信用、余额宝、招财宝、蚂蚁聚宝、保险等,而这些平台在从事与金融相关业务的同时也在做同一件事:“数据沉淀”。
数据量对于蚂蚁金服来说再某种程度上已经不再是问题,但当拥有足够量的大数据时,距离利用数据进行风控贷款仍有很长的路要走。日前,网商银行递出开业8个月来的首张成绩单,高达450亿的贷款余额中, 98%的贷款金额在5万元以下。
网商银行风控总监盛子夏在接受记者专访时解密了数据微贷业务的始末。
从原始数据获取,到最后数据应用落地一共要走六步。”
原始数据一共包含两层,第一层是阿里系统内部的交易数据和被称之为CRM的客户信息管理系统,第二层则是外部合作数据,如公共信息数据、以及第三方合作数据。“原始数据本身并不能产生商业价值,需要经过中间层数据的转化。”盛子夏进一步解释道,将原始数据汇总后进行地址库、主题数据等分类,在这个基础上形成基于中间层数据的衍生指标。“这之后才到模型阶段,也就是更多人提到的信用评分、用户标签等。”
然而,信贷业务无法完全依赖单位指标的信用评分。“真正用做融资和贷款还要加入配套的,包含风险端、营销端、安全端以及第三方评估数据等在内的数据策略。”
接下来,蚂蚁金服开发了一套被称为“通用云数据决策系统”,根据成千上万条数据判断是否值得为某个客户进行放贷,最后再将该决策系统对接至不同的应用场景
盛子夏称,相对于传统信贷模型,蚂蚁金服的数据模型不会机械地看待客户,而是从一个更全方位的角度去看待,包括衣食住行、社会阶层、教育背景、家庭住址、学历等。在这套模型之下,可将单笔贷款成本降低到几分钱。
支付宝暂不对接P2P、众筹
“有P2P公司来找我们,但是我们已经没有跟P2P公司接触了。”蚂蚁金服安全&服务及数据事业群国内风险管理部资深经理郑亮在接受记者专访时阐释了支付宝对于P2P网贷行业的审慎态度,对于支付宝来说目前暂不愿涉及P2P平台第三方托管业务的范畴,在更深层次来说,也不愿意对接该类B端企业作为支付宝收单商家。
郑亮称,未来支付宝是否会改变这一想法,暂时还没有结论,更大程度上需要取决于未来行业发展的方向和监管的完善。
本报记者了解到,除P2P被划定在支付宝对接“敏感区”之外,同样在这一领域的还包括众筹,以及涉及线下资金归拢、线下投资等脱离实体经济的类金融服务。
但是目前行业中仍有P2P公司在试图与蚂蚁金服接触,目标合作对象除能够提供收单以及第三方托管的支付宝外,更多平台将目标瞄准了芝麻信用。
支付宝之所以将P2P划入“敏感区”,在郑亮看来,主要取决于两方面的原因,第一,行业定位上不明晰,P2P行业并非单纯地承担了信息中介角色在其中,行业规范性欠缺;第二,支付宝在对合作目标平台进行尽调的过程中发现,大量平台的核心风险管理岗位,甚至决策层的风险管理能力和意识尚未达到专业水平。
http://www.yicai.com/news/2016/03/4762738.html
 

hive中的文件格式

在hive中的文件格式主要如下几种:
textfile:默认的文本方式
Sequencefile:二进制格式
rcfile:面向列的二进制格式
orc:rcfile的增强版本,列式存储
parquet:列式存储,对嵌套类型数据支持较好
hive文件支持压缩方式:
这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:gzip,bizp,snappy,lzo