雷锋网第一次接触 datavisor 是在一次三家企业联合对抗黑产的合作发布会上。
当时,移动互联网公司 apus 、主打“可信id”的安全服务商数字联盟以及 datavisor 成立了一个“三家公司的联盟”,希冀以分享黑产数据的方式来打击共同的敌人,详情可见雷锋网此前发布的的报道。datavisor 是一家反欺诈检测服务提供商,他们为联盟提供的是无监督反欺诈算法。
最近,他们又打包发布了一款号称是自己无监督反欺诈算法“mini”版的新产品 uml essentials。这家 2013 年在美国硅谷成立、创始人中有两位专家来自微软硅谷研究院的公司及其算法有什么独特之处?他们对新产品有何部署?
雷锋网和 datavisor 中国区总经理吴中聊了聊。
作为雷锋网网络安全频道的读者,想必你对黑产早已不陌生。
某银行推出了一款金融 app,推广期争取了一笔巨额费用,以为撒钱能吸引客户下载、注册。万万没想到,90% 的费用全被羊毛党薅走了。这种案例很常见,就算是知名的电商公司,也经常遇到“魔高一丈”,大额优惠券通通被欺诈团队刷走转卖的情况。
有意思的是,现在“抱团围攻”的现象比较明显。黑产欺诈人员会先通过虚假注册、身份盗用等形式获取大批账号的使用权,然后利用群控软件或者网络众包的形式进行团伙欺诈,他们常用猫池、手机墙、模拟器、刷机等手段和工具躲避传统黑名单和基于设备规则的检测。
他们还是分工合理、流水作业的“高度团结”状态——专门注册、养号、囤号,潜伏并积攒正常的用户行为,待时机成熟再发起攻击。大规模注册、账号盗取、垃圾内容、虚假评论、薅羊毛、应用安装欺诈等玩得不要更666。
于是,被盯上的银行、厂商就想搞清楚一个问题:到底是哪些坏人在坏我的好事?
为了回答这个问题,不少厂商提出了自己的反欺诈方案。
第一代规则系统,需要对欺诈行为有深入了解。
第二代设备指纹黑名单,可能被虚拟机等逃避检测。
第三代有标签的机器学习系统,需要大量人工标注数据训练检测模型。
“传统的欺诈检测方法,如规则引擎、设备指纹、有监督机器学习、半监督机器学习,都有一个共同的局限性,需要在攻击发生后,根据已知攻击模式和样本,检测未来的攻击。”吴中提出,这就是他们提出无监督学习系统的初衷之一——在没有标签的情况下,提前阻止未知欺诈。
datavisor 用这种算法进行反欺诈的依据是,任何欺诈团伙在开展欺诈时都有“套路”。
这个套路可能会不停地变化,但是它想一直搞下去的话,总会有一些套路去控制一堆这样的套路,去做类似的事情。所以通过这一点,datavisor 尝试在没有标签的情况下,很快地抓到新型攻击。
datavisor 称,它的无监督学习算法有三个优势:
自动产生规则,免除费时的人工规则调试。
自动产生标签,用于机器训练检测模型。
有效自动挖掘和检测各种已知、未知的欺诈行为。
我们来看看,它是如何做到的。
如果我们盯着一个点看,会发现这个点就是那么平平无奇,没有特点,如果视野拉远一些,这个点和周围的点连接起来,可能能形成一些规律,你会发现,这些点可能组成了一张世界地图,或者一张有规则的图像。
当然,现实的黑产行为中,可能没有这么有“艺术感”和“规则感”的结果。
更多的结果是,我们可能看到的是这样的行为模式:
吴中和他的同事们会把所有的用户放在一个图上全局地分析,研究其中的关联性,所有的点可能被连接起来,这就是一个聚类的过程。
接下来,他们需要分析的是,那些点和聚类是代表好的行为,哪些则是有异常的,自动形成标签。
“一个犯罪团伙控制一堆帐号去做的话,它的行为与正常用户的行为不一样,没有一个个独立的例子,都是按照某一个套路做,这种套路可能通过机器脚本、动包、群控等攻略的方式实现,我们再看每个帐号的行为,就会发现它们会有很高的不正常的相似与具体性,通过这种判断和数据统计,就可以把好坏斟酌出来。”吴中说。
这种判断不需要人工干预,机器判断派上了用场。它的原则是,机器会一直跟进这种行为和数据的变化,判断其是不是一直是正常的。
这些点又是怎么来的?
datavisor 会提取动态用户脱敏后的数据特征。一是用户的行为特征,比如用户做一些事件的顺序、频率、时间点。二是设备相关,比如用户在做一些事情时,与其相关的 ip地址,设备模型的相对分布。三是用户的静态画面背景,比如昵称等公开的信息。
这些自动生成的标签准确度和精细度又能达到哪种程度?
这和不同客户的需求及随后的措施相关。比如,一些社交网站的注册要求根据这个结果进行帐号的封停,那么准确率就要求达到 99%以上。如果只是依据一个或者几个标签来进行风险提示,那么准确率可能只要达到95%,以求达到更大的用户覆盖率。
吴中透露,这些数据多数来源于客户自己平台的数据,但这是一个可选的选项,如果还需要提升判断模型的效果,可以借助其他的数据。“这些人想要进行大规模攻击,就会有一些隐形的套路,我们的算法会自动发现这样的情况,不需要事先知道到底是哪一种套路。”他说。
但是,道高一尺,魔高一丈。如果吴中等人可以根据记录数据的变化,实现“跟随式”发现,黑产难道不能实时抹掉自己的踪迹?
事实上,现在也有很多刷机装备可以做到一秒“清零”,但有些设备只能抹掉中间一部分痕迹,黑产很难从每一个维度、渠道进行有利于自己的操作,如果真的能做到,这样会极大增加对方的成本,高到它做这个生意已经没有什么钱赚。
因此,这又回到了对抗的本质——没有什么最终的胜利,安全对抗永远只能最大限度地提高对方的成本,让对方要么放弃,要么寻找其他降低成本的方式。
不过,这种“早期预警”到底能提前多久?
吴中解释:“利用传统方式感知这个东西,一般得在这个平台上发展到一定程度,再收集一些样本训练,上线要测试,一般要一两个月才能上线,如果可以自动发现这个问题,在社交和电商互联网场景中,可能只要几十个帐号数就可以发现规律,金融场景下,这种数量更少,一般只需要 10 个以下,因为在这个场景里,每做成一单收益会比较大。以一个客户交易平台的服务为例,我们可以把发现欺诈的时间提前 48 小时。”
本月 27 日, datavisor 发布了 datavisor uml essentials。
吴中告诉雷锋网,他们此次推出mini版产品的目的,实际是为了把自己在安全领域里面几个承诺的场景,比如大规模注册、用户获取,以及反洗钱领域的积累转化成一个saas 服务,降低企业在使用反欺诈服务的门槛。
第一个特点是,datavisor 会在产品的初期聚焦于大规模注册场景,注册几乎是所有互联网服务的一个入口,他们会把这个场景做深、做细。在产品发展中后期再引入更多的场景,让中小企业根据自己业务的发展选取更多的服务。
我们来划下重点,针对的是中小企业。
第二个特点,让用户自主服务,因为这是一个 saas 服务,昝潇希望,在使用欺诈服务的流程中,用户自己参与、把控,减少用户切入的时间。雷锋网认为,从厂商角度看,这也意味着降低提供商的服务成本。
第三个特点, uml essentials 是开放性的,模型会自动调优,降低人工服务耗费的时间。
第四个特点,支撑datavisor uml essentials的数据处理平台构建于主流云计算基础设施之上,支持aws、阿里云等平台的架构。
“中国很多中小企业正在发展,它们本身的技术能力还没有那么成熟,也想用这些比较好的 ai 或者是技术,但是价格上又不能太高,如果要接入相关产品,自己的团队又没有能力同时做很多事情,也很难接受很长周期根据每个业务细粒度地做长期的接入和调优,所以我们降低了应用门槛。”吴中道出了这项产品的主打受众以及最初的目的。