PR - Dissecting Click Fraud Autonomy in the Wild

原文作者:T Zhu, Y Meng, H Hu, X Zhang, M Xue

原文标题:Dissecting Click Fraud Autonomy in the Wild

原文链接:https://arxiv.org/pdf/2105.11103.pdf

原文来源:CCS 2021

笔记作者:outx

0x01 Intro

首先需要了解的是随着智能手机的普及,移动广告市场快速发展。一般来说,应用程序开发者会将广告商的广告嵌入至他们的APP中,用户点击这些广告后,广告商根据其流量和点击量像这些开发者付费。但这其中存在着一些威胁,即点击欺诈。简而言之,开发者通过点击欺诈策略,模拟用户产生虚假的广告点击事件,以获得额外的广告费。

目前尚有的两类方法主要是针对用户端和针对广告网络端,前者主要是检查点击模式是否符合特定规则来判定点击的合法性,后者主要是通过流量分析来确定是否是欺诈点击。但不论这两种方法针对的场景是否不同,其都基于一个假设,即欺诈点击和真实用户点击的模式是有区别的。那么,是否存在一种能够模拟真实人类的点击模式并能绕过现有检测方案的欺诈点击策略呢?

本文中,作者定义这种拟人点击模式为一种点击欺诈策略(以下简称为拟人攻击),其点击模式和流量模式与真实的人类点击几乎相同。具体来说,这类欺诈性应用程序可能会随机化点击坐标/时间间隔,甚至是跟随真实用户的合法行为来产生点击流量,以绕过目前的检测手段。对这类拟人攻击进行大规模静态分析存在着以下技术挑战:

  1. 如何通过定义一组新的特征来区分生成虚假点击的代码和生成合法点击的代码
  2. 基于这些特征,如何才能在正常样本很少的情况下构建一个新系统,用于自动提取这些特征并准确识别欺诈应用程序

为了应对这些挑战,作者提出了ClickScanner,一个轻量级的静态分析框架,用于自动检测拟人攻击。根据研究发现,拟人攻击主要利用下面四种策略的组合来绕过检测:

  1. 坐标随机化
  2. 触发时间随机化
  3. 跟踪真实用户的合法行为生成虚假点击
  4. 预定义后门,从远程服务器接受点击的坐标和触发条件并自适应地避开检测

本文的主要贡献:

  1. 设计并实现了ClickScanner用以剖析拟人攻击
  2. 设计实验并证明了ClickScanner的有效性和先进性
  3. 发现并分析了一些点击欺诈的趋势和情况

0x02 Humanoid Attack

作者为了说明拟人攻击的一些特性及其为什么能够绕过一些现有检测做了以下对比试验。在应用程序的广告横幅上显示点击事件的坐标分布和时间模式。下图为点击事件记录,其中fixed表示固定点击,reply表示重播点击,Humanoid表示拟人点击。

可以很直观地发现,不论是在坐标分布还是时间模式上,拟人点击是最接近真实人类点击事件的,这也充分说明了这一攻击方式的隐蔽性。

0x03 ClickScanner

通过上述分析,我们得知了拟人攻击模式在行为上与真实人类点击是几乎没有差别的,那么现有的检测方案动态地进行分析是效果很差的。但是,尽管这些拟人攻击在行为上被伪装为合法点击,其在字节码级别合法和欺诈应用程序之间的广告点击触发条件和生成过程的差异显著,这便可以作为检测特征为静态检测提供可能性。ClickScanner构造如下图。

0x04 Conlusion

本文中,作者首先介绍了一种用于诈骗广告商的欺骗行为,即通过虚拟用户点击事件从广告商处非法获利。在分析了现有的两大类检测方案之后,作者提出了一个问题,如果说存在一种欺诈策略是通过拟人化点击实现的,这种情况下又应该如何检测呢?

在深入研究之后,作者发现并给这种通过坐标/时间随机化等方法模拟真人点击事件的攻击策略命名为拟人攻击(Humanoid Attack),并提出了ClickScanner。ClickScanner从一些字节码级别的新特征出发,基于静态分析构建依赖关系图(DDG),提取这些关键特征以形成特征向量。最后,构建了一个基于变分自动编码器(VAE)的有效分类器,这个分类器依托于有限的欺诈示例知识,以克服拟人攻击方面的有限知识,有着不错的性能和准确性。