PR - Deep entity classification: Abusive account detection for online social networks

原文作者:T Xu, G Goossen, HK Cevahir, S Khodeir, Y Jin

原文标题:Deep entity classification: Abusive account detection for online social networks

原文链接:https://www.usenix.org/system/files/sec21summer_xu.pdf

原文来源:USENIX Security 2021

笔记作者:outx

0x01 Introduction

在线社交网络中存在着一些账户被滥用的情况,作者以此提出了Deep Entity Classification(DEC),主要是从更深层次上检测那些能够规避传统账户滥用检测的账户。主要有以下几方面:

  • 通过聚合账户在社交图结构中的直接及间接邻居的属性和行为特征,提取账户的“深层特征”
  • 采用“多阶段多任务学习”(MS-MTL)范式,利用不精确的ground truth,在不同的阶段,消耗少量高精度的人工标记样本和大量低精度的自动标记样本。这种体系结构将产生一个单一的模型,为多种类型的滥用账户提供了高精度的分类。
  • 通过各种抽样和重新分类策略,减少系统负荷,最终统计规模达数十亿用户。
    总的来说DEC旨在通过在社交图上采用攻击者难以操纵的稀疏聚合特征以及使用多阶段训练框架来进一步减少这些滥用账户。

0x02 DEC

Online Component

DEC由Facebook用户行为触发。当一个动作发生时,DEC可以基于启发式调度与用户活动同时进行的任务,以开始提取目标节点和采样相邻节点的原始特征。特征提取后,DEC将原始特征聚合成数字稀疏特征。然后,DEC根据聚合的特征和模型生成账户的分类结果。

Offline Component

DEC 的离线组件包括模型训练和反馈处理。 为了对多种类型的滥用进行分类,DEC 维护了多个模型,其中每个模型处理不同类型的滥用。每个专用模型都在从作为并发特征提取(在线组件)的一部分收集的原始特征中学习到的低维嵌入上进行训练。

总的来说,DEC主要做了:

  1. 提取 Facebook 上所有活跃账户的“深度特征”以进行分类
  2. 使用分类来预测所有活跃账户的滥用程度,总是对所有积极参与网络的用户进行分类,并维持最新的分类结果
  3. 结合用户和标签的反馈来迭代分类器模型

0x03 Deep Feature Extraction

特征提取是DEC的核心部分。与传统的滥用检测系统相比,DEC使用聚合特征计算过程,旨在提取“目标”账户的深层特征

Deep features

在DEC的上下文中,“深度”是指在社交图谱中散开的过程。该图不仅包含用户,还包含平台支持的所有实体,例如群组、帖子等。直接特征是仅与特定实体相关的特征,例如帐户年龄或组大小。深度特征是一种特征,它是与相关实体相关联的实体的直接特征的函数。例如,“一个帐户的朋友的平均年龄”是该帐户的一个深层特征。 深度特征可以递归定义,作为关联账户深度特征的聚合。例如,照片上的一个深层特征可以是“照片中标记的人的朋友加入的群组的平均数量”

换句话说,深度特征主要指的是那些潜在的,账户滥用者没办法轻易操控的。例如,账户好友的平均年龄等。

下标列出了DEC考虑的一些实体类型,包括用户、群组、设备、照片、状态更新和群组帖子

Feature selection

在DEC中进行分类时,作者只使用目标账户的深层特征,而不是直接特征。主要原因是直接目标帐户特征极有可能成为模型中的主导特征。

0x04 Multi-Stage Multi-Task Learning

MTL 使用单个神经网络模型并行训练多个相关的“任务”。 核心思想是模型为每个任务学习的东西可以提高其他任务的性能。在我们滥用帐户分类的背景下,“任务”和“标签”定义如下:

  • 任务是指对OSN上特定类别的滥用帐户进行分类(例如,伪造帐户、垃圾邮件帐户)
  • 训练样本的标签是一个布尔值,指示样本是否属于滥用帐户类别。每个训练示例都有多个标签,每个任务一个。此多标签由布尔值向量表示

Model Training Flow

First Stage: Low Precision Training

第一个训练阶段的目标是将聚合的原始深度特征的高维向量减少为低维embedding向量。

Second Stage: High Precision Training

利用转移学习中的技术,从第一阶段模型中提取最后一个隐藏层的输出,作为第二阶段的输入。使用高精度的人类标记数据对第二阶段(GBDT模型)进行训练,以对滥用账户进行分类,而不考虑违规的子类型。GBDT模型输出的分数为最终DEC分类分数。