CN119025972A

CN119025972A - 基于流量时序特征的不良应用分类识别方法、产品及设备

Info

Publication number: CN119025972A
Application number: CN202411158955.XA
Authority: CN
Inventors: 罗峰; 卢永强; 王翔
Original assignee: Beijing Fule Technology Co ltd
Current assignee: Beijing Fule Technology Co ltd
Priority date: 2024-08-22
Filing date: 2024-08-22
Publication date: 2024-11-26

Abstract

本申请涉及应用识别技术领域，尤其涉及一种基于流量时序特征的不良应用分类识别方法、产品及设备。该方法包括：获取待识别应用和包含类别标签的种子应用集；获取待识别应用和种子应用集中每一应用的流量时序数据，并根据流量时序数据分别确定待识别应用与种子应用集中每一应用的相似度；根据待识别应用与种子应用集中每一应用的相似度，以及种子应用集中每一应用的类别标签，从类别标签中确定待识别应用对应的目标类别；判断待识别应用是否属于目标类别，得到待识别应用的分类识别结果。本申请可以提高识别不良应用的效率和准确性。

Description

基于流量时序特征的不良应用分类识别方法、产品及设备

技术领域

本申请涉及应用识别技术领域，尤其是涉及一种基于流量时序特征的不良应用分类识别方法、产品及设备。

背景技术

在信息通信技术快速发展的时代背景下，电信网络诈骗已经成为全社会影响最大的犯罪形式之一。不法分子为了逃避审查机制，根据不同的人群设计不同的应用，甚至做到一人一应用，即针对每个诈骗目标发布单独的应用文件，增大了侦查难度。不法分子通过更换应用名称和外观的方式伪装一个新的应用，其核心功能和逻辑没有变化，俗称“换皮”应用，这种方式成本极低，但会导致识别难度和审查工作量大大增加。

相关技术识别不良应用，主要采用规则匹配算法。收集应用文件或者通过人工打标的方式收集种子集合，对集合中的应用提取规则，通过规则匹配的方式判断待识别应用的类别。规则匹配的方式包括但不限于：

(1)文件名和包名匹配：检查应用文件的名称和包名是否与种子集合中的名称和包名匹配。

(2)文件结构和资源文件比较：分析应用内部的文件结构和资源文件(如布局文件、图标、图片等)是否与种子集合中的应用匹配。

(3)签名和证书比较：检查应用的签名和证书信息是否与种子集合中的应用匹配。

(4)权限和功能比较：分析应用的权限声明和功能列表是否与种子集合中的应用匹配。

(5)资源文件哈希值比对：计算资源文件(如图片、布局文件等)的哈希值是否与种子集合中的应用匹配。

(6)元数据分析：检查应用文件的元数据(如版本号、作者信息、描述等)是否与种子集合中的应用匹配。

然而，规则匹配的方式无法应对频繁更新的“换皮”应用。“换皮”应用的UI设计、配色方案、图标等外观元素可以任意更换，文件名、包名、签名、证书、元数据等也可以更新。如果采用规则匹配的方式，需要不断的对新应用做分析，提取规则加入规则库，效率非常低下。当提取完规则加入规则库时，可能诞生了新的“换皮”应用，旧的规则已经失效了。

发明内容

为了解决现有技术识别不良应用效率低下的问题，本申请提供一种基于流量时序特征的不良应用分类识别方法、产品及设备。

第一方面，本申请提供了一种基于流量时序特征的不良应用分类识别方法，采用如下技术方案：

一种基于流量时序特征的不良应用分类识别方法，包括：

获取待识别应用和包含类别标签的种子应用集；

获取所述待识别应用和所述种子应用集中每一应用的流量时序数据，并根据所述流量时序数据分别确定所述待识别应用与所述种子应用集中每一应用的相似度；

根据所述待识别应用与所述种子应用集中每一应用的相似度，以及所述种子应用集中每一应用的类别标签，从所述类别标签中确定所述待识别应用对应的目标类别；

判断所述待识别应用是否属于所述目标类别，得到所述待识别应用的分类识别结果。

通过采用上述技术方案，获取待识别应用和包含类别标签的种子应用集，种子应用集中的类别标签为分类识别提供了标准，使得分类过程有据可依，确保了分类结果的可追溯性和准确性，流量时序数据包含了应用行为的动态特征，这些特征是区分不同应用类型(尤其是不良应用)的关键，可以捕捉到应用行为的时间序列变化，同时获取待识别应用和种子应用集的数据，保证了分析的全面性和一致性，有助于减少因数据差异导致的分类误差，通过比较流量时序数据，可以量化待识别应用与种子应用之间的相似性，有助于将复杂的网络行为转化为可比较的数值，利用相似度和类别标签进行分类决策，可以在保证准确性的同时，提高分类效率，减少计算资源的浪费。本申请提高了识别不良应用的效率和准确性。

本申请在一较佳示例中可以进一步配置为：所述根据所述流量时序数据分别确定所述待识别应用与所述种子应用集中每一应用的相似度，包括：

利用滑动窗口对第一目标应用的流量时序数据进行平滑处理，得到目标时序数据，所述第一目标应用为所述待识别应用和所述种子应用集中任一应用；

根据所述目标时序数据生成流量时序曲线；

计算所述待识别应用的流量时序曲线和第二目标应用的流量时序曲线的最小距离，将所述最小距离作为所述待识别应用和所述第二目标应用的相似度，所述第二目标应用为所述种子应用集中任一应用。

通过采用上述技术方案，利用滑动窗口对流量时序数据进行平滑处理，能够平滑数据并去除随机噪声，将平滑处理后的时序数据转化为流量时序曲线，有助于更直观地观察数据的变化趋势和模式，计算两条流量时序曲线之间的最小距离，可以量化待识别应用与种子应用之间的相似度，使得分类决策更加客观、准确。

本申请在一较佳示例中可以进一步配置为：所述计算所述待识别应用的流量时序曲线和第二目标应用的流量时序曲线的最小距离，包括：

构建所述待识别应用的流量时序曲线和所述第二目标应用的流量时序曲线的距离矩阵，所述距离矩阵中的元素表示两个点之间的距离；

利用动态时间规整算法在所述距离矩阵的基础上构建累积距离矩阵，所述累积距离矩阵中的任一元素表示从矩阵起始点到该元素对应点的最小累积距离；

从所述累积距离矩阵中读取矩阵终点对应的元素值，得到所述待识别应用的流量时序曲线和第二目标应用的流量时序曲线的最小距离。

通过采用上述技术方案，动态时间规整算法允许数据点之间的时间伸缩和偏移，能够更好地处理那些时间轴上不对齐或速度不一致的时序数据，从而提高了匹配的精度，累积距离矩阵的构建考虑了从起点到当前点所有可能路径的累积距离，并选择其中最小的作为当前点的累积距离，有助于避免局部最优解，累积距离矩阵终点对应的元素值即为两条流量时序曲线之间的最小距离，有助于量化待识别应用和种子应用之间的相似度。

本申请在一较佳示例中可以进一步配置为：所述根据所述待识别应用与所述种子应用集中每一应用的相似度，以及所述种子应用集中每一应用的类别标签，从所述类别标签中确定所述待识别应用对应的目标类别，包括：

将所述种子应用集按照类别标签分为多组，每一组中应用的类别标签相同；

根据所述待识别应用与所述种子应用集中每一应用的相似度，计算所述待识别应用与每一组中各个应用的相似度的平均值；

从多组中确定平均值最小的目标组，并将所述目标组的类别标签作为目标类别。

通过采用上述技术方案，将种子应用集按照类别标签分组，计算待识别应用与每一组中各个应用的相似度的平均值，可以平滑组内个别应用可能带来的噪声或异常值影响，使得相似度评估更加稳健，减少了因个别应用差异而导致的误判，选择平均值最小的目标组作为待识别应用的类别归属，这种方法基于全局优化思想，考虑了待识别应用与整个种子应用集的关系，从而能够更准确地确定其类别。

本申请在一较佳示例中可以进一步配置为：所述判断所述待识别应用是否属于所述目标类别，得到所述待识别应用的分类识别结果，包括：

将所述目标类别对应的平均值与预设阈值进行比较；

若所述所述目标类别对应的平均值不小于所述预设阈值，则所述分类识别结果为所述待识别应用不属于所述目标类别，且所述待识别应用为正常应用；

若所述目标类别对应的平均值小于所述预设阈值，则所述分类识别结果为所述待识别应用为不良应用且属于所述目标类别。

通过采用上述技术方案，引用预设阈值，给出了分类识别结果明确的边界条件，有助于得到更准确的分类识别结果。

本申请在一较佳示例中可以进一步配置为：所述获取所述待识别应用和所述种子应用集中每一应用的流量时序数据，包括：

获取所述待识别应用和所述种子应用集中每一应用运行时的运行数据；

对第一目标应用的运行数据进行预处理，得到目标运行数据，其中，所述第一目标应用为所述待识别应用和所述种子应用集中任一应用；

从所述目标运行数据中确定各个时序点的数据包大小，将各个数据包大小按照对应的时序点的先后顺序排列，得到数组形式的流量时序数据，其中，数组中的一个元素表示一个时序点的数据包大小。

通过采用上述技术方案，对运行数据进行预处理能够确保数据质量，从目标运行数据中确定各个时序点的数据包大小，并按照时序顺序排列成数组形式的流量时序数据，使得数据具有了时间维度上的连续性和可比较性，有助于更准确地捕捉应用的网络行为特征。

本申请在一较佳示例中可以进一步配置为：所述对第一目标应用的运行数据进行预处理，得到目标运行数据，包括：

从所述第一目标应用的运行数据中去除无关协议包，得到原始流量数据，所述无关协议包为除TCP协议以外的协议数据包；

从所述原始流量数据中去除无用数据包，得到目标运行数据，所述无用数据包包括：损坏包、超时包、重置包、握手包和挥手包。

通过采用上述技术方案，去除无关协议包和无用数据包，显著减少了需要处理的数据量，不仅降低了数据处理的计算成本和存储需求，还提高了数据分析的效率和性能。

第二方面，本申请提供一种计算机程序产品，采用如下的技术方案：

一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，实现如第一方面任一项所述的基于流量时序特征的不良应用分类识别方法。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一个或多个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行如第一方面任一项所述的基于流量时序特征的不良应用分类识别方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行如第一方面任一项所述的基于流量时序特征的不良应用分类识别方法。

综上所述，本申请包括以下有益技术效果：

本申请通过获取待识别应用和包含类别标签的种子应用集，种子应用集中的类别标签为分类识别提供了标准，使得分类过程有据可依，确保了分类结果的可追溯性和准确性，流量时序数据包含了应用行为的动态特征，这些特征是区分不同应用类型(尤其是不良应用)的关键，可以捕捉到应用行为的时间序列变化，同时获取待识别应用和种子应用集的数据，保证了分析的全面性和一致性，有助于减少因数据差异导致的分类误差，通过比较流量时序数据，可以量化待识别应用与种子应用之间的相似性，有助于将复杂的网络行为转化为可比较的数值，利用相似度和类别标签进行分类决策，可以在保证准确性的同时，提高分类效率，减少计算资源的浪费，提高了识别不良应用的效率和准确性。

附图说明

图1是本申请实施例提供的一种基于流量时序特征的不良应用分类识别方法的流程示意图；

图2是本申请实施例提供的一种应用的注册界面示意图；

图3是本申请实施例提供的Pcap文件的流量包信息示意图；

图4是本申请实施例提供的流量时序曲线示意图；

图5是本申请实施例提供的同系列两个应用的流量时序曲线的对比示意图；

图6是本申请实施例提供的非同系列两个应用的流量时序曲线的对比示意图；

图7是本申请实施例提供的本申请实施例提供的DTW算法的原理示意图；

图8是本申请实施例提供的路径选择示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图1-附图9对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

需要说明的是，在本申请的可选实施例中，所涉及到的对象信息等相关的数据，当本申请中的实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说，本申请实施例中如果涉及到与对象有关的数据，需要经由对象授权同意、相关部门授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。实施例中如涉及个人信息，所有个人信息的获取需要获得个人的同意，如涉及到敏感信息，需要征得信息主体的单独同意，实施例也是需要在对象授权同意的情况下实施。

为了提升针对“换皮”应用的识别效率和准确率，可以寻找一种“换皮”应用不易改变的特征，或者改变成本极高的特征。对于同一系列的“换皮”应用，即使UI设计、配色方案、图标等外观元素都能变化，但通常使用的是同一套后台接口。因为如果需要更换后台接口，无异于完整地设计并开发一套全新的应用系统，成本非常高，此时相当于开发了一个全新的应用，已经不属于“换皮”应用了。应用的接口格式、调用参数、调用顺序在开发阶段已经设计好，同系列应用调用的接口是一样的，不同的只是接口中包含的数据，因此每个接口的传输数据量不会有太大变化。而接口调用的数据量大小、调用顺序等特征会体现在流量传输的时序变换之上，所以如果能够提取应用的流量时序特征作为分类识别的特征，那么对于同一系列的“换皮”应用，只需要分析提取一次流量时序特征，就能对该系列所有应用适用，不需要频繁地更新规则库。对于“换皮”应用分类识别的效率和准确度也就得到提升。

本申请实施例提供一种基于流量时序特征的不良应用分类识别方法，如图1所示，在本申请实施例中提供的方法由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，该方法包括步骤S101-步骤S104，其中：

S101、获取待识别应用和包含类别标签的种子应用集。

具体的，可以获取不良应用样本集，样本集中的每一应用预先通过人工打标的方式设置有类别标签，将样本集按照3：1的比例划分为待识别应用集和种子应用集Q，对于待识别应用集中的每一个应用，利用本申请提供的基于流量时序特征的不良应用分类识别方法，并基于种子应用集Q识别该应用是否为不良应用以及当该应用为不良应用时属于哪一类别。进而，将待识别应用集的识别结果与预先设置的类别标签进行比对，完成验证。

其中，待识别应用为待识别应用集中任一应用，将待识别应用集中每一应用进行分类识别，得到每一应用的分类识别结果。种子应用集的大小为|Q|＝q，表示种子应用集中应用的数量。不良应用即通过更换应用名称和外观的方式伪装一个新应用的“换皮”应用。

S102、获取待识别应用和种子应用集中每一应用的流量时序数据，并根据流量时序数据分别确定待识别应用与种子应用集中每一应用的相似度。

对于任一应用，其操作步骤是特定的，每一步操作对应远程服务的某个接口。更换不良应用的外观界面以伪装新应用是逃避审查的常用手段，但不法分子不会去修改应用的后台程序。一方面是因为用户和审查者感知不到后台程序的改动，对于伪装新应用的目的没有增益；另一方面是处于成本的考虑，修改外观界面只需要修改文案和资源文件即可，成本极低，而修改后台程序需要修改逻辑和数据库，相当于开发一套新的系统程序，难度大且成本高。

对于同一系列的应用，接口格式在应用开发阶段已经制定好，同一系列应用的接口相同，不同的是接口中包含的数据。即使经过了外观界面更换，在使用同一套后台接口时，接口调用的顺序不会变化，整体接口的传输数据量变化不大。

具体的，对于待识别应用和种子应用集中任一应用，将该应用设置于沙箱环境中运行，能够得到该应用运行时产生的Pcap文件，从Pcap文件中提取该应用的流量时序数据，流量时序数据包含各个时序点的数据包大小，将各个数据包大小按照对应的时序点由先到后的顺序排列，得到数组形式的时序流量数据，数组中的一个元素表示一个时序点的数据包大小。通过运行每一应用，电子设备能够得到待识别应用和种子应用集中每一应用的流量时序数据。

其中，每一应用的运行时长可以根据实际经验人为设置，可选的，运行时长为30min。

图2为本申请实施例提供的应用的注册界面示意图，该界面包含4个操作步骤，分别为：输入手机号、点击获取验证码、输入密码、设置密码，这4个操作步骤对应远程服务的4个接口，4个接口产生的数据包大小按照时间排列为526、385、284、385、369、385、1411、385。

参见图3，其示出了本申请实施例提供的Pcap文件的流量包信息示意图。可以看出，Pcap文件内的流量包信息随时间排序，流量包信息包括：时间、来源、通信协议类型、数据包大小等。

进一步的，对于待识别应用和种子应用集中任一应用，根据该应用的流量时序数据生成流量时序曲线，从而得到待识别应用和种子应用集中每一应用的流量时序曲线。图4示出了本申请实施例提供的流量时序曲线示意图。

参见图5，其示出了同系列两个应用的流量时序曲线的对比示意图，可以看出，同一系列应用的流量时序曲线具有相似性。参见图6，其示出了非同系列两个应用的流量时序曲线的对比示意图，可以看出，非同系列两个应用的流量时序曲线差异较大，相似性较低。

进而，分别计算待识别应用的流量时序曲线和种子应用集中每一应用的流量时序曲线之间的最小距离，作为两个应用之间的相似度，从而得到待识别应用与种子应用集中每一应用的相似度。

S103、根据待识别应用与种子应用集中每一应用的相似度，以及种子应用集中每一应用的类别标签，从类别标签中确定待识别应用对应的目标类别。

具体的，将种子应用集按照类别标签分为多组，每一组中应用的类别标签相同，根据待识别应用与种子应用集中每一应用的相似度，计算待识别应用与每一组中各个应用的相似度的平均值。从多组中确定平均值最小的一组作为目标组，并将目标组的类别标签作为目标类别。

S104、判断待识别应用是否属于目标类别，得到待识别应用的分类识别结果。

具体的，将目标类别对应的平均值与预设阈值进行比较，若目标类别对应的平均值不小于预设阈值，则分类识别结果为待识别应用不属于目标类别，若目标类别对应的平均值小于预设阈值，则分类识别结果为待识别应用为不良应用且属于目标类别。

本申请实施例通过获取待识别应用和包含类别标签的种子应用集，种子应用集中的类别标签为分类识别提供了标准，使得分类过程有据可依，确保了分类结果的可追溯性和准确性，流量时序数据包含了应用行为的动态特征，这些特征是区分不同应用类型(尤其是不良应用)的关键，可以捕捉到应用行为的时间序列变化，同时获取待识别应用和种子应用集的数据，保证了分析的全面性和一致性，有助于减少因数据差异导致的分类误差，通过比较流量时序数据，可以量化待识别应用与种子应用之间的相似性，有助于将复杂的网络行为转化为可比较的数值，利用相似度和类别标签进行分类决策，可以在保证准确性的同时，提高分类效率，减少计算资源的浪费。本申请提高了识别不良应用的效率和准确性。

本申请实施例的一种可能的实现方式，获取待识别应用和种子应用集中每一应用的流量时序数据，包括：

获取待识别应用和种子应用集中每一应用运行时的运行数据；

对第一目标应用的运行数据进行预处理，得到目标运行数据，其中，第一目标应用为待识别应用和种子应用集中任一应用；

从目标运行数据中确定各个时序点的数据包大小，将各个数据包大小按照对应的时序点的先后顺序排列，得到数组形式的流量时序数据，其中，数组中的一个元素表示一个时序点的数据包大小。

对于第一目标应用，其运行时的运行数据为产生的Pcap文件数据，对第一目标应用的运行数据进行预处理包括依次执行的去除无关协议包步骤和去除无用数据包步骤，预处理可以通过Wireshark或Tshark等网络分析工具实现。

进一步的，第一目标应用的流量时序数据可以用一个数组表示，数组的长度即流量时序数据中数据包的数量，数组中每一元素表示数据包大小，从而得到待识别应用和种子应用集中每一应用的流量时序数据。

本申请实施例对运行数据进行预处理能够确保数据质量，从目标运行数据中确定各个时序点的数据包大小，并按照时序顺序排列成数组形式的流量时序数据，使得数据具有了时间维度上的连续性和可比较性，有助于更准确地捕捉应用的网络行为特征。

本申请实施例的一种可能的实现方式，对第一目标应用的运行数据进行预处理，得到目标运行数据，包括：

从第一目标应用的运行数据中去除无关协议包，得到原始流量数据，无关协议包为除TCP协议以外的协议数据包；

从原始流量数据中去除无用数据包，得到目标运行数据，无用数据包包括：损坏包、超时包、重置包、握手包和挥手包。

一个应用在运行过程中，会根据使用场景的不同而使用不同的传输协议，比如在语音视频通话过程中，会使用UDP协议。但应用产生的数据中，除TCP协议外的其他协议对后续的算法价值不大，因此，可以将除TCP协议以外的协议数据包作为无关协议包，并通过网络分析工具去除。针对第一目标应用的运行数据，将去除无关协议包后的数据作为原始流量数据。

在网络传输过程中，因为通信线路质量不佳、客户端网络质量不佳、网络信号弱等问题，会有数据包损坏、连接超时、连接重置等现象，这种数据包对后续的算法会有干扰，需要去除。在TCP协议中，双方建立连接时会有三次握手机制，结束连接时会有四次挥手机制，这个过程中传输的包大小是固定的，对于对后续的算法价值不大，也需要从TCP流数据中去除。针对第一目标应用的运行数据，利用网络分析工具将原始流量数据中的无用数据包去除，从而得到目标运行数据，目标运行数据包含一系列的数据包大小。

本申请实施例通过去除无关协议包和无用数据包，显著减少了需要处理的数据量，不仅降低了数据处理的计算成本和存储需求，还提高了数据分析的效率和性能。

本申请实施例的一种可能的实现方式，根据流量时序数据分别确定待识别应用与种子应用集中每一应用的相似度，包括：

利用滑动窗口对第一目标应用的流量时序数据进行平滑处理，得到目标时序数据，第一目标应用为待识别应用和种子应用集中任一应用；

根据目标时序数据生成流量时序曲线；

计算待识别应用的流量时序曲线和第二目标应用的流量时序曲线的最小距离，将最小距离作为待识别应用和第二目标应用的相似度，第二目标应用为种子应用集中任一应用。

在本实施例中，对待识别应用和中每一应用的流量时序数据执行滑动窗口聚合算法，得到每一应用的流量时序曲线。

以第一目标应用为例，将第一目标应用的流量时序数据记为数组sequence，对sequence执行滑动窗口聚合算法，包括以下步骤：

(1)滑动窗口初始化。

定义滑动窗口大小，将滑动窗口包含的时序点数量表示为w。定义步长，即每次滑动窗口滑动的时序点数量，记为s。

(2)数据分段。

将数组sequence按照滑动窗口大小w和步长s进行分段，初始窗口位置从流量时序数据的第一个元素开始，包含前w个元素，然后向右开始移动窗口，每次窗口向右滑动s个位置，直至覆盖整个流量时序数据。

(3)滑动窗口内求和。

对每个滑动窗口内的时间点数据进行求和操作，计算滑动窗口内所有元素的总和。记第i个滑动窗口的起始位置为is，则第i个滑动窗口的求和计算公式为：

重复上述求和过程，直到所有窗口计算完毕。

(4)结果生成。

将每个窗口的求和结果按顺序存储，生成新的时间序列数据。新的时间序列数据反映了原始数据的局部总和，提供了一个较为平滑的聚合结果。新的时间序列长度表示为|S|：

(5)计算优化。

在滑动窗口过程中，利用前一个窗口的求和结果，通过加上新进入窗口的元素并减去离开窗口的元素，实现增量计算，减少重复计算量。

利用滑动窗口对第一目标应用的流量时序数据进行平滑处理后得到的目标时序数据可以用数组表示，进而基于目标时序数据生成流量时序曲线，流量时序曲线包含一系列点，每一点表示目标时序数据中的一个元素。

滑动窗口聚合算法在流量时序数据处理和分析中的作用包括：

(1)平滑数据波动：滑动窗口聚合通过对相邻数据点的求和或平均，能够平滑原始数据中的波动和噪声，提供更清晰的趋势和模式。这在分析具有高波动性的时间序列数据时尤为重要。

(2)实时计算：滑动窗口聚合可以实时计算，特别适用于流数据处理。当新数据点到达时，只需更新窗口内的值，而不需要重新计算整个序列。这种增量计算方式适合高频率、连续不断的数据流处理。

(3)降低计算复杂度：通过窗口大小和步长的设置，可以有效地减少需要处理的数据量，降低计算复杂度。特别是对于大规模流量时序数据，滑动窗口聚合能显著提升计算效率，适应有限计算资源的需求。

(4)灵活性：滑动窗口聚合可以根据具体需求调整窗口大小和步长，以平衡计算精度和效率。不同的窗口大小和步长设置可以捕捉不同粒度的趋势和变化，使得聚合方法更加灵活和适应性强。

(5)提供局部特征：滑动窗口聚合能够提取时间序列数据的局部特征，有助于识别短期趋势、周期性模式和异常值。这对于时序分析和预测模型的构建具有重要意义，可以为后续的深入分析提供有价值的特征。

(6)数据压缩：滑动窗口聚合通过将多个数据点聚合为一个数据点，实现数据的降维和压缩，有助于减小数据存储空间。

(7)提高数据鲁棒性：滑动窗口聚合能够增强数据的鲁棒性，对抗个别异常值或错误数据点的影响。通过聚合操作，单个异常值的影响被平均或减弱，使得整体数据质量得到提升。

本申请实施例利用滑动窗口对流量时序数据进行平滑处理，能够平滑数据并去除随机噪声，将平滑处理后的时序数据转化为流量时序曲线，有助于更直观地观察数据的变化趋势和模式，计算两条流量时序曲线之间的最小距离，可以量化待识别应用与种子应用之间的相似度，使得分类决策更加客观、准确。

本申请实施例的一种可能的实现方式，计算待识别应用的流量时序曲线和第二目标应用的流量时序曲线的最小距离，包括：

构建待识别应用的流量时序曲线和第二目标应用的流量时序曲线的距离矩阵，距离矩阵中的元素表示两个点之间的距离；

利用动态时间规整(Dynamic Time Warping，DTW)算法在距离矩阵的基础上构建累积距离矩阵，累积距离矩阵中的任一元素表示从矩阵起始点到该元素对应点的最小累积距离；

从累积距离矩阵中读取矩阵终点对应的元素值，得到待识别应用的流量时序曲线和第二目标应用的流量时序曲线的最小距离。

具体的，将待识别应用的流量时序曲线表示为Sp，将第二目标应用的流量时序曲线表示为Sq，将Sp和Sq对齐，构建距离矩阵X，距离矩阵X的大小为n×m，其中n为Sp的元素个数，m为Sq的元素个数，矩阵元素x(i，j)表示Sp中第i个点和Sq中第j个点之间的距离，Sp中第i个点对应的元素值为Sp_i，Sq中第j个点对应的元素值为Sq_j，两个点之间的距离为d(Sp_i,Sq_j)，一般采用欧式距离，即

如图7所示，其示出了本申请实施例提供的DTW算法的原理示意图，寻找两条流量时序曲线的距离时，可以归结为寻找一条通过此网格中若干格点的路径，使得路径上经过的点的距离之和最小，路径通过的格点即为两个序列进行计算的对齐的点。将这条路径用W来表示，W的第k个元素定义为w_k＝(i,j)_k，定义了序列Sp和Sq的映射，得到以下等式：

W＝w₁,w₂,...,w_k,...w_K max(m,n)≤K≤m+n-1

这条路径不是随意选择的，需要满足以下几个约束条件：

(1)边界条件：w₁＝(1,1)和w_K＝(m,n)。任何两条流量时序曲线的产生快慢都有可能变化，但是各行为发生的先后次序不会改变，因此所选的路径必定是从左下角出发，在右上角结束。

(2)连续性。如果w_k-1＝(a^′,b^′)，那么对于路径的下一个点w_k＝(a,b)需要满足(a-a^′)≤1和(b-b^′)≤1。也就是不可能跨过某个点去匹配，只能和自己相邻的点对齐。这样可以保证Sp和Sq中的每个坐标都在W中出现。

(3)单调性。如果w_k-1＝(a^′,b^′)，那么对于路径的下一个点w_k＝(a,b)需要满足(a-a^′)≥0和(b-b^′)≥0。这限制W上面的点必须是随着时间单调进行的。

参见图8，其示出了本申请实施例提供的路径选择示意图。结合连续性和单调性约束，每一个格子的路径就只有三个方向了。例如如果路径已经通过了格点(i,j)，那么下一个通过的格点只可能是一下三种情况之一：(i+1,j),(i,j+1)或者(i+1,j+1)。

满足上面这些约束条件的路径有很多，其中最短路径是使得下面的规整代价最小的路径：

这条最短路径相当于把两个流量时序曲线进行延伸和缩短，来得到两个流量时序序列距离最短，也就是最相似的一个映射关系，这个最短的距离也就是两个流量时序曲线最后的距离度量。

定义一个累加距离，从(0,0)点开始匹配这两个曲线序列Sp和Sq，每到一个点，之前所有的点计算的距离都会累加。到达终点(m,n)后，这个累积距离就是最终的总距离，累加距离d＝d(i,j)＝d(Sp_i,Sq_j)+min{d(i-1,j-1),d(i-1,j),d(i,j-1)}，也就是流量时序曲线Sp和Sq的最小距离(相似度)。

本申请实施例动态时间规整算法允许数据点之间的时间伸缩和偏移，能够更好地处理那些时间轴上不对齐或速度不一致的时序数据，从而提高了匹配的精度，累积距离矩阵的构建考虑了从起点到当前点所有可能路径的累积距离，并选择其中最小的作为当前点的累积距离，有助于避免局部最优解，累积距离矩阵终点对应的元素值即为两条流量时序曲线之间的最小距离，有助于量化待识别应用和种子应用之间的相似度。

本申请实施例的一种可能的实现方式，根据待识别应用与种子应用集中每一应用的相似度，以及种子应用集中每一应用的类别标签，从类别标签中确定待识别应用对应的目标类别，包括：

将种子应用集按照类别标签分为多组，每一组中应用的类别标签相同；

根据待识别应用与种子应用集中每一应用的相似度，计算待识别应用与每一组中各个应用的相似度的平均值；

从多组中确定平均值最小的目标组，并将目标组的类别标签作为目标类别。

在本实施例中，种子应用集的大小为|Q|＝q，表示种子应用集中应用的数量。获取到待识别应用与种子应用集中每一应用的相似度之后，将得到的各个相似度表示为一个数组d＝[d₁,d₂,…,d_q],(q＝|Q|)，将种子应用集表示为Q＝{q₁,q₂,…,q_q}，将种子应用集的类别标签表示为类别集合T＝{t₁,t₂,…,t_z}，z为类别数量，种子应用集中每个应用q_i的类别t_i∈T。

对每个类别t∈T，计算待识别应用到种子集合Q中所有属于类别t的应用的平均距离(相似度的平均值)。设Q_t为所有类别为t的点的集合，表示一个组，定义为：Q_t＝{q_i∈Q∣t_i＝t}，计算待识别应用到Q_t的平均距离：

找出对应的平均距离中最小的一个组作为目标组，目标组对应的平均距离记为目标组对应的类别为目标类别t_min：

本申请实施例通过将种子应用集按照类别标签分组，计算待识别应用与每一组中各个应用的相似度的平均值，可以平滑组内个别应用可能带来的噪声或异常值影响，使得相似度评估更加稳健，减少了因个别应用差异而导致的误判，选择平均值最小的目标组作为待识别应用的类别归属，这种方法基于全局优化思想，考虑了待识别应用与整个种子应用集的关系，从而能够更准确地确定其类别。

本申请实施例的一种可能的实现方式，判断待识别应用是否属于目标类别，得到待识别应用的分类识别结果，包括：

将目标类别对应的平均值与预设阈值进行比较；

若目标类别对应的平均值不小于预设阈值，则分类识别结果为待识别应用不属于目标类别，且待识别应用为正常应用；

若目标类别对应的平均值小于预设阈值，则分类识别结果为待识别应用为不良应用且属于目标类别。

其中，预设阈值可以根据实际需求人为设置，本实施例不作具体限定。

本申请实施例通过引用预设阈值，给出了分类识别结果明确的边界条件，有助于得到更准确的分类识别结果。

示例性的，基于表1中的样本集进行实验，各个类别的种子应用数量和待识别应用数量的分布如下表1所示：

通过本申请提供的基于流量时序特征的不良应用分类识别方法对表1中每一待识别应用进行分类识别，得到的结果(DTW算法识别正确数量和DTW算法准确率)如表2所示，表2中还包含了传统的规则匹配算法的分类识别结果，两种方式相比较可以看出在9个分类中，本申请提供的算法对虚假投资理财类应用的分类识别结果弱于传统的规则匹配算法，在其余8种类别的识别分类结果要优于传统规则匹配算法，证明了本申请算法的有效性。

本申请实施例提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，实现前述基于流量时序特征的不良应用分类识别方法实施例所示的内容。

本申请实施例中提供了一种电子设备，如图9所示，图9所示的电子设备900包括：处理器901和存储器903。其中，处理器901和存储器903相连，如通过总线902相连。可选地，电子设备900还可以包括收发器904。需要说明的是，实际应用中收发器904不限于一个，该电子设备900的结构并不构成对本申请实施例的限定。

处理器901可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器901也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线902可包括一通路，在上述组件之间传送信息。总线902可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线902可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一型的总线。

存储器903可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器903用于存储执行本申请方案的应用程序代码，并由处理器901来控制执行。处理器901用于执行存储器903中存储的应用程序代码，以实现前述基于流量时序特征的不良应用分类识别方法实施例所示的内容。

图9示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述基于流量时序特征的不良应用分类识别方法实施例所示的内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于流量时序特征的不良应用分类识别方法，其特征在于，包括：

获取待识别应用和包含类别标签的种子应用集；

2.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法，其特征在于，所述根据所述流量时序数据分别确定所述待识别应用与所述种子应用集中每一应用的相似度，包括：

根据所述目标时序数据生成流量时序曲线；

3.根据权利要求2所述的基于流量时序特征的不良应用分类识别方法，其特征在于，所述计算所述待识别应用的流量时序曲线和第二目标应用的流量时序曲线的最小距离，包括：

4.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法，其特征在于，所述根据所述待识别应用与所述种子应用集中每一应用的相似度，以及所述种子应用集中每一应用的类别标签，从所述类别标签中确定所述待识别应用对应的目标类别，包括：

5.根据权利要求4所述的基于流量时序特征的不良应用分类识别方法，其特征在于，所述判断所述待识别应用是否属于所述目标类别，得到所述待识别应用的分类识别结果，包括：

将所述目标类别对应的平均值与预设阈值进行比较；

6.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法，其特征在于，所述获取所述待识别应用和所述种子应用集中每一应用的流量时序数据，包括：

7.根据权利要求6所述的基于流量时序特征的不良应用分类识别方法，其特征在于，所述对第一目标应用的运行数据进行预处理，得到目标运行数据，包括：

8.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于流量时序特征的不良应用分类识别方法的步骤。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行权利要求1-7任一项所述的基于流量时序特征的不良应用分类识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1-7任一项所述的基于流量时序特征的不良应用分类识别方法。