CN113987324B

CN113987324B - 一种数据处理方法、装置、设备及存储介质

Info

Publication number: CN113987324B
Application number: CN202111229055.6A
Authority: CN
Inventors: 李昊轩; 郑子墨; 张继仁; 赵慎; 吴芮; 闫瑞; 黄晨成; 邰四敏
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2024-11-01
Anticipated expiration: 2041-10-21
Also published as: CN113987324A

Abstract

本公开关于一种数据处理方法、装置、系统、设备及存储介质，涉及计算机技术领域，可以提高数据处理的效率。该数据处理方法包括：接收数据请求方发送的特征数据获取请求；特征数据获取请求包括数据请求标识；响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据；多个样本数据包括搜索词和搜索结果；多个样本数据中的至少两个样本数据的数据类型不同；多个特征数据与多个样本数据一一对应；多个特征数据中的每个特征数据的数据类型相同；向数据请求方发送多个特征数据；多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。

Description

一种数据处理方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

特征工程是对原始数据进行一系列工程处理，将其提炼为特征数据，并作为输入数据供算法和模型使用。

由于原始数据的类型复杂多样，因此，在对原始数据进行工程处理时，需要为每个原始数据配置相应的配置文件。然而，为每个原始数据配置的配置文件中的代码逻辑通常是相似的，这就造成了代码重复度较高，进而导致了数据处理效率较低的技术问题。

发明内容

本公开提供一种数据处理方法、装置、系统、设备及存储介质，可以提高数据处理的效率。

本公开实施例的技术方案如下：

根据本公开实施例的第一方面，提供一种数据处理方法，该方法可以应用于数据发送方的电子设备。该方法可以包括：接收数据请求方发送的特征数据获取请求；特征数据获取请求包括数据请求标识；响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据；配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；多个样本数据包括搜索词和搜索结果；多个样本数据中的至少两个样本数据的数据类型不同；多个特征数据与多个样本数据一一对应；多个特征数据中的每个特征数据的数据类型相同；向数据请求方发送多个特征数据；多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。

可选地，预先配置好的配置文件中包括写数据配置项和数据输出配置项；将多个样本数据转换成多个特征数据，包括：调用写数据配置项，将多个样本数据存储到与写数据配置项对应的结构体中，以得到与多个样本数据一一对应的多个已存储的样本数据；多个已存储的样本数据中的每个样本数据的数据类型相同；调用配置文件中的数据输出配置项，将多个已存储的样本数据转换成多个特征数据；多个特征数据中的每个特征数据的数据类型与数据输出配置项对应。

可选地，当多个特征数据中的目标特征数据包括用于表示目标特征数据为共享特征数据的共享标识、且目标特征数据与数据请求标识对应时，数据处理方法还包括：响应于特征数据获取请求，从结构体中获取目标特征数据。

可选地，预先配置好的配置文件中包括节点操作配置项；数据处理方法还包括：调用节点操作配置项，确定将目标样本数据转换为与目标样本数据对应的特征数据中的多个操作节点中、第一节点的输入数据与第二节点的输出数据是否相关；第一节点和第二节点为多个操作节点中的任意两个操作节点；当第一节点的输入数据与第二节点的输出数据不相关时，控制第一节点和第二节点同时执行节点操作。

可选地，预先配置好的配置文件中包括数据操作配置项；数据处理方法还包括：调用数据操作配置项，确定多个样本数据中的第一数据与第二数据是否相关；第一数据和第二数据为多个样本数据中的任意两个样本数据；当第一数据与第二数据不相关时，将第一数据转换成与第一数据对应的特征数据的同时，将第二数据转换成与第二数据对应的特征数据。

可选地，数据处理方法还包括：生成多个特征日志；多个特征日志与多个特征数据一一对应；一个特征日志用于表示一个样本数据转换成一个特征数据的处理过程。

可选地，数据处理方法还包括：存储多个特征日志与多个特征数据的对应关系。

可选地，数据处理方法还包括：若目标特征日志发生异常，则输出告警信息；告警信息用于提示目标特征日志对应的特征数据异常。

根据本公开实施例的第二方面，提供一种数据处理方法，该方法可以应用于数据请求方的电子设备。该方法可以包括：向数据发送方发送特征数据获取请求；接收数据发送方发送的多个特征数据；多个特征数据中的每个特征数据的数据类型相同；多个特征数据为数据发送方响应于特征数据获取请求，调用预先配置好的配置文件得到的特征数据；配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；样本数据包括搜索词和搜索结果；将多个特征数据输入到待训练神经网络模型中进行特征学习训练，直至收敛，以得到用于预测用户搜索行为的行为预测模型。

根据本公开实施例的第三方面，提供一种数据处理装置，可以应用于数据发送方的电子设备。该装置可以包括：接收单元、处理单元和发送单元；接收单元，用于接收数据请求方发送的特征数据获取请求；特征数据获取请求包括数据请求标识；处理单元，用于响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据；配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；多个样本数据包括搜索词和搜索结果；多个样本数据中的至少两个样本数据的数据类型不同；多个特征数据与多个样本数据一一对应；多个特征数据中的每个特征数据的数据类型相同；发送单元，用于向数据请求方发送多个特征数据；多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。

可选地，预先配置好的配置文件中包括写数据配置项和数据输出配置项；处理单元，具体用于：调用写数据配置项，将多个样本数据存储到与写数据配置项对应的结构体中，以得到与多个样本数据一一对应的多个已存储的样本数据；多个已存储的样本数据中的每个样本数据的数据类型相同；调用配置文件中的数据输出配置项，将多个已存储的样本数据转换成多个特征数据；多个特征数据中的每个特征数据的数据类型与数据输出配置项对应。

可选地，当多个特征数据中的目标特征数据包括用于表示目标特征数据为共享特征数据的共享标识、且目标特征数据与数据请求标识对应时，处理单元，还用于响应于特征数据获取请求，从结构体中获取目标特征数据。

可选地，预先配置好的配置文件中包括节点操作配置项；处理单元还用于：调用节点操作配置项，确定将目标样本数据转换为与目标样本数据对应的特征数据中的多个操作节点中、第一节点的输入数据与第二节点的输出数据是否相关；第一节点和第二节点为多个操作节点中的任意两个操作节点；当第一节点的输入数据与第二节点的输出数据不相关时，控制第一节点和第二节点同时执行节点操作。

可选地，预先配置好的配置文件中包括数据操作配置项；处理单元还用于：调用数据操作配置项，确定多个样本数据中的第一数据与第二数据是否相关；第一数据和第二数据为多个样本数据中的任意两个样本数据；当第一数据与第二数据不相关时，将第一数据转换成与第一数据对应的特征数据的同时，将第二数据转换成与第二数据对应的特征数据。

可选地，数据处理装置还包括：生成单元；生成单元，用于生成多个特征日志；多个特征日志与多个特征数据一一对应；一个特征日志用于表示一个样本数据转换成一个特征数据的处理过程。

可选地，数据处理装置还包括：存储单元；存储单元，用于存储多个特征日志与多个特征数据的对应关系。

可选地，数据处理装置还包括：输出单元；输出单元，用于若目标特征日志发生异常，则输出告警信息；告警信息用于提示目标特征日志对应的特征数据异常。

根据本公开实施例的第四方面，提供一种数据处理装置，可以应用于数据请求方的电子设备。该装置可以包括：发送单元、接收单元和处理单元；发送单元，用于向数据发送方发送特征数据获取请求；接收单元，用于接收数据发送方发送的多个特征数据；多个特征数据中的每个特征数据的数据类型相同；多个特征数据为数据发送方响应于特征数据获取请求，调用预先配置好的配置文件得到的特征数据；配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；样本数据包括搜索词和搜索结果；处理单元，用于将多个特征数据输入到待训练神经网络模型中进行特征学习训练，直至收敛，以得到用于预测用户搜索行为的行为预测模型。

根据本公开实施例的第五方面，提供一种电子设备，可以包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面或第二方面中任一种可选地数据处理方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面或第二方面中任一种可选地数据处理方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面或第二方面中任一种可选地实现方式所述的数据处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于上述任一方面，本公开中，数据发送方的电子设备在接收数据请求方发送的特征数据获取请求后，可以调用预先配置好的配置文件，获取与数据请求标识对应的多个数据类型不同的样本数据。由于配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据，因此，电子设备可以将多个样本数据转换成数据类型相同的多个特征数据。后续，向数据请求方发送多个特征数据。由于多个样本数据包括搜索词和搜索结果，因此，数据请求方可以根据多个特征数据训练生成用于预测用户搜索行为的行为预测模型。由于预先配置好的配置文件为统一格式的代码配置文件，因此，在将样本数据转换为特征数据时，可以直接调用配置好的配置文件，无需为每个样本数据编写配置文件，提高了数据处理效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了本公开实施例提供的一种数据处理方法的流程示意图；

图2示出了本公开实施例提供的又一种数据处理方法的流程示意图；

图3示出了本公开实施例提供的又一种数据处理方法的流程示意图；

图4示出了本公开实施例提供的又一种数据处理方法的流程示意图；

图5示出了本公开实施例提供的又一种数据处理方法的流程示意图；

图6示出了本公开实施例提供的又一种数据处理方法的流程示意图；

图7示出了本公开实施例提供的又一种数据处理方法的流程示意图；

图8示出了本公开实施例提供的又一种数据处理方法的流程示意图；

图9示出了本公开实施例提供的又一种数据处理装置的结构示意图；

图10示出了本公开实施例提供的一种终端的结构示意图；

图11示出了本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

如背景技术中所描述，由于原始数据的类型复杂多样，因此，在对原始数据进行工程处理时，需要为每个原始数据配置相应的配置文件。然而，为每个原始数据配置的配置文件中的代码逻辑通常是相似的，这就造成了代码重复度较高，进而导致了数据处理效率较低的技术问题。

基于此，本公开实施例提供一种数据处理方法，数据发送方的电子设备在接收数据请求方发送的特征数据获取请求后，可以调用预先配置好的配置文件，获取与数据请求标识对应的多个数据类型不同的样本数据。由于配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据，因此，电子设备可以将多个样本数据转换成数据类型相同的多个特征数据。后续，向数据请求方发送多个特征数据。由于多个样本数据包括搜索词和搜索结果，因此，数据请求方可以根据多个特征数据训练生成用于预测用户搜索行为的行为预测模型。由于预先配置好的配置文件为统一格式的代码配置文件，因此，在将样本数据转换为特征数据时，可以直接调用配置好的配置文件，无需为每个样本数据编写配置文件，提高了数据处理效率。

以下对本公开实施例提供的数据处理方法进行示例性说明：

本公开提供的数据处理方法可以应用于电子设备。

一些实施例中，电子设备可以是服务器，也可以是终端，还可以是其他用于进行数据处理的电子设备，本公开对此不作限定。

其中，服务器可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。部分实施方式中，服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。

终端可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等可以安装并使用内容社区应用(如快手)的设备，本公开对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

下面结合附图对本申请实施例提供的数据处理方法进行详细介绍。

如图1所示，当数据处理方法应用于数据发送方的电子设备时，该数据处理方法可以包括：

S101、电子设备接收数据请求方发送的特征数据获取请求。

其中，特征数据获取请求包括数据请求标识。

具体的，使用机器学习、深度学习解决问题的一般思路可分解为以下几个步骤：首先获取最原始的样本数据。然后对样本数据执行特征工程，以得到特征数据。接着，对特征数据进行数据处理(例如：处理正负样本比例、无效或作弊样本等)，以得到用于训练、验证、测试的样本集。后续，根据样本集得到训练模型。

由上可知，当某个终端或者服务器需要使用机器学习、深度学习解决问题时，可以向电子设备发送特征数据获取请求，以请求获取特征数据。在这种情况下，电子设备接收特征数据获取请求。

S102、电子设备响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据。

具体的，在接收特征数据获取请求后，电子设备可以响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据。

其中，配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；多个样本数据包括搜索词和搜索结果；多个样本数据中的至少两个样本数据的数据类型不同；多个特征数据与多个样本数据一一对应；多个特征数据中的每个特征数据的数据类型相同。

由于将样本数据转换为特征数据的代码逻辑是相似的，因此，运维人员可以提前编写一个预先配置好的配置文件，用于将样本数据转换为特征数据。

预先配置好的配置文件可以是一段代码，包括将样本数据转换为特征数据中，每个操作节点的配置项。这样一来，电子设备在接收到特征数据获取请求后，可以直接调用预先配置好的配置文件，获取样本数据，并将获取到的样本数据转换为特征数据。

样本数据可以是搜索场景下的数据。例如用户想要观看“篮球类”的视频，则会对“篮球”搜索词进行搜索。搜索结果可以包括“篮球比赛视频”、“篮球教学视频”、“篮球比赛规则”等结果。

S103、电子设备向数据请求方发送多个特征数据。

其中，多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。

具体的，在响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据后，电子设备发送多个特征数据，以使得数据请求方根据多个特征数据训练生成用于预测用户搜索行为的行为预测模型。。

示例性的，服务器A需要在线预测用户A的搜索行为。在这种情况下，服务器A向电子设备发送包括用户A的用户标识的特征数据获取请求。电子设备在接收到特征数据获取请求后，响应于该特征数据获取请求，调用预先配置好的配置文件，获取与用户A的用户标识对应的用户A的多个行为样本数据，并将多个行为样本数据转换成多个特征数据。后续，电子设备向服务器A发送该多个特征数据。

上述实施例提供的技术方案至少带来以下有益效果：由S101-S103可知，电子设备在接收数据请求方发送的特征数据获取请求后，可以调用预先配置好的配置文件，获取与数据请求标识对应的多个数据类型不同的样本数据。由于配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据，因此，电子设备可以将多个样本数据转换成数据类型相同的多个特征数据。后续，向数据请求方发送多个特征数据。由于多个样本数据包括搜索词和搜索结果，因此，数据请求方可以根据多个特征数据训练生成用于预测用户搜索行为的行为预测模型。由于预先配置好的配置文件为统一格式的代码配置文件，因此，在将样本数据转换为特征数据时，可以直接调用配置好的配置文件，无需为每个样本数据编写配置文件，提高了数据处理效率。

在一种实施例中，预先配置好的配置文件中包括写数据配置项和数据输出配置项；结合图1，如图2所示，上述S102中，电子设备响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据的方法具体包括：

S201、电子设备调用写数据配置项，将多个样本数据存储到与写数据配置项对应的结构体中，以得到与多个样本数据一一对应的多个已存储的样本数据。

其中，多个已存储的样本数据中的每个样本数据的数据类型相同。

具体的，在调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据时，由于多个样本数据存储于不同的电子设备，因此，电子设备获取到的多个样本数据的数据类型不同。在这种情况下，电子设备可以调用写数据配置项，将多个样本数据存储到与写数据配置项对应的结构体中，以得到与多个样本数据一一对应的多个已存储的样本数据。

示例性的，电子设备可以从不同的数据源头获取样本数据，并进行解析，每一类不同的类型对应一个reader。在获取到多个样本数据后，reader将获取到的多个样本数据希尔fmatrix_t结构体(std::vector<std::vector<Feature*>>)。这样一来，电子设备可以得到数据类型相同的多个已存储的样本数据。

S202、电子设备调用配置文件中的数据输出配置项，将多个已存储的样本数据转换成多个特征数据。

其中，多个特征数据中的每个特征数据的数据类型与数据输出配置项对应。

具体的，在调用写数据配置项，将多个样本数据存储到与写数据配置项对应的结构体中，以得到与多个样本数据一一对应的多个已存储的样本数据后，电子设备调用配置文件中的数据输出配置项，将多个已存储的样本数据转换成多个特征数据。

示例性的，服务器A需要在线预测用户A的搜索行为。在这种情况下，服务器A向电子设备发送包括用户A的用户标识的特征数据获取请求。电子设备在接收到特征数据获取请求后，响应于该特征数据获取请求，调用预先配置好的配置文件，获取与用户A的用户标识对应的用户A的多个行为样本数据。接着，电子设备调用写数据配置项，将多个行为样本数据存储到与写数据配置项对应的结构体中，以得到与多个行为样本数据一一对应的多个已存储的样本数据。后续，电子设备还可以调用配置文件中的数据输出配置项，将多个已存储的样本数据转换成多个特征数据。多个特征数据的数据类型可以满足服务器A预测用户A的搜索行为。

需要说明的是，预先配置好的配置文件中还包括用于对样本数据进行数据变换(比如hash，特征交叉，取log等)的配置项。电子设备将多个已存储的样本数据转换成多个特征数据时，还可以对多个已存储的样本数据进行数据变换。

此外，运维人员还可以根据业务需求，为预先配置好的配置文件添加与业务需求对应的多个基本运算符。

上述实施例提供的技术方案至少带来以下有益效果：由S201-S202可知，预先配置好的配置文件中包括写数据配置项和数据输出配置项。电子设备将样本数据转换为特征数据时，可以调用写数据配置项，将多个数据类型不同的样本数据存储到与写数据配置项对应的结构体中，以得到数据类型相同的多个已存储的样本数据。后续，调用数据输出配置项，将多个已存储的样本数据转换成多个特征数据。这样一来，由于多个特征数据的数据类型相同，因此，后续的模型或者算法在使用特征数据时，可以快速得到训练好的模型或者算法结果，提高了数据处理的效率。。

在一种实施例中，结合图2，如图3所示，当多个特征数据中的目标特征数据包括用于表示目标特征数据为共享特征数据的共享标识、且目标特征数据与数据请求标识对应时，数据处理方法还包括：

S301、电子设备响应于特征数据获取请求，从结构体中获取目标特征数据。

具体的，一些特征数据是可以共享的。当多个特征数据中的目标特征数据包括用于表示目标特征数据为共享特征数据的共享标识、且目标特征数据与数据请求标识对应时，电子设备可以响应于特征数据获取请求，从结构体中获取目标特征数据。

示例性的，若结构体中存储的目标特征数据为可以共享的特征数据，则特征数据本申请会带有共享标识。在这种情况下，若电子设备接收到的特征数据获取请求，且特征数据获取请求用于请求获取目标特征数据，则电子设备响应于特征数据获取请求，从结构体中获取目标特征数据。

上述实施例提供的技术方案至少带来以下有益效果：由S301可知，当多个特征数据中的目标特征数据包括用于表示目标特征数据为共享特征数据的共享标识、且目标特征数据与数据请求标识对应时，电子设备可以响应于特征数据获取请求，从结构体中获取目标特征数据。这样一来，当某个特征数据为共享特征数据时，电子设备无需重复获取相应的样本数据，只需从已存储的特征数据中获取该特征数据即可，提高了数据处理的效率。

在一种实施例中，预先配置好的配置文件中包括节点操作配置项，如图4所示，本公开实施例提供的数据处理方法还包括：S401-S402。

S401、电子设备调用节点操作配置项，确定将目标样本数据转换为与目标样本数据对应的特征数据中的多个操作节点中、第一节点的输入数据与第二节点的输出数据是否相关。

其中，第一节点和第二节点为多个操作节点中的任意两个操作节点。

具体的，在获取到样本数据后，由于样本数据为原始数据，因此，电子设备需要对样本数据执行计算操作处理(例如Flink处理)。而对于需要执行多次计算操作的样本数据而言，电子设备可以调用节点操作配置项，确定将目标样本数据转换为与目标样本数据对应的特征数据中的多个操作节点中、第一节点的输入数据与第二节点的输出数据是否相关。

示例性的，对于样本数据A，在第一节点执行数据操作后得到数据B。而数据B需要作为第二节点执行数据操作的输入，才能得到数据C。在这种情况下，电子设备确定第一节点和第二节点为相关。

相应的，对于样本数据A，在第一节点执行数据操作后得到数据B。而数据B无需作为第二节点执行数据操作的输入，第二节点只需根据样本数据A，便可以得到数据C。在这种情况下，电子设备确定第一节点和第二节点为不相关。

S402、当第一节点的输入数据与第二节点的输出数据不相关时，电子设备控制第一节点和第二节点同时执行节点操作。

具体的，当第一节点的输入数据与第二节点的输出数据不相关时，为了提高数据处理效率，电子设备可以控制第一节点和第二节点同时执行节点操作。

结合上述示例，当第一节点和第二节点为不相关时，电子设备控制第一节点和第二节点同时执行节点操作，提高了数据处理的效率。

上述实施例提供的技术方案至少带来以下有益效果：由S401-S402可知，电子设备在对样本数据转换为特征数据时，若某个样本数据需要执行多次数据处理操作，则对于不相关的数据操作节点，电子设备可以同时执行相应的操作节点，提高了数据处理的效率。

在一种实施例中，预先配置好的配置文件中包括数据操作配置项，如图5所示，本公开实施例提供的数据处理方法还包括：S501-S502。

S501、电子设备调用数据操作配置项，确定多个样本数据中的第一数据与第二数据是否相关。

其中，第一数据和第二数据为多个样本数据中的任意两个样本数据。

具体的，在获取到样本数据后，由于样本数据的数量较多，因此，电子设备需要对每个样本数据执行计算操作处理(例如Flink处理)。在这种情况下，电子设备可以调用数据操作配置项，确定多个样本数据中的第一数据与第二数据是否相关。

S502、当第一数据与第二数据不相关时，电子设备将第一数据转换成与第一数据对应的特征数据的同时，将第二数据转换成与第二数据对应的特征数据。

具体的，当第一数据与第二数据不相关时，电子设备可以将第一数据转换成与第一数据对应的特征数据的同时，将第二数据转换成与第二数据对应的特征数据。

上述实施例提供的技术方案至少带来以下有益效果：由S501-S502可知，电子设备在对多个样本数据转换为多个特征数据时，对于不相关的样本数据，电子设备可以对不相关的样本数据同时执行特征工程，提高了数据处理的效率。

在一种实施例中，结合图1，如图6所示，本公开实施例提供的数据处理方法还包括：S601。

S601、电子设备生成多个特征日志。

其中，多个特征日志与多个特征数据一一对应。一个特征日志用于表示一个样本数据转换成一个特征数据的处理过程。

具体的，在将多个样本数据转换成多个特征数据的数据转换过程中，电子设备还可以生成与多个特征数据一一对应的多个特征日志，以便于查阅每个特征数据的具体转换过程。

上述实施例提供的技术方案至少带来以下有益效果：由S601可知，在将样本数据转换为特征数据的过程中，可以与多个特征数据一一对应的多个特征日志。这样一来，电子设备可以了解到每个特征数据的具体处理过程，丰富了数据处理的功能。

在一种实施例中，结合图6，如图7所示，本公开实施例提供的数据处理方法还包括：S701。

S701、电子设备存储多个特征日志与多个特征数据的对应关系。

具体的，在生成多个特征日志后，电子设备还可以存储多个特征日志与多个特征数据的对应关系。

可选的，电子设备可以通过键值存储的方式，存储多个特征日志与多个特征数据的对应关系，也可以通过其他方式存储多个特征日志与多个特征数据的对应关系，本公开对此不作限定。

上述实施例提供的技术方案至少带来以下有益效果：由S701可知，在生成多个特征日志后，存储多个特征日志与多个特征数据的对应关系，以便于电子设备可以根据特征日志快速定位到相应的特征数据。相应的，电子设备也可以根据特征数据快速定位到相应的特征日志。

在一种实施例中，结合图7，如图8所示，本公开实施例提供的数据处理方法还包括：S801。

S801、若目标特征日志发生异常，则电子设备输出告警信息。

其中，告警信息用于提示目标特征日志对应的特征数据异常。

具体的，电子设备还可以在对多个样本数据转换为多个特征数据的过程中，监控每个特征数据对应的特征日志。若目标特征日志发生异常，则电子设备输出告警信息，以便于运维人员对异常的特征数据及时处理。

上述实施例提供的技术方案至少带来以下有益效果：由S801可知，电子设备还可以在对多个样本数据转换为多个特征数据的过程中，监控每个特征数据对应的特征日志。若目标特征日志发生异常，则电子设备输出告警信息，以便于运维人员对异常的特征数据及时处理，提高特征数据的准确性。

本申请实施例还提供了一种数据处理方法，应用于数据请求方的电子设备，包括：

电子设备向数据发送方发送特征数据获取请求。

具体的，电子设备在获取特征数据时，可以向数据发送方发送特征数据获取请求。

电子设备接收数据发送方发送的多个特征数据。

具体的，在向数据发送方发送特征数据获取请求后，数据发送方的电子设备可以调用预先配置好的配置文件得到的特征数据，并向数据请求方发送特征数据。

其中，多个特征数据中的每个特征数据的数据类型相同；多个特征数据为数据发送方响应于特征数据获取请求，调用预先配置好的配置文件得到的特征数据；配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；样本数据包括搜索词和搜索结果。

电子设备将多个特征数据输入到待训练神经网络模型中进行特征学习训练，直至收敛，以得到用于预测用户搜索行为的行为预测模型。

具体的，在接收数据发送方发送的多个特征数据后，电子设备可以将多个特征数据输入到待训练神经网络模型中进行特征学习训练，直至收敛，以得到用于预测用户搜索行为的行为预测模型。

具体的特征学习训练方法可以参考现有的模型训练方法。

可以理解的，在实际实施时，本公开实施例所述的终端/服务器可以包含有用于实现前述对应数据处理方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

基于这样的理解，本公开实施例还对应提供一种数据处理装置，可以应用于数据发送方的电子设备。图9示出了本公开实施例提供的数据处理装置的结构示意图。如图9所示，该数据处理装置可以包括：接收单元901、处理单元902和发送单元903。

接收单元901，用于接收数据请求方发送的特征数据获取请求；特征数据获取请求包括数据请求标识。例如，结合图1，接收单元901用于执行S101。

处理单元902，用于响应于特征数据获取请求，调用预先配置好的配置文件，获取与数据请求标识对应的多个样本数据，并将多个样本数据转换成多个特征数据；配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；多个样本数据包括搜索词和搜索结果；多个样本数据中的至少两个样本数据的数据类型不同；多个特征数据与多个样本数据一一对应；多个特征数据中的每个特征数据的数据类型相同。例如，结合图1，处理单元902用于执行S102。

发送单元903，用于向所述数据请求方发送所述多个特征数据；所述多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。例如，结合图1，发送单元903用于执行S103。

可选地，预先配置好的配置文件中包括写数据配置项和数据输出配置项；处理单元902，具体用于：

调用写数据配置项，将多个样本数据存储到与写数据配置项对应的结构体中，以得到与多个样本数据一一对应的多个已存储的样本数据；多个已存储的样本数据中的每个样本数据的数据类型相同。例如，结合图2，处理单元902用于执行S201。

调用配置文件中的数据输出配置项，将多个已存储的样本数据转换成多个特征数据；多个特征数据中的每个特征数据的数据类型与数据输出配置项对应。例如，结合图2，处理单元902用于执行S202。

可选地，当多个特征数据中的目标特征数据包括用于表示目标特征数据为共享特征数据的共享标识、且目标特征数据与数据请求标识对应时，处理单元902，还用于响应于特征数据获取请求，从结构体中获取目标特征数据。例如，结合图3，处理单元902用于执行S301。

可选地，预先配置好的配置文件中包括节点操作配置项；处理单元902还用于：

调用节点操作配置项，确定将目标样本数据转换为与目标样本数据对应的特征数据中的多个操作节点中、第一节点的输入数据与第二节点的输出数据是否相关；第一节点和第二节点为多个操作节点中的任意两个操作节点。例如，结合图4，处理单元902用于执行S401。

当第一节点的输入数据与第二节点的输出数据不相关时，控制第一节点和第二节点同时执行节点操作。例如，结合图4，处理单元902用于执行S402。

可选地，预先配置好的配置文件中包括数据操作配置项；处理单元902还用于：

调用数据操作配置项，确定多个样本数据中的第一数据与第二数据是否相关；第一数据和第二数据为多个样本数据中的任意两个样本数据。例如，结合图5，处理单元902用于执行S501。

当第一数据与第二数据不相关时，将第一数据转换成与第一数据对应的特征数据的同时，将第二数据转换成与第二数据对应的特征数据。例如，结合图5，处理单元902用于执行S502。

可选地，还包括：生成单元904；

生成单元904，用于生成多个特征日志；多个特征日志与多个特征数据一一对应；一个特征日志用于表示一个样本数据转换成一个特征数据的处理过程。例如，结合图6，生成单元904用于执行S601。

可选地，还包括：存储单元905；

存储单元905，用于存储多个特征日志与多个特征数据的对应关系。例如，结合图7，存储单元905用于执行S701。

可选地，还包括：输出单元906；

输出单元906，用于若目标特征日志发生异常，则输出告警信息；告警信息用于提示目标特征日志对应的特征数据异常。例如，结合图8，输出单元906用于执行S801。

本公开实施例还对应提供一种数据处理装置，可以应用于数据请求方的电子设备，包括：发送单元、接收单元和处理单元；

发送单元，用于向数据发送方发送特征数据获取请求；

接收单元，用于接收数据发送方发送的多个特征数据；多个特征数据中的每个特征数据的数据类型相同；多个特征数据为数据发送方响应于特征数据获取请求，调用预先配置好的配置文件得到的特征数据；配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；样本数据包括搜索词和搜索结果；

处理单元，用于将多个特征数据输入到待训练神经网络模型中进行特征学习训练，直至收敛，以得到用于预测用户搜索行为的行为预测模型。

如上所述，本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的数据处理装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

本公开实施例还提供一种终端，终端可以是手机、电脑等用户终端。图10示出了本公开实施例提供的终端的结构示意图。该终端可以是数据处理装置可以包括至少一个处理器61，通信总线62，存储器63以及至少一个通信接口64。

处理器61可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。作为一个示例，结合图9，电子设备中的处理单元902实现的功能与图10中的处理器61实现的功能相同。

通信总线62可包括一通路，在上述组件之间传送信息。

通信接口64，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如服务器、以太网，无线接入网(radio access network，RAN)，无线局域网(wireless localarea networks，WLAN)等。作为一个示例，

存储器63可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器63用于存储执行本公开方案的应用程序代码，并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器61可以包括一个或多个CPU，例如图10中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端可以包括多个处理器，例如图10中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信，可以以多种方式接受用户的输入。例如，输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信，可以以多种方式来显示信息。例如，输出设备61可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备等。

本领域技术人员可以理解，图10中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例还提供一种服务器。图11示出了本公开实施例提供的服务器的结构示意图。该服务器可以是数据处理装置。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中，存储器72中存储有至少一条指令，至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的数据处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的数据处理方法。例如，计算机可读存储介质可以为包括指令的存储器63，上述指令可由终端的处理器61执行以完成上述方法。又例如，计算机可读存储介质可以为包括指令的存储器72，上述指令可由服务器的处理器71执行以完成上述方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行上述图1-图8任一附图所示的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，包括：

接收数据请求方发送的特征数据获取请求；所述特征数据获取请求包括数据请求标识；

响应于所述特征数据获取请求，调用预先配置好的配置文件，获取与所述数据请求标识对应的多个样本数据；所述配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；所述多个样本数据包括搜索词和搜索结果；所述多个样本数据中的至少两个样本数据的数据类型不同；所述预先配置好的配置文件中包括写数据配置项和数据输出配置项；

调用所述写数据配置项，将所述多个样本数据存储到与所述写数据配置项对应的结构体中，以得到与所述多个样本数据一一对应的多个已存储的样本数据；所述多个已存储的样本数据中的每个样本数据的数据类型相同；

调用所述数据输出配置项，将所述多个已存储的样本数据转换成多个特征数据；所述多个特征数据中的每个特征数据的数据类型与所述数据输出配置项对应；所述多个特征数据与所述多个样本数据一一对应；所述多个特征数据中的每个特征数据的数据类型相同；

向所述数据请求方发送所述多个特征数据；所述多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。

2.根据权利要求1所述的数据处理方法，其特征在于，当所述多个特征数据中的目标特征数据包括用于表示所述目标特征数据为共享特征数据的共享标识、且所述目标特征数据与所述数据请求标识对应时，所述数据处理方法还包括：

响应于所述特征数据获取请求，从所述结构体中获取所述目标特征数据。

3.根据权利要求1或2所述的数据处理方法，其特征在于，所述预先配置好的配置文件中包括节点操作配置项；所述数据处理方法还包括：

调用所述节点操作配置项，确定将目标样本数据转换为与所述目标样本数据对应的特征数据中的多个操作节点中、第一节点的输入数据与第二节点的输出数据是否相关；所述第一节点和所述第二节点为所述多个操作节点中的任意两个操作节点；

当所述第一节点的输入数据与所述第二节点的输出数据不相关时，控制所述第一节点和所述第二节点同时执行节点操作。

4.根据权利要求1或2所述的数据处理方法，其特征在于，所述预先配置好的配置文件中包括数据操作配置项；所述数据处理方法还包括：

调用所述数据操作配置项，确定所述多个样本数据中的第一数据与第二数据是否相关；所述第一数据和所述第二数据为所述多个样本数据中的任意两个样本数据；

当所述第一数据与所述第二数据不相关时，将所述第一数据转换成与所述第一数据对应的特征数据的同时，将所述第二数据转换成与所述第二数据对应的特征数据。

5.根据权利要求1所述的数据处理方法，其特征在于，还包括：

生成多个特征日志；所述多个特征日志与所述多个特征数据一一对应；一个特征日志用于表示一个样本数据转换成一个特征数据的处理过程。

6.根据权利要求5所述的数据处理方法，其特征在于，还包括：

存储所述多个特征日志与所述多个特征数据的对应关系。

7.根据权利要求6所述的数据处理方法，其特征在于，还包括：

若目标特征日志发生异常，则输出告警信息；所述告警信息用于提示所述目标特征日志对应的特征数据异常。

8.一种数据处理方法，其特征在于，包括：

向数据发送方发送特征数据获取请求；

接收所述数据发送方发送的多个特征数据；所述多个特征数据中的每个特征数据的数据类型相同；所述多个特征数据为所述数据发送方响应于所述特征数据获取请求，调用预先配置好的配置文件中的写数据配置项，将多个样本数据存储到与所述写数据配置项对应的结构体中，以得到与所述多个样本数据一一对应的多个已存储的样本数据，并调用所述配置文件中的数据输出配置项，将所述多个已存储的样本数据转换得到的特征数据；所述配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；所述样本数据包括搜索词和搜索结果；所述预先配置好的配置文件中包括所述写数据配置项和所述数据输出配置项；所述多个已存储的样本数据中的每个样本数据的数据类型相同；所述多个特征数据中的每个特征数据的数据类型与所述数据输出配置项对应；

将所述多个特征数据输入到待训练神经网络模型中进行特征学习训练，直至收敛，以得到用于预测用户搜索行为的行为预测模型。

9.一种数据处理装置，其特征在于，包括：接收单元、处理单元和发送单元；

所述接收单元，用于接收数据请求方发送的特征数据获取请求；所述特征数据获取请求包括数据请求标识；

所述处理单元，用于响应于所述特征数据获取请求，调用预先配置好的配置文件，获取与所述数据请求标识对应的多个样本数据；所述配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；所述多个样本数据包括搜索词和搜索结果；所述多个样本数据中的至少两个样本数据的数据类型不同；所述预先配置好的配置文件中包括写数据配置项和数据输出配置项；

所述处理单元，还用于调用所述写数据配置项，将所述多个样本数据存储到与所述写数据配置项对应的结构体中，以得到与所述多个样本数据一一对应的多个已存储的样本数据；所述多个已存储的样本数据中的每个样本数据的数据类型相同；

所述处理单元，还用于调用所述数据输出配置项，将所述多个已存储的样本数据转换成多个特征数据；所述多个特征数据中的每个特征数据的数据类型与所述数据输出配置项对应；所述多个特征数据与所述多个样本数据一一对应；所述多个特征数据中的每个特征数据的数据类型相同；

所述发送单元，用于向所述数据请求方发送所述多个特征数据；所述多个特征数据用于训练生成用于预测用户搜索行为的行为预测模型。

10.根据权利要求9所述的数据处理装置，其特征在于，当所述多个特征数据中的目标特征数据包括用于表示所述目标特征数据为共享特征数据的共享标识、且所述目标特征数据与所述数据请求标识对应时，所述处理单元，还用于响应于所述特征数据获取请求，从所述结构体中获取所述目标特征数据。

11.根据权利要求9或10所述的数据处理装置，其特征在于，所述预先配置好的配置文件中包括节点操作配置项；所述处理单元还用于：

12.根据权利要求9或10所述的数据处理装置，其特征在于，所述预先配置好的配置文件中包括数据操作配置项；所述处理单元还用于：

13.根据权利要求9所述的数据处理装置，其特征在于，还包括：生成单元；

所述生成单元，用于生成多个特征日志；所述多个特征日志与所述多个特征数据一一对应；一个特征日志用于表示一个样本数据转换成一个特征数据的处理过程。

14.根据权利要求13所述的数据处理装置，其特征在于，还包括：存储单元；

所述存储单元，用于存储所述多个特征日志与所述多个特征数据的对应关系。

15.根据权利要求14所述的数据处理装置，其特征在于，还包括：输出单元；

所述输出单元，用于若目标特征日志发生异常，则输出告警信息；所述告警信息用于提示所述目标特征日志对应的特征数据异常。

16.一种数据处理装置，其特征在于，包括：发送单元、接收单元和处理单元；

所述发送单元，用于向数据发送方发送特征数据获取请求；

所述接收单元，用于接收所述数据发送方发送的多个特征数据；所述多个特征数据中的每个特征数据的数据类型相同；所述多个特征数据为所述数据发送方响应于所述特征数据获取请求，调用预先配置好的配置文件中的写数据配置项，将多个样本数据存储到与所述写数据配置项对应的结构体中，以得到与所述多个样本数据一一对应的多个已存储的样本数据，并调用所述配置文件中的数据输出配置项，将所述多个已存储的样本数据转换得到的特征数据；所述配置文件用于将数据类型不同的样本数据转换为数据类型相同的特征数据；所述样本数据包括搜索词和搜索结果；所述预先配置好的配置文件中包括所述写数据配置项和所述数据输出配置项；所述多个已存储的样本数据中的每个样本数据的数据类型相同；所述多个特征数据中的每个特征数据的数据类型与所述数据输出配置项对应；

所述处理单元，用于将所述多个特征数据输入到待训练神经网络模型中进行特征学习训练，直至收敛，以得到用于预测用户搜索行为的行为预测模型。

17.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-7中任一项或8所述的数据处理方法。

18.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-7中任一项或8所述的数据处理方法。

19.一种计算机程序产品，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-7中任一项或8所述的数据处理方法。