CN113297282A

CN113297282A - 数据处理方法、系统及装置

Info

Publication number: CN113297282A
Application number: CN202010738887.XA
Authority: CN
Inventors: 杨文龙
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2021-08-24
Anticipated expiration: 2040-07-28
Also published as: CN113297282B

Abstract

本说明书实施例提供数据处理方法、系统及装置，其中，第一种所述数据处理方法包括第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件；在根据所述数据管理文件确定所述第一数据为目标数据的情况下，将所述第一数据按照第一预设要求写入日志文件；同步装置在监控到所述第一数据被写入到所述日志文件，且确定所述第一数据为所述目标数据的情况下，将所述第一数据写入所述第二数据存储装置。

Description

数据处理方法、系统及装置

技术领域

本说明书实施例涉及数据处理技术领域，特别涉及数据处理方法。本说明书一个或者多个实施例同时涉及数据处理系统，数据处理装置，计算设备，以及计算机可读存储介质。

背景技术

Solr(搜索引擎)是业界广泛应用的分布式全文检索。Solr支持各种复杂的条件查询和全文索引，通过结合HBase(数据库)，可以最大限度发挥HBase和Solr各自的优点，从而使得我们可以构建复杂的大数据存储和检索服务。

而现有技术中，由于搜索引擎需要更新全量数据，因此在确定HBase中存在写入数据，是需要基于写入数据回读与其对应的全量数据之后才能写入Solr，同步效率较低。

因此需要提供一种可以将HBase中的写入数据无需回读即可按照用户的需求同步到Solr搜索引擎中的数据处理方法。

发明内容

有鉴于此，本说明书施例提供了数据处理方法。本说明书一个或者多个实施例同时涉及数据处理系统，数据处理装置，计算设备，以及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：

第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件；

在根据所述数据管理文件确定所述第一数据为目标数据的情况下，将所述第一数据按照第一预设要求写入日志文件；

同步装置在监控到所述第一数据被写入到所述日志文件，且确定所述第一数据为所述目标数据的情况下，将所述第一数据写入所述第二数据存储装置。

根据本说明书实施例的第二方面，提供了一种数据处理系统，包括：

第一数据存储装置、同步装置以及第二数据存储装置，其中，

所述第一数据存储装置，被配置为接收写入的第一数据，且获取预设的数据管理文件；

所述同步装置，被配置为在监控到所述第一数据被写入到所述日志文件，且确定所述第一数据为所述目标数据的情况下，将所述第一数据写入所述第二数据存储装置。

根据本说明书实施例的第三方面，提供了一种数据处理方法，包括：

监控日志文件；

在监控到第一数据存储装置接收的第一数据被写入到所述日志文件的情况下，获取所述第一数据；

确定所述第一数据为目标数据，且将所述第一数据写入第二数据存储装置。

根据本说明书实施例的第四方面，提供了一种数据处理装置，包括：

监控模块，被配置为监控日志文件；

获取模块，被配置为在监控到第一数据存储装置接收的第一数据被写入到所述日志文件的情况下，获取所述第一数据；

写入模块，被配置为确定所述第一数据为目标数据，且将所述第一数据写入第二数据存储装置。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述数据处理方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

本说明书一个实施例实现了数据处理方法、系统及装置，其中，第一种所述数据处理方法包括第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件；在根据所述数据管理文件确定所述第一数据为目标数据的情况下，将所述第一数据按照第一预设要求写入日志文件；同步装置在监控到所述第一数据被写入到所述日志文件，且确定所述第一数据为所述目标数据的情况下，将所述第一数据写入所述第二数据存储装置；

所述数据处理方法的第一数据存储装置将待写入第二数据装置的写入数据(第一数据)，按照特殊的格式存储到日志文件中，同步模块在监控到日志文件中的该写入数据之后，可以直接从该日志文件中获取该写入数据，将其解析并同步到第二数据存储装置中，无需去第一数据存储装置中回读待写入第二数据装置的索引列与该写入数据对应的行交叉位置的数据，提升了同步效率。

附图说明

图1是本说明书一个实施例提供的一种数据处理系统实现HBase+Solr/ES架构的示意图；

图2是本说明书一个实施例提供的一种数据处理方法的流程图；

图3是本说明书一个实施例提供的一种数据处理方法中将第一数据写入日志文件的具体场景示意图；

图4是本说明书一个实施例提供的一种数据处理方法中按照第一预设要求写入日志文件的第一数据的写入格式示意图；

图5是本说明书一个实施例提供的一种数据处理方法中同步装置的处理示意图；

图6是本说明书一个实施例提供的一种数据处理方法应用于同步装置的处理过程流程图；

图7是本说明书一个实施例提供的一种数据处理系统的结构示意图；

图8是本说明书一个实施例提供的一种数据处理装置的结构示意图；

图9是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

Zookeeper：开源的分布式协调系统，它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

HBase：数据库，HBase是一个开源的NoSQL(NoSQL＝Not Only SQL，意即“不仅仅是SQL”)数据库。

RegionServer：是HBase中提供服务的服务器，是HBase中最主要的组件，负责table(表)数据的实际读写。

Replication：复制，用在HBase中，即为HBase集群间同步的方法，即将Hlog(即Hbase的日志文件)里面的数据异步发送到备集群。

Solr：搜素引擎，一种基于Lucene的全文搜索引擎。

ES：英文全称：Elasticsearch，英文简称：ES，基于Lucene的搜索服务器ElasticSearch:简称ES，和Solr一样，是另外一个基于Lucene的全文搜索引擎。

WAL：Write-Ahead-Log，预写日志，即HBase中在写入数据前，都会先写一条日志到磁盘上，防止数据丢失，这种日志称作WAL。

同步Schema：即用户用来指定HBase中哪些列同步到Solr/ES中的描述文件。

索引：特指将HBase的数据同步到搜索引擎中索引以便查询的过程。

在本说明书中，提供了数据处理方法。本说明书一个或者多个实施例同时涉及数据处理系统，数据处理装置，计算设备，以及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

Solr/ES是业界广泛应用的分布式全文检索。Solr/ES支持各种复杂的条件查询和全文索引。通过结合HBase，可以最大限度发挥HBase和Solr/ES各自的优点，从而可以构建复杂的大数据存储和检索服务。HBase+Solr/ES适用于：需要保存大数据量数据，而查询条件的字段数据仅占原数据的一小部分，并且需要各种条件组合查询的应用场景，例如：

常见物流应用场景：需要存储大量轨迹物流信息，并需要根据多个字段任意组合查询条件进行数据查询；

交通监控应用场景：保存大量过车记录，同时会根据车辆信息任意条件组合检索出感兴趣的记录；

各种网站会员、商品信息检索场景：一般保存大量的商品/会员信息，并需要根据少量条件进行复杂且任意的查询，以满足网站用户任意搜索需求等。

基于此，本说明书实施例提供了一种将Hbase中写入的数据按照用户的需求同步写入到Solr/ES搜索引擎中的数据处理方法，以实现即可以保存大数据量数据，又可以支持各种条件组合查询的应用场景。

参见图1，图1示出了根据本说明书一个实施例提供的一种数据处理系统实现HBase+Solr/ES架构的示意图，包括：数据库102(即HBase)、同步模块104以及搜索引擎106(即Solr/ES)，其中，HBase包括服务模块1022(即Hbase中的RegionServer)和索引模块1024。

首先，用户向数据库102写入数据，数据库102的服务模块1022在接收到用户写入的数据之后，通过索引模块1024同步获取预设的数据管理文件(即同步Schema)，数据管理文件中存储的为用户用来指定数据库102中哪些列同步到搜索引擎106中的描述信息，通过该数据管理文件可以判断出用户写入的数据是否要同步写入到搜素引擎106中，若是，则将用户写入的数据按照特殊的格式形成日志数据，存储到预写日志中；若否，则将用户写入的数据按照普通格式形成日志数据，存储到预写日志中；

而同步模块104会实时或者按照预设的时间间隔对预写日志进行监控，在监控到预写日志中有新写入的日志数据时，会将新写入的日志数据读取出来，而同时数据库102的索引模块1024也会将数据管理文件同步到同步模块104，此时，同步模块104根据数据管理文件判断新写入的日志数据是否要同步写入到搜素引擎106中，若是，则同步模块104将新写入的日志数据进行解析以及进行格式转换等写入搜索引擎106中，若否，则同步模块104不对新写入的日志数据进行任何处理；

在另外一种可实现的方案中，同步模块104在监控到预写日志中存在新写入的日志数据时，可以直接通过对新写入的日志数据的存储格式的判断，来确定该新写入的日志数据是否要写入到搜索引擎106中，例如同步模块104可以将特殊格式的新写入的日志数据同步写入到搜索引擎106中，而对普通格式的新写入的日志数据不做任何处理。

具体的，本说明书实施例中，将用户写入的数据按照特殊格式写入预写日志，即为将用户写入的数据按照：数据库的原始预写日志+写入时间戳+待写入搜索引擎的索引列与用户写入的数据对应的行的交叉数据的格式写入到预写日志中；而将用户写入的数据按照普通格式写入预写日志，即为将用户写入的数据直接写入到预写日志中，不需要添加写入时间戳以及原始预写日志等。

本说明书实施例提供的所述数据处理系统，支持Solr/ES多种搜索引擎，无论同步多少张表，只需要读一遍WAL，同步模块104就会自动过滤出用户需要同步的表的数据，将其同步写入到搜索引擎106中，并且不再经过HBase102的Replication链路，直接读取WAL，大大提高同步效率，同时同步模块104可以独立于HBase102无限扩展，自由伸缩，以应对HBase102写入量大时，同步能力不足问题；此外，由于索引模块1024已经将需要索引的列全量写到了WAL中，同步模块106无需回读，不会对HBase102集群产生影响，索引模块1024在HBase102内部处理了HBase多版本，列时间戳，删除等诸多复杂问题，不会出现数据不一致的问题。

参见图2，图2示出了根据本说明书一个实施例提供的一种数据处理方法的流程图，包括以下步骤：

步骤202：第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件。

其中，第一数据存储装置即可以理解为上述的数据库HBase，即分布式数据库，而第一数据既可以为更新数据，也可以为新写入的数据；例如分布式数据库的表中预先存在第一数据：小a的手机号131***，而第一数据存储装置接收写入的第一数据为：小a的手机号132***，此时则可以确定第一数据存储装置接收的第一数据为更新数据，即将小a的手机号由131***更新为132***；若分布式数据库的表中之前不存在第一数据，则该第一数据即为新写入的数据。

实际应用中，在第一数据存储装置为分布式数据库的情况下，相应的，所述第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件包括：

所述分布式数据库接收写入的第一数据，且获取预设的数据管理文件。

具体的，在第一数据存储装置为分布式数据库的情况下，本说明书实施例中，对应的第二数据存储装置为搜索引擎，具体的，所述将所述第一数据写入所述第二数据存储装置包括：

将所述第一数据写入所述搜索引擎。

其中，搜索引擎包括Solr以及ES。

本说明书实施例中，第一数据存储装置为分布式数据库，第二数据存储装置为搜索引擎，采用此种HBase+Solr/ES的结构支持本说明书实施例提供一种将Hbase中写入的数据按照用户的需求同步写入到Solr/ES搜索引擎中的数据处理方法，实现既可以保存大数据量数据，又可以支持各种条件组合查询。

具体的，第一数据存储装置接收写入的第一数据，即可以理解为数据库接收用户更新或新写入的第一数据，例如数据库中存储的为公司员工个人信息档案表，那么数据库接收的则可以为用户更新的员工手机号或者是新入职的员工的个人信息等。

其中，预设的数据管理文件可以参见上述实施例中对数据管理文件(即同步Schema)的描述，具体实施时，数据管理文件中可以存储：用户用来指定数据库中哪些列同步到搜索引擎(即第二数据存储装置)的描述信息或者是用户用来指定数据库中的哪些类型的数据同步到搜素引擎的描述信息等。

仍以数据库中存储的为公司员工个人信息档案表为例，数据管理文件中可以包括：将数据库中的手机号列、姓名列同步到搜索引擎的描述信息，或者是将数据库中的数值型数据(例如手机号、年龄、身高、体重等)同步到搜索引擎的描述信息等。

步骤204：在根据所述数据管理文件确定所述第一数据为目标数据的情况下，将所述第一数据按照第一预设要求写入日志文件。

具体的，在第一数据存储装置接收写入的第一数据后，可以对该第一数据进行解析，以确定该第一数据对应的列或者是对应的类型。

而在确定该第一数据对应的列或者对应的类型之后，根据所述数据管理文件中的描述信息就可以判断该第一数据是否为目标数据，即第一数据对应的列与数据管理文件中待写入第二数据存储装置的列匹配的情况下，可以确定第一数据为目标数据，或者第一数据对应的类型与数据管理文件中待写入第二数据存储装置的目标数据类型匹配的情况下，也可以确定第一数据为目标数据，其中，目标数据即为待写入第二数据存储装置的数据。

具体实施时，所述数据管理文件包括索引列；

所述根据所述数据管理文件确定所述第一数据为目标数据包括：

根据所述数据管理文件确定所述第一数据对应的列为所述索引列，将所述第一数据确定为目标数据。

其中，所述数据管理文件包括索引列，可以理解为数据管理文件中包括用户指定哪些索引列需要同步到第二数据存储装置。

具体的，首先对第一数据进行解析，以确定该第一数据对应哪一列，若该列对应的为数据管理文件中的索引列，则可以确定该第一数据为待写入第二数据存储装置的数据，即目标数据。

本说明书实施例中，通过数据管理文件中的索引列与第一数据对应的列的匹配关系，可以快速的确定出该第一数据是否为目标数据，以便后续可以将作为目标数据的第一数据按照第一预设要求写入日志文件中，实现对写入第二数据存储装置的目标数据的第一次筛选。

本说明书另一种可实现方案中，所述数据管理文件包括目标数据类型；

根据所述数据管理文件确定所述第一数据对应的类型为所述目标数据类型，将所述第一数据确定为目标数据。

其中，所述数据管理文件包括目标数据类型，可以理解为数据管理文件中包括用户指定哪些类型的数据需要同步到第二数据存储装置。

具体的，首先对第一数据进行解析，以确定该第一数据对应的类型，例如数值类型、字符类型等，若数据管理文件包括的目标数据类型为数值类型，而第一数据对应的类型也为数值类型，此时，则可以确定该第一数据为待写入第二数据存储装置的数据，即目标数据；而若第一数据对应的类型为字符类型，则可以确定该第一数据不是待写入第二数据存储装置的数据，非目标数据。

本说明书实施例中，通过数据管理文件中的目标数据类型与第一数据对应的类型的匹配关系，可以快速的确定出该第一数据是否为目标数据，以便后续可以将作为目标数据的第一数据按照第一预设要求写入日志文件中，实现对写入第二数据存储装置的目标数据的第一次筛选。

实际应用中，在根据上述任意一种方式确定第一数据为目标数据的情况下，即可将第一数据按照第一预设要求写入日志文件中。

本说明书另一实施例中，所述将所述第一数据按照第一预设要求写入日志文件包括：

根据所述数据管理文件以及所述第一数据确定第二数据；

获取未写入所述第一数据的日志文件、所述第一数据的写入时间戳、以及所述第二数据；

将所述未写入所述第一数据的日志文件、所述第一数据的写入时间戳、所述第二数据进行组合，写入所述日志文件。

其中，未写入所述第一数据的日志文件，可以理解为写入所述第一数据之前的原始日志文件。

具体的，所述根据所述数据管理文件以及所述第一数据确定第二数据包括：

根据所述数据管理文件确定索引列，且确定所述第一数据对应的行；

将所述第一数据对应的行与索引列交叉的数据确定为所述第二数据。

沿用上例，若数据管理文件中的索引列为手机号列以及姓名列，第一数据对应的列为手机号列，对应的行为手机号列的第1行，那么第二数据则为第1行与手机号列、姓名列交叉位置的行数据，即第1行、手机号列的数据以及第1行的姓名列的数据。

具体的，确定第一数据为待写入第二数据存储装置的目标数据之后，获取未写入该第一数据的原始日志文件、该第一数据的写入时间戳以及第二数据，然后将这些数据进行组合后形成特殊格式的、新的日志数据写入到日志文件中，以确保后续同步装置可以直接基于该特殊格式的日志数据即可实现同步写入搜索引擎，提高同步效率。

具体实施时，第一数据存储装置会实时接收用户写入的第一数据，若在同步装置将第一数据写入第二数据存储装置之前，第一数据存储装置已经在预写日志中写入了三个版本的第一数据，那么同步装置在将第一数据写入第二数据存储装置的时候就有可能将最先写入预写日志的第一数据同步到第二数据存储装置，而实际是需要将最后写入预写日志的第一数据同步到第二数据存储装置才能保证数据的准确性，因此基于此种情况，第一数据存储装置会为每一个第一数据添加写入时间戳，后续同步装置可以根据写入时间戳选择最后写入的第一数据，将其同步到第二数据存储装置。

参见图3，图3为本说明书一个或多个实施例提供的一种数据处理方法中将第一数据写入日志文件的具体场景示意图。

步骤一：用户写入第一数据为row1，列名为f：q1这一列；

具体的，用户写入第一数据为row1，列名为f：q1这一列，即可以理解为第一数据存储装置的索引模块确定第一数据存储装置接收的用户写入的第一数据的位置为第一行，列名为f：q1这一列。

步骤二：获取数据管理文件，得知f：q1、f：q2这两列需要同步；

具体的，获取数据管理文件，得知f：q1、f：q2这两列需要同步，即可以理解为第一数据存储装置的索引模块获取同步Schema信息，通过该同步Schema信息得知f：q1、f：q2这两列需要同步写入到第二数据存储装置。

步骤三：获取f：q2这一列数据，补全整行；

具体的，获取f：q2这一列数据，补全整行，即可以理解为第一数据存储装置的索引模块向服务模块获取f：q2这一列在row1行的数据，补全row1。

步骤四：将整行数据写入日志文件；

具体的，将整行数据写入日志文件，就可以理解为索引模块将row1在f：q1、f：q2这两列的数据写入日志文件WAL。

具体实施时，在将整行数据写入日志文件时，第一数据存储装置的索引模块会对写入WAL的格式进行改变，新的WAL格式参见图4，除了原始HBase的WAL信息外，索引模块会在WAL中附加一个当前时间戳(即第一数据的写入时间戳)，并将待写入搜索引擎的索引列与第一数据对应的行的交叉位置数据都附在WAL上。其中，当前时间戳在写入Solr时用来判断是否为最新数据，这是处理HBaseWAL乱序的情况下，Solr数据不会错误的关键，而整行数据写入WAL是让同步模块不用回读的关键。

参见图4，图4为本说明书一个或多个实施例提供的一种数据处理方法中按照第一预设要求写入日志文件的第一数据的写入格式示意图。

仍以上述为例，图4中包括三部分，第一部分为原始WAL信息，即未写入第一数据之前的日志文件，HBase原始WAL、第二部分为timestamp，当前时间戳，即第一数据写入时的写入时间戳、第三部分为<row1，f：q1，f：q2>，即需要写入搜索引擎的索引列与写入数据的行交叉位置的行数据。

本说明书实施例中，在第一数据为待写入搜索引擎的目标数据时，数据库会将原始日志文件、第一数据的写入时间戳以及需要写入搜索引擎的索引列与写入数据的行交叉位置的数据进行组合后，写入到日志文件中，以形成新的日志数据，后续同步装置在将该新的日志数据同步写入搜索引擎时，可以根据新的日志数据中的当前时间戳确定最新的数据，避免写入搜索引擎中的数据出现乱序，并且根据新的日志数据中的原始日志文件，可以确定出数据管理文件中的索引列对应的行数据，无需进行数据回读，提升同步效率。

本说明书另一实施例中，所述第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件之后，还包括：

在根据所述数据管理文件确定所述第一数据为非目标数据的情况下，将所述第一数据按照第二预设要求写入日志文件。

具体的，第二预设要求不同于第一预设要求，因此按照第一预设要求写入日志文件的第一数据的格式与按照第二预设要求写入日志文件的第一数据的格式不同，对非目标数据的第一数据按照第二预设要求写入日志文件，可以使得后续仅通过日志文件中的第一数据的数据格式即可以区分出哪些为目标数据，哪些为非目标数据。

实际应用中，将第一数据按照第二预设要求写入日志文件，可以理解为仅将第一数据或者是仅将第一数据与第一数据的写入时间戳写入日志文件，由于非目标数据的第一数据是不需要同步写入到搜索引擎的，因此仅将第一数据写入日志文件可以减少写入数据量，降低日志文件的存储空间使用率，此外，另一种可实现方案中，将第一数据以及第一数据的写入时间戳一同写入日志文件，可以便于后续基于该写入时间戳查询日志文件的最新写入数据，提高用户体验。

步骤206：同步装置在监控到所述第一数据被写入到所述日志文件，且确定所述第一数据为所述目标数据的情况下，将所述第一数据写入所述第二数据存储装置。

其中，本说明书实施例中的同步装置可以参见上述实施例对同步装置的介绍，在此不做赘述。

同步装置会实时或按照预设时间间隔(例如每隔2秒等)监控日志文件，在监控到日志文件中被写入第一数据的情况下，会对该第一数据进行判断，在该第一数据确定为目标数据的情况下，将第一数据写入第二数据存储装置。

本说明书实施例中，判断写入日志文件的第一数据是否为目标数据的方案至少包括两种，具体实现方式如下所述：

第一种，所述确定所述第一数据为所述目标数据包括：

获取被写入到所述日志文件的所述第一数据，且确定所述第一数据在所述日志文件中的存储格式；

在所述存储格式与所述第一数据按照所述第一预设要求写入到所述日志文件的写入格式相同的情况下，确定所述第一数据为目标数据。

具体的，同步装置在监控到第一数据被写入到日志文件中时，从该日志文件中获取该第一数据，并且对该第一数据进行解析，以确定该第一数据在日志文件中的存储格式；然后将该第一数据在日志文件中的存储格式与该第一数据按照第一预设要求写入到日志文件的写入格式相比较，在格式相同的情况下，确定该第一数据为目标数据，若格式不同，则可以确定第一数据不是按照第一预设要求写入到日志文件中的，即非目标数据。

本说明书实施例提供的所述数据处理方法，仅通过第一数据在日志文件中的存储格式，即可以确定出该第一数据是否为目标数据，实现对目标数据的第二次筛选，以确定写入搜索引擎的目标数据的准确性。

第二种，所述确定所述第一数据为所述目标数据包括：

获取被写入到所述日志文件的所述第一数据，且获取所述数据管理文件；

根据所述数据管理文件确定被写入到所述日志文件的所述第一数据为所述目标数据。

具体实施时，所述根据所述数据管理文件确定被写入到所述日志文件的所述第一数据为所述目标数据包括：

根据所述数据管理文件确定被写入到所述日志文件的所述第一数据对应的列为索引列的情况下，确定所述第一数据为所述目标数据；或者

根据所述数据管理文件确定被写入到所述日志文件的所述第一数据对应的类型为目标数据类型的情况下，确定所述第一数据为所述目标数据。

具体的，同步装置在监控到第一数据被写入到日志文件中时，从该日志文件中获取该第一数据，同时获取数据管理文件，根据数据管理文件中的索引列或目标数据类型确定被写入到所述日志文件的所述第一数据对应的列为所述索引列或第一数据对应的类型为目标数据类型的情况下，确定所述第一数据为所述目标数据。

本说明书实施例提供的所述数据处理方法，通过数据管理文件判断该第一数据是否为目标数据，实现对目标数据的第二次筛选，以确定写入搜索引擎的目标数据的准确性。

参见图5，图5是示出了本说明书一个实施例提供的一种数据处理方法中同步装置的处理示意图。

实际应用中，同步装置为一个开源的分布式协调系统，例如Zookeeper，其中，分布式协调系统Zookeeper中包括主节点(Master节点)以及工作节点(Worker节点)。具体实施时，Master节点负责轮询HBase(第一数据存储装置)产生的WAL(预写日志)文件，如果WAL中存在新的日志数据，Master节点在确定新的日志数据为待写入搜索引擎(第二数据存储装置)的情况下，会将WAL的新的日志数据的同步任务分配给Worker节点，再由Worker节点将HBase接收并写入WAL的新的日志数据转化成Solr/ES(搜索引擎)能够识别的数据写入搜素引擎，即本说明书实施例中，同步装置使用了Zookeeper做分布式协调和任务持久化存储，使得同步装置可以独立于HBase无限扩展，自由伸缩，以应对HBase写入量大时同步能力不足问题。

本说明书实施例提供的所述数据处理方法，第一数据存储装置在接收到为目标数据的第一数据后，将第一数据按照特殊的格式存储到日志文件中，同步模块在监控到日志文件中被写入，需要同步写入到搜索引擎的第一数据之后，可以直接从该日志文件中获取按照特殊格式存储到日志文件的第一数据，将其解析并同步写入到搜索引擎中，无需去数据库中回读该第一数据，提升了同步效率，并且按照特殊格式存储到日志文件的第一数据中还携带有写入时间戳，在将其同步写入到搜索引擎时可以根据该写入时间戳保证同步写入搜索引擎的第一数据为最新数据，避免出现数据混乱。

参见图6，图6示出了本说明书一个实施例提供的一种数据处理方法应用于同步装置的处理过程流程图，具体包括以下步骤：

步骤602：监控日志文件。

具体的，日志文件可以理解为上述实施例中数据库写入第一数据的日志文件。

实际应用中，为了保证及时的将写入日志文件中的数据同步到搜索引擎中，可以实时的对日志文件进行监控；而一般情况下，实时对日志文件进行监控可能会占用较大的网络资源，因此为了既能保证日志文件中的数据同步到搜索引擎，又能节省网络资源占用，会采用每隔一段时间获取一次日志文件中的数据，将其同步到搜索引擎中，具体实现方式如下所述：

所述监控日志文件包括：

基于预设的时间间隔监控日志文件。

其中，时间间隔可以根据实际需求进行设置，例如设置2秒、3秒等，本申请对此不做任何限定。

步骤604：在监控到第一数据存储装置接收的第一数据被写入到所述日志文件的情况下，获取所述第一数据。

其中，第一数据存储装置可以理解为上述实施例的分布式数据库，即HBase，第一数据即为写入第一数据存储装置的第一数据。

具体的，同步装置对日志文件实时或按照预设时间间隔进行监控，若检测到该日志文件中被写入了第一数据存储装置接收的第一数据的情况下，则从该日志文件中获取该第一数据。

步骤606：确定所述第一数据为目标数据，且将所述第一数据写入第二数据存储装置。

其中，目标数据为待写入第二数据存储装置的数据，而确定第一数据是否为目标数据的方式至少包括两种：

第一种：所述确定所述第一数据为目标数据包括：

确定被写入到所述日志文件的第一数据在所述日志文件中的存储格式；

在所述存储格式与所述第一数据按照第一预设要求写入到所述日志文件的写入格式相同的情况下，确定所述第一数据为目标数据。

具体的，在获取第一数据之后，对该第一数据进行解析，以确定被写入到所述日志文件的该第一数据在所述日志文件中的存储格式；在确定所述存储格式与所述第一数据按照第一预设要求写入到所述日志文件的写入格式相同的情况下，确定所述第一数据为目标数据。

其中，所述第一预设要求包括将未写入所述第一数据的日志文件、第一数据的写入时间戳以及根据预设的数据管理文件和第一数据确定的第二数据进行组合。

那么第一数据按照第一预设要求写入到日志文件的写入格式即为：未写入所述第一数据的日志文件+第一数据的写入时间戳+第二数据，其中，根据预设的数据管理文件和第一数据确定的第二数据包括：

具体实施时，当对第一数据解析后，确定被写入到所述日志文件的第一数据在所述日志文件中的存储格式为：未写入所述第一数据的日志文件+第一数据的写入时间戳+第二数据；此时则可以确定第一数据在日志文件中的存储格式与写入日志文件中的写入格式相同，则可以确定第一数据为目标数据。

本说明书实施例中，通过第一数据在日志文件中的存储格式与第一数据被写入日志文件中的写入格式进行比对，可以快速、准确的确定出该第一数据是否为目标数据，以便后续可以将作为目标数据的第一数据写入第二数据存储装置。

第二种：所述确定所述第一数据为目标数据包括：

获取被写入到所述日志文件的所述第一数据，且获取预设的数据管理文件，其中，所述数据管理文件包括索引列；

在根据所述数据管理文件确定被写入到所述日志文件的所述第一数据对应的列为所述索引列的情况下，确定所述第一数据为所述目标数据。

其中，对于数据管理文件的详细描述可以参见上述实施例，在此不做赘述。

具体的，首先对被写入日志文件的第一数据进行解析，以确定该第一数据对应哪一列，若该第一数据对应的列为索引列的情况下，则可以确定第一数据为目标数据，即待写入第二数据存储装置的数据。

本说明书实施例中，通过数据管理文件中的索引列与第一数据对应的列的匹配关系，可以快速的确定出该第一数据是否为目标数据，以便后续可以将作为目标数据的第一数据写入第二数据存储装置。

本说明书实施例提供的所述数据处理方法，在监控到HBase的WAL中存在新写入的日志数据后，先对新写入的日志数据进行判断，在确定新写入的日志数据为待写入搜素引擎的数据后，直接读取WAL中的新写入的日志数据同步到搜索引擎，实现了一种低延迟高性能的HBase数据同步搜索引擎的方案，且WAL中直接写入了待写入搜索引擎的列对应的数据，同步过程中避免了回读，提升了同步效率，同时可以基于新写入的日志数据中的写入时间戳将最新写入的数据同步搜索引擎，避免数据混乱。

与上述方法实施例相对应，本说明书还提供了数据处理系统实施例，图7示出了本说明书一个实施例提供的一种数据处理系统的结构示意图。如图7所示，该系统包括：

第一数据存储装置702、同步装置704以及第二数据存储装置706，其中，

所述第一数据存储装置702，被配置为接收写入的第一数据，且获取预设的数据管理文件；

所述同步装置704，被配置为在监控到所述第一数据被写入到所述日志文件，且确定所述第一数据为所述目标数据的情况下，将所述第一数据写入所述第二数据存储装置706。

可选的，所述数据管理文件包括索引列；

所述第一数据存储装置702，进一步被配置为：

可选的，所述数据管理文件包括目标数据类型；

所述第一数据存储装置702，进一步被配置为：

可选的，所述同步装置704，进一步被配置为：

可选的，所述装置，还包括：

写入装置，被配置为在根据所述数据管理文件确定所述第一数据为非目标数据的情况下，将所述第一数据按照第二预设要求写入日志文件。

可选的，所述第一数据存储装置702，进一步被配置为：

根据所述数据管理文件以及所述第一数据确定第二数据；

可选的，所述第一数据存储装置702，进一步被配置为：

可选的，所述第一数据存储装置为分布式数据库，所述第二数据存储装置为搜索引擎；

相应的，所述第一数据存储装置702，进一步被配置为：

所述分布式数据库接收写入的第一数据，且获取预设的数据管理文件；

相应的，所述同步装置704，进一步被配置为：

将所述第一数据写入所述搜索引擎。

本说明书实施例提供的所述数据处理系统中，第一数据存储装置在接收到为目标数据的第一数据后，将第一数据按照特殊的格式存储到日志文件中，同步模块在监控到日志文件中被写入，需要同步写入到搜索引擎的第一数据之后，可以直接从该日志文件中获取按照特殊格式存储到日志文件的第一数据，将其解析并同步写入到搜索引擎中，无需去数据库中回读待写入第二数据装置的索引列与该写入数据对应的行交叉位置的数据，提升了同步效率，并且按照特殊格式存储到日志文件的第一数据中还携带有写入时间戳，在将其同步写入到搜索引擎时可以根据该写入时间戳保证同步写入搜索引擎的第一数据为最新数据，避免出现数据混乱。

上述为本实施例的一种数据处理系统的示意性方案。需要说明的是，该数据处理系统的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理系统的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，图8示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图8所示，该装置包括：

监控模块802，被配置为监控日志文件；

获取模块804，被配置为在监控到第一数据存储装置接收的第一数据被写入到所述日志文件的情况下，获取所述第一数据；

写入模块806，被配置为确定所述第一数据为目标数据，且将所述第一数据写入第二数据存储装置。

可选的，所述监控模块802，进一步被配置为：

基于预设的时间间隔监控日志文件。

可选的，所述写入模块806，进一步被配置为：

本说明书实施例提供的所述数据处理装置，在监控到HBase的WAL中存在新写入的日志数据后，先对新写入的日志数据进行判断，在确定新写入的日志数据为待写入搜素引擎的数据后，直接读取WAL中的新写入的日志数据同步到搜索引擎，实现了一种低延迟高性能的HBase数据同步搜索引擎的方案，且WAL中直接写入了待写入搜索引擎的列对应的数据，同步过程中避免了回读，提升了同步效率，同时可以基于新写入的日志数据中的写入时间戳将最新写入的数据同步搜索引擎，避免数据混乱。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

图9示出了根据本说明书一个实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

其中，处理器920用于执行如下计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述数据处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的数据处理方法，所述数据管理文件包括索引列；

3.根据权利要求1所述的数据处理方法，所述数据管理文件包括目标数据类型；

4.根据权利要求1所述的数据处理方法，所述确定所述第一数据为所述目标数据包括：

5.根据权利要求2或3所述的数据处理方法，所述确定所述第一数据为所述目标数据包括：

6.根据权利要求1所述的数据处理方法，所述第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件之后，还包括：

7.根据权利要求2所述的数据处理方法，所述将所述第一数据按照第一预设要求写入日志文件包括：

根据所述数据管理文件以及所述第一数据确定第二数据；

8.根据权利要求7所述的数据处理方法，所述根据所述数据管理文件以及所述第一数据确定第二数据包括：

9.根据权利要求1所述的数据处理方法，所述第一数据存储装置为分布式数据库，所述第二数据存储装置为搜索引擎；

相应的，所述第一数据存储装置接收写入的第一数据，且获取预设的数据管理文件包括：

相应的，所述将所述第一数据写入所述第二数据存储装置包括：

将所述第一数据写入所述搜索引擎。

10.一种数据处理系统，包括：

11.一种数据处理方法，包括：

监控日志文件；

12.根据权利要求11所述的数据处理方法，所述监控日志文件包括：

基于预设的时间间隔监控日志文件。

13.根据权利要求11所述的数据处理方法，所述确定所述第一数据为目标数据包括：

14.根据权利要求11所述的数据处理方法，所述确定所述第一数据为目标数据包括：

15.一种数据处理装置，包括：

监控模块，被配置为监控日志文件；

16.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1-9、或11-14任意一项所述数据处理方法的步骤。

17.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1-9、或11-14任意一项所述数据处理方法的步骤。