CN113553325B

CN113553325B - 一种对象存储系统中聚合对象的同步方法和系统

Info

Publication number: CN113553325B
Application number: CN202110676401.9A
Authority: CN
Inventors: 赵煜; 陶桐桐; 李欢欢
Original assignee: Inspur Jinan data Technology Co ltd
Current assignee: Inspur Jinan data Technology Co ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2025-02-21
Anticipated expiration: 2041-06-18
Also published as: CN113553325A

Abstract

本发明实施例中提供了一种对象存储系统中聚合对象的同步方法和系统，具体包括：从站点发送http请求，获取主站点的data_log中的桶分片信息；从站点通过所述桶分片信息中对象的索引信息，分析所述对象是否需要同步；若需要同步，则从站点发送get请求，获取主站点的所述对象；主站点根据所述对象的聚合特性读取所述对象的数据信息，并将所述对象的数据信息返回从站点；从站点按照预设的存储规则将所述对象的数据信息同步到从站点的存储集群中。本发明实施例提供的聚合对象的同步方法和系统，解决了对象存储系统中，站点间同步时同步特性和聚合特性不兼容的问题，提高了存储产品的适用性，提高了对象存储的竞争力。

Description

一种对象存储系统中聚合对象的同步方法和系统

技术领域

本发明涉及存储系统技术领域，具体涉及一种对象存储系统中聚合对象的同步方法和系统。

背景技术

随着云计算、移动互联网等技术的发展，对象存储系统中的对象呈现爆炸式增长的趋势，对象的数量多，操作频繁。

在对象存储系统中，聚合对象是将多个小于512k的小对象聚合成一个大对象。小对象中只存储该小对象的元数据信息，该小对象的数据信息存储在聚合大对象当中，聚合特性修改了对象在存储池的分布规则。

站点间同步时，从站点读取主站点的对象元数据信息和数据信息，然后写在本站点(从站点)；由于聚合特性，主站点将小对象头中的数据信息聚合在聚合大对象中，导致站点间同步时，读取对象的数据信息失败，造成了同步特性和聚合特性不兼容的问题。

发明内容

本发明实施例中提供了一种对象存储系统中聚合对象的同步方法和系统，以解决对象存储系统中，站点间同步时同步特性和聚合特性不兼容的问题。

本发明实施例公开了如下技术方案：

本发明第一方面提供了一种对象存储系统中聚合对象的同步方法，所述方法包括：

从站点发送http请求，获取主站点的data_log中的桶分片信息；

从站点通过所述桶分片信息中对象的索引信息，分析所述对象是否需要同步；

若需要同步，则从站点发送get请求，获取主站点的所述对象；

主站点根据所述对象的聚合特性读取所述对象的数据信息，并将所述对象的数据信息返回从站点；

从站点按照预设的存储规则将所述对象的数据信息同步到从站点的存储集群中。

进一步地，所述对象的索引信息按照hash规则分布在所述桶分片信息中。

进一步地，主站点根据所述对象的聚合特性读取所述对象的数据信息具体为：

若所述对象标记了聚合特性，则从主站点的SSD存储池中读取所述对象的数据信息；

若所述对象未标记聚合特性，则从主站点的SSD存储池中读取所述对象的元数据信息，并通过所述对象的元数据信息，从主站点的HDD存储池中获取所述对象的数据信息和偏移量。

进一步地，所述预设的存储规则包括分级特性和聚合特性；

分级特性，用于将对象存储在从站点的SSD存储池，为对象标记聚合特性；

聚合特性，用于将标记了聚合特性的多个所述对象的数据信息聚合为一个聚合对象，并将聚合对象存储在所述站点的HDD存储池中。

进一步地，所述分级特性具体包括：

将对象的元数据信息和对象的数据信息存储在从站点的SSD存储池中；

若所述对象的容量值小于第一预设值，则为所述对象标记聚合特性；

若所述对象的容量值大于等于第一预设值，则不为所述对象标记聚合特性。

进一步地，所述聚合特性具体包括：

按照预设的周期，将所述SSD存储池中数量等于第二预设值，且标记了聚合特性的多个所述对象的数据信息读取出来；

将多个所述对象的数据信息聚合为一个聚合对象；

将所述聚合对象的数据信息和偏移量存储在所述从站点的HDD存储池中；

删除所述SSD存储池中多个所述对象的数据信息。

本发明第二方面提供了一种对象存储系统中聚合对象的同步系统，基于所述方法实现，所述系统包括：

请求发送模块，用于发送http请求和get请求；

主站点，用于存储主站点的对象和data_log中的桶分片信息；

同步判断模块，用于判断主站点上的对象是否需要同步；

从站点，用于存储需要同步到从站点的对象的数据信息；

预设存储规则模块，用于预设对象在主站点和从站点中的存储规则；

对象分析模块，通过请求发送模块读取所述主站点中的对象和data_log中的桶分片信息，分析桶分片信息中的索引信息，将需要同步的对象写入从站点。

进一步地，所述预设存储规则模块包括：

分级特性单元，用于将对象存储在从站点的SSD存储池，为对象标记聚合特性；

聚合特性单元，用于将标记了聚合特性的多个所述对象的数据信息聚合为一个聚合对象，并将聚合对象存储在所述从站点的HDD存储池中。

进一步地，所述对象分析模块包括：

对象读取单元，根据所述对象的聚合特性，读取所述主站点中对象的元数据信息、对象的数据信息和data_log中的桶分片信息；

对象写入单元，将需要同步的对象写入从站点；

对象分析单元，分析桶分片信息中的索引信息。

进一步地，所述对象读取单元读取对象的过程，具体为：

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提供的对象存储系统中聚合对象的同步方法，从站点获取主站点的data_log中的桶分片信息；并通过所述桶分片信息中对象的索引信息，分析所述对象是否需要同步；若需要同步，主站点根据所述对象的聚合特性读取所述对象的数据信息，若所述对象标记了聚合特性，则从主站点的SSD存储池中读取所述对象的数据信息，若所述对象未标记聚合特性，则从主站点的SSD存储池中读取所述对象的元数据信息，并通过所述对象的元数据信息，从主站点的HDD存储池中获取所述对象的数据信息和偏移量；主站点将所述对象的数据信息返回从站点，从站点按照预设的存储规则将所述对象的数据信息同步到从站点的存储集群中。因此，本发明解决了对象存储系统中，站点间同步时同步特性和聚合特性不兼容的问题，提高了存储产品的适用性，提高了对象存储的竞争力。

本发明提供的对象存储系统中聚合对象的同步系统，请求发送模块发送http请求和get请求；主站点存储主站点的对象和data_log中的桶分片信息；同步判断模块判断主站点上的对象是否需要同步；从站点存储需要同步到从站点的对象的数据信息；预设存储规则模块预设对象在主站点和从站点中的存储规则；对象分析模块请求发送模块读取主站点中的对象和data_log中的桶分片信息，分析桶分片信息中的索引信息，将需要同步的对象写入从站点。若需要同步，主站点根据所述对象的聚合特性读取所述对象的数据信息，若所述对象标记了聚合特性，则从主站点的SSD存储池中读取所述对象的数据信息，若所述对象未标记聚合特性，则从主站点的SSD存储池中读取所述对象的元数据信息，并通过所述对象的元数据信息，从主站点的HDD存储池中获取所述对象的数据信息和偏移量。主站点将所述对象的数据信息返回从站点，从站点按照预设的存储规则将所述对象的数据信息同步到从站点的存储集群中。本发明所述系统解决了对象存储系统中，站点间同步时同步特性和聚合特性不兼容的问题，增加了多站点和聚合兼容性，提高了存储产品的适用性，提高了对象存储的竞争力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述方法流程图；

图2为本发明所述方法data_log中的桶分片信息结构图；

图3为本发明所述方法站点中对象的存储结构图；

图4为本发明系统结构框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

存储系统(Memory system)，指计算机中由存放程序和数据的各种存储设备、控制部件及管理信息调度的设备(硬件)和算法(软件)所组成的系统。计算机的主存储器不能同时满足存取速度快、存储容量大和成本低的要求，在计算机中必须有速度由慢到快、容量由大到小的多级层次存储器，以最优的控制调度算法和合理的成本，构成具有性能可接受的存储系统。存储系统的性能在计算机中的地位日趋重要，存储管理与组织的好坏影响到整机效率，现代的信息处理如图像处理、数据库、知识库对存储系统的要求很高。

由于科学计算和数据处理对存储系统的要求越来越高，需要不断改进已有的存储技术，研究新型的存储介质，改善存储系统的结构和管理。大规模集成电路和磁盘依然是主要的存储介质。

同步，是指两个存储集群之间进行数据同步冗余，这两个存储集群中一个正常使用，一个用来冗余备份，起到灾难后一个站点立刻接管另一个站点的作用，日常使用的存储集群为主站点，用来作为备份的存储集群为从站点。

桶分片(shard)，为bucket中对象(object)的索引信息。开启bucket shards模式下，一个bucket对应一个或多个rados object(分布式对象))。

data_log，开启多站点功能后，每上传或者删除一个对象，会在data_log中记录该对象所在的桶分片的信息。

实施例一：

如图1所示，为本发明实施例提供的对象存储系统中聚合对象的同步方法，所述方法包括：

从站点发送http请求，获取主站点的data_log中的桶分片信息；

从站点通过桶分片信息中对象的索引信息，分析对象是否需要同步；

若需要同步，则从站点发送get请求，获取主站点的对象；

主站点根据对象的聚合特性读取对象的数据信息，并将对象的数据信息返回从站点；

从站点按照预设的存储规则将对象的数据信息同步到从站点的存储集群中。

如图2所示，为本发明所述方法data_log中的桶分片信息结构图，为了提高对象存储的读写性能，将桶内对象的索引信息按照hash规则均匀分布在128个桶分片上，所以桶分片中存储的是对象的索引信息。

主站点根据对象的聚合特性读取对象的数据信息具体为：

若对象标记了聚合特性，则从主站点的SSD存储池中读取对象的数据信息；

若对象未标记聚合特性，则从主站点的SSD存储池中读取对象的元数据信息，并通过对象的元数据信息，从主站点的HDD存储池中获取对象的数据信息和偏移量(偏移量是该对象的数据信息存储在HDD存储池中的起始位置)。

预设的存储规则包括分级特性和聚合特性；

聚合特性，用于将标记了聚合特性的多个对象的数据信息聚合为一个聚合对象，并将聚合对象存储在站点的HDD存储池中。

未开启分级特性的对象存储系统方法，海量存储数据中文件大以亿为单位，数十数百亿的海量小文件都按照普通的文件数据存储方式存储在同一存储集群中。这样的存储方式会有几百亿个底层对象。当底层存储对象较高时，会对文件系统的性能、故障场景数据恢复以及磁盘利用率等有影响。

分级特性具体包括：将对象的元数据信息和对象的数据信息存储在从站点的SSD存储池中；若对象的容量值小于第一预设值，则为对象标记聚合特性；若对象的容量值大于等于第一预设值，则不为对象标记聚合特性；将未标记聚合特性的对象的数据信息从SSD存储池中读出，写入站点的HDD存储池中。在本实施例中，第一预设值设为512k。

在本实施例中，开启分级特性后，存储集群储存对象时，将小于512k的对象存储在SSD存储池中，将大于512k的对象存储在HDD存储池。

聚合特性具体包括：按照预设的周期，将SSD存储池中数量等于第二预设值，且标记了聚合特性的多个对象的数据信息读取出来；将多个对象的数据信息聚合为一个聚合对象；将聚合对象的数据信息和偏移量存储在从站点的HDD存储池中；删除SSD存储池中多个对象的数据信息。在本实施例中，第二预设值设为1024。

聚合特性依赖分级特性，开启分级聚合特性后，存储集群会将存储在SSD存储池中的对象的数据信息读取出来，1024个对象组成一个聚合对象，再将聚合对象写入到HDD存储池，然后删除存储在SSD存储池中1024个对象的数据信息。

如图3所示，为本发明所述方法站点中对象的存储结构图。每个对象包含两部分信息，数据信息data和元数据信息xattr两部分，xattr记录的是该对象的元数据信息，例如：创建时间、大小、聚合特性等一些自定义的元数据信息。

开启分级聚合特性后，容量值大于等于512k的对象在站点存储的过程为：

将对象的元数据信息和数据信息都存储在站点的SSD存储池中，不为对象标记聚合特性；将未标记聚合特性的对象的数据信息从SSD存储池中读出，写入站点的HDD存储池中。

开启分级聚合特性后，容量值小于512k的对象在站点存储的过程为：

将对象的元数据信息和数据信息都存储在站点的SSD存储池中，为对象标记聚合特性；

按照预设的周期，将SSD存储池中标记了聚合特性的1024个对象的数据信息读取出来；将1024个对象的数据信息聚合为一个聚合对象；将聚合对象的数据信息和偏移量存储在从站点的HDD存储池中；删除SSD存储池中多个对象的数据信息。

因此，本发明所述方法，从站点的存储集群包含SSD存储池和HDD存储池，主站点的存储集群也包含SSD存储池和HDD存储池。

本发明提供的对象存储系统中聚合对象的同步方法，从站点获取主站点的data_log中的桶分片信息；并通过所述桶分片信息中对象的索引信息，分析所述对象是否需要同步；若需要同步，主站点根据所述对象的聚合特性读取所述对象的数据信息，若所述对象标记了聚合特性，则从主站点的SSD存储池中读取所述对象的数据信息，若所述对象未标记聚合特性，则从主站点的SSD存储池中读取所述对象的元数据信息，并通过所述对象的元数据信息，从主站点的HDD存储池中获取所述对象的数据信息和偏移量；主站点将所述对象的数据信息返回从站点，从站点按照预设的存储规则将所述对象的数据信息同步到从站点的存储集群中。因此，本发明所述方法解决了对象存储系统中，站点间同步时同步特性和聚合特性不兼容的问题。本发明提出对象存储系统中聚合对象的同步方法，增加了多站点和聚合兼容性，提高了存储产品的适用性，提高了对象存储的竞争力。

实施例二：

如图2所示，为本发明提供的同步系统，基于所述方法实现，所述系统包括：

请求发送模块，用于发送http请求和get请求；

主站点，用于存储主站点的对象和data_log中的桶分片信息；

同步判断模块，用于判断主站点上的对象是否需要同步；

从站点，用于存储需要同步到从站点的对象的数据信息；

对象分析模块，通过请求发送模块读取主站点中的对象和data_log中的桶分片信息，分析桶分片信息中的索引信息，将需要同步的对象写入从站点。

为了提高对象存储的读写性能，将桶内对象的索引信息按照hash规则均匀分布在128个桶分片上，所以桶分片中存储的是对象的索引信息。

预设存储规则模块包括：

聚合特性单元，用于将标记了聚合特性的多个对象的数据信息聚合为一个聚合对象，并将聚合对象存储在从站点的HDD存储池中。

未开启分级特性的对象存储系统，海量存储数据中文件大以亿为单位，数十数百亿的海量小文件都按照普通的文件数据存储方式存储在同一存储集群中。这样的存储方式会有几百亿个底层对象。当底层存储对象较高时，会对文件系统的性能、故障场景数据恢复以及磁盘利用率等有影响。

分级特性单元用于定义分级特性，分级特性具体包括：将对象的元数据信息和对象的数据信息存储在从站点的SSD存储池中；

若对象的容量值小于第一预设值，则为对象标记聚合特性；若对象的容量值大于等于第一预设值，则不为对象标记聚合特性；将未标记聚合特性的对象的数据信息从SSD存储池中读出，写入站点的HDD存储池中。在本实施例中，第一预设值设为512k。

聚合特性单元用于定义聚合特性，聚合特性具体包括：按照预设的周期，将SSD存储池中数量等于第二预设值，且标记了聚合特性的多个对象的数据信息读取出来；将多个对象的数据信息聚合为一个聚合对象；将聚合对象的数据信息和偏移量存储在从站点的HDD存储池中；删除SSD存储池中多个对象的数据信息。在本实施例中，第二预设值设为1024。

聚合特性依赖分级特性，开启分级聚合特性后，预设存储规则模块的工作过程具体为：存储集群会将存储在SSD存储池中的对象的数据信息读取出来，1024个对象组成一个聚合对象，再将聚合对象写入到HDD存储池，然后删除存储在SSD存储池中1024个对象的数据信息。

开启分级聚合特性后，预设存储规则模块对容量值大于等于512k的对象在站点存储的过程为：将对象的元数据信息和数据信息都存储在站点的SSD存储池中，不为对象标记聚合特性；将未标记聚合特性的对象的数据信息从SSD存储池中读出，写入站点的HDD存储池中。

开启分级聚合特性后，预设存储规则模块对容量值小于512k的对象在站点存储的过程为：将对象的元数据信息和数据信息都存储在站点的SSD存储池中，为对象标记聚合特性；按照预设的周期，将SSD存储池中标记了聚合特性的1024个对象的数据信息读取出来；将1024个对象的数据信息聚合为一个聚合对象；将聚合对象的数据信息和偏移量存储在从站点的HDD存储池中；删除SSD存储池中多个对象的数据信息。

对象分析模块包括：

对象读取单元，根据对象的聚合特性，读取主站点中对象的元数据信息、对象的数据信息和data_log中的桶分片信息；

对象写入单元，将需要同步的对象写入从站点；

对象分析单元，分析桶分片信息中的索引信息。

对象读取单元读取对象的过程，具体为：

对象分析模块工作的具体过程为：

从站点通过请求发送模块向主站点发送http请求时，对象读取单元获取主站点的data_log中的桶分片信息；

对象分析单元分析桶分片信息中的索引信息给同步判断模块，同步判断模块判断主站点上的对象是否需要同步；

若需要同步，则从站点通过请求发送模块向主站点发送get请求，获取主站点的对象，对象读取单元根据对象的聚合特性，读取主站点中对象的元数据信息和对象的数据信息；

对象写入单元按照预预设存储规则模块定义的分级特性和聚合特性，将对象读取单元读取的需要同步的对象写入从站点的存储集群中。

因此，本发明所述系统，从站点的存储集群包含SSD存储池和HDD存储池，主站点的存储集群也包含SSD存储池和HDD存储池。

以上所述只是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也被视为本发明的保护范围。

Claims

1.一种对象存储系统中聚合对象的同步方法，其特征在于，所述方法包括：

从站点发送http请求，获取主站点的data_log中的桶分片信息；

从站点按照预设的存储规则将所述对象的数据信息同步到从站点的存储集群中；

主站点根据所述对象的聚合特性读取所述对象的数据信息具体为：

若所述对象未标记聚合特性，则从主站点的SSD存储池中读取所述对象的元数据信息，并通过所述对象的元数据信息，从主站点的HDD存储池中获取所述对象的数据信息和偏移量；

所述预设的存储规则包括分级特性和聚合特性；

聚合特性，用于将标记了聚合特性的多个所述对象的数据信息聚合为一个聚合对象，并将聚合对象存储在所述站点的HDD存储池中；

所述分级特性具体包括：

若所述对象的容量值大于等于第一预设值，则不为所述对象标记聚合特性；

所述聚合特性具体包括：

将多个所述对象的数据信息聚合为一个聚合对象；

删除所述SSD存储池中多个所述对象的数据信息。

2.根据权利要求1所述的一种对象存储系统中聚合对象的同步方法，其特征在于，所述对象的索引信息按照hash规则分布在所述桶分片信息中。

3.一种对象存储系统中聚合对象的同步系统，基于权利要求1-2任一项所述方法实现，其特征在于，所述系统包括：

请求发送模块，用于发送http请求和get请求；

主站点，用于存储主站点的对象和data_log中的桶分片信息；

同步判断模块，用于判断主站点上的对象是否需要同步；

从站点，用于存储需要同步到从站点的对象的数据信息；

4.根据权利要求3所述的一种对象存储系统中聚合对象的同步系统，其特征在于，所述预设存储规则模块包括：

5.根据权利要求4所述的一种对象存储系统中聚合对象的同步系统，其特征在于，所述对象分析模块包括：

对象写入单元，将需要同步的对象写入从站点；

对象分析单元，分析桶分片信息中的索引信息。

6.根据权利要求5所述的一种对象存储系统中聚合对象的同步系统，其特征在于，所述对象读取单元读取对象的过程，具体为：