CN105228033A

CN105228033A - 一种视频处理方法及电子设备

Info

Publication number: CN105228033A
Application number: CN201510535580.9A
Authority: CN
Inventors: 董培; 靳玉茹
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2016-01-06
Anticipated expiration: 2035-08-27
Also published as: CN105228033B

Abstract

本发明公开了一种视频处理方法及电子设备，所述方法包括：从视频帧中提取第一特征集，所述第一特征集包括：色矩特征、小波纹理特征、运动特征、局部关键点特征；基于所述第一特征集，计算得到第二特征集，所述第二特征集包括：运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征；利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理，从而得到视频摘要。

Description

一种视频处理方法及电子设备

技术领域

本发明涉及视频处理技术，尤其涉及一种视频处理方法及电子设备。

背景技术

智能终端，如智能手机已成为当今人们工作生活的随身伴侣，用户通过下载和自行拍摄的方式很容易积累大量的视频。尤其对于配备双目相机的手机，需要存储的数据量更大。面对容量相对有限的手机存储器，对视频文件的管理成为亟需解决的问题。

发明内容

为解决上述技术问题，本发明实施例提供了一种视频处理方法及电子设备。

本发明实施例提供的视频处理方法包括：

从视频帧中提取第一特征集，所述第一特征集包括：色矩特征、小波纹理特征、运动特征、局部关键点特征；

基于所述第一特征集，计算得到第二特征集，所述第二特征集包括：运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征；

利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理，从而得到视频摘要。

本发明实施例提供的电子设备包括：

提取单元，用于从视频帧中提取第一特征集，所述第一特征集包括：色矩特征、小波纹理特征、运动特征、局部关键点特征；

第一处理单元，用于基于所述第一特征集，计算得到第二特征集，所述第二特征集包括：运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征；

第二处理单元，用于利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理，从而得到视频摘要。

本发明实施例的技术方案中，从视频帧中提取色矩特征、小波纹理特征、运动特征、局部关键点特征；然后，基于所提取的色矩特征、小波纹理特征、运动特征、局部关键点特征，计算得到运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征；对运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征进行融合处理，从而得到视频摘要。如此，从原视频中提取出语义相对精炼和重要的视频段，从而有效减小电子设备中需要保存的数据量，提高电子设备存储器的利用效率和用户体验，也有利于用户日后从较小量的视频文件中定位到自己最想找到的视频。并且，本发明实施例的技术方案结合了来自视觉模态(visualmodality)和文字模态(textualmodality)的信息，能够更有效地捕捉视频内容的高级语义。在人脸注意力特征中结合场景中物体的深度信息，有利于从更全面的角度掌握高级语义。本发明实施例的技术方案不依赖于针对具体视频类型制定的启发探索式规则，能够适用于较宽泛的视频种类。

附图说明

图1为本发明实施例一的视频处理方法的流程示意图；

图2为本发明实施例二的视频处理方法的流程示意图；

图3为本发明实施例的视频摘要提取的整体流程图；

图4为本发明实施例的计算视频段的语义指示特征的流程图；

图5为本发明实施例一的电子设备的结构组成示意图；

图6为本发明实施例二的电子设备的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

在信息爆炸的时代，传统的视频数据浏览与管理方式已面临前所未有的挑战。因此，为视频用户提供简短且浓缩了原视频中关键信息的视频摘要具有重要的现实意义。视频摘要通常可分为动态和静态两种类型：动态视频摘要是原视频的缩短版本，其中可以包含一系列从原长版本提取出的视频段；而静态视频摘要可以由一组从原视频中提取出的关键帧构成。

传统的视频摘要通过提取视频中的视觉特征或文字特征来产生。然而，这一方向上的方法大多是采用启发摸索式的规则或简单的文字分析(如基于词频统计)。另外，传统的采用人脸特征的注意力模型方法仅考虑了检测出的人脸在场景中的平面位置和尺寸等信息，缺乏对深度信息的使用。

本发明实施例的技术方案基于用户的注意力模型、视频的语义信息和视频帧的深度信息通过迭代重加权的方式对视频段的相对重要性进行估计，从而产生动态视频摘要。

图1为本发明实施例一的视频处理方法的流程示意图，如图1所示，所述视频处理方法包括以下步骤：

步骤101：从视频帧中提取第一特征集，所述第一特征集包括：色矩特征、小波纹理特征、运动特征、局部关键点特征。

参照图3，首先，从视频帧中提取第一特征集，第一特征集为低级特征集，第一特征集包括四个低级特征：色矩特征、小波纹理特征、运动特征和局部关键点特征。

下面对第一特征集中的四个低级特征做详细描述。

(1)色矩特征

将一个视频帧在空间上划分为5×5(一共25个)不重叠的像素块，在每个像素块上为Lab色彩空间的三个通道分别计算出一阶矩和二阶三阶中心矩。该帧的25个像素块的色矩即构成该帧的色矩特征向量f_cm(i)。

(2)小波纹理特征

相似地，一个视频帧被划分为3×3(一共9个)不重叠的像素块，对每个块的亮度分量分别进行三级Haar小波分解，进而在水平、垂直和对角线方向上为每一级计算小波系数的方差。该视频帧的所有小波系数方差即构成本帧的小波纹理特征向量f_wt(i)。

(3)运动特征

人眼对视觉内容的变化具有敏感的识别力。基于这一基本原理，将一个视频帧划分为M×N个非重叠的像素块，每个块含有16×16个像素点，并通过运动估计算法计算出运动矢量v(i，m，n)。M×N个运动矢量即构成本视频帧的运动特征f_mv(i)。

(4)局部关键点特征

在语义级视频分析中，基于局部关键点的词袋(bagoffeatures，简称BoF)能够作为由全局信息计算出的特征的有力补充。因此，利用软加权的局部关键点特征来捕捉显著区域，该特征基于关键点在一个具有500个视觉词语的词汇表中的重要性而定义。具体地，第i个视频帧中的关键点由高斯差(DifferenceofGaussians，简称DoG)检测器获得，由尺度不变特征变换(Scale-InvariantFeatureTransform，简称SIFT)描述子进行表示，并被聚类到500个视觉词语中。关键点特征向量f_kp(i)被定义为：四近邻下的关键点与视觉词语的加权相似度。

步骤102：基于所述第一特征集，计算得到第二特征集，所述第二特征集包括：运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征。

接下来，基于这些低级特征，进一步计算出高级的视觉和语义特征，称为第二特征集，包括：运动注意力特征、基于深度信息的人脸注意力特征和视频段的语义指示特征。

接下来，基于以上低级特征，进一步为每一个任意给定的视频段χ_s(起始于第i₁(s)帧，终止于第i₂(s)帧)计算出高级的视觉和语义特征。视频分段由镜头切换检测来实现。

下面对第二特征集中的各个特征做详细描述。

(1)运动注意力特征

心理学领域对人类注意力的研究为计算机视觉领域的注意力建模奠定了不可或缺的基础。注意力的认知机制在对人类思维和活动的分析与理解方面十分关键，因而在挑选原视频中相对重要的内容构成视频摘要的过程中可以起到指导作用。本方案利用运动注意力模型计算适合于语义分析的高级运动注意力特征。

对于第i个视频帧中的第(m，n)个像素块，设计了一个包含周围5×5个(共25个)像素块的空间窗和一个包含7个像素块的时间窗，而且这两个窗都以第i帧的第(m，n)像素块为中心。将[0，2π)的相位范围平均划分为8个区间，在空间窗中统计出空间相位直方图在时间窗中统计出时间相位直方图从而可依下列公式得到空间一致性指示C_s(i，m，n)和时间一致性指示C_t(i，m，n)：

C_s(i，m，n)＝-∑_ζp_s(ζ)logp_s(ζ)(1a)

C_t(i，m，n)＝-∑_ζp_t(ζ)logp_t(ζ)(2a)

其中，

p_{s} (ζ) = H_{i, m, n}^{(s)} (ζ) / Σ_{ζ} H_{i, m, n}^{(s)} (ζ)

和

p_{t} (ζ) = H_{i, m, n}^{(t)} (ζ) / Σ_{ζ} H_{i, m, n}^{(t)} (ζ)

分别是空间窗和时间窗中的相位分布。接下来，第i帧的运动注意力特征被定义如下：

为了抑制相邻视频帧特征中的噪声，上面所得的运动注意力特征的序列将通过9阶中值滤波器的处理。对第s个视频段χ_s，其运动注意力特征由滤波后的单帧特征取值计算得到：

f_{M} (s) = \frac{1}{i_{2} (s) - i_{1} (s) + 1} Σ_{i = i_{1} (s)}^{i_{2} (s)} M O T (i) - - - (4 a)

(2)基于深度信息的人脸注意力特征

在视频中，人脸的出现通常可能指示较为重要的内容。本方案通过人脸检测算法获得每个视频帧中人脸(用字母j来索引)的面积A_F(j)和位置。对检测到的第j个人脸，基于与该视频帧对应的深度图像d_i和构成人脸的像素点集合{x|x∈Λ(j)}，定义如下的深度显著性D(j)：

D (j) = \frac{1}{| Λ (j) |} Σ_{x &Element; Λ (j)} d_{i} (x) - - - (5 a)

其中|Λ(j)|是第j个人脸所含像素点数。根据人脸在整个视频帧中的位置，还定义一个位置权重w_fp(j)来近似反映该人脸能从观众获得的相对关注度(越靠近视频帧中心的区域权重越大)，如表1所示：

表1

表1视频帧中不同区域所赋予的不同人脸权重。中心区域权重大，边缘区域权重小。

第i帧的人脸注意力特征可以计算为：

其中A_frm为视频帧的面积，D_max(i)＝max_xd_i(x)。为了降低人脸检测不准确性对本方案全局的影响，所得人脸注意力特征序列也将由中值滤波器(5阶)进行平滑。视频段χ_s的人脸注意力特征经下面公式由平滑后的特征{FAC(i)|i＝i₁(s)，...，i₂(s)}计算得到：

f_{F} (s) = \frac{1}{i_{2} (s) - i_{1} (s) + 1} Σ_{i = i_{1} (s)}^{i_{2} (s)} F A C (i) - - - (7 a)

(3)视频段的语义指示特征

参照图4，为了挖掘语义信息，本方案基于VIREO-374的374个概念和每个概念的三种支撑向量机(SupportVectorMachine，简称SVM)提取视频段的语义指示特征。支撑向量机基于前面介绍的色矩、小波纹理和局部关键点特征进行了训练，在预测中可以估计出一个给定的视频帧与概念之间的关系密切程度的概率值。计算视频段的语义指示特征的流程如图4所示：

对于视频段χ_s，首先提取出它的中间帧i_m(s)的色矩特征f_cm(i_m(s))、小波纹理特征f_wt(i_m(s))和局部关键点特征f_kp(i_m(s))，再通过支撑向量机的预测得到概率值{u_cm(s，j)，u_wt(s，j)，u_kp(s，j)|j＝1，2，...，374}，进而计算出概念密切度：

u (s, j) = \frac{u_{c m} (s, j) + u_{w t} (s, j) + u_{k p} (s, j)}{3} - - - (8 a)

接下来，对视频段对应的字幕信息进行处理。基于字幕词汇构成的集合Γ_st(s)与概念词汇的集合Γ_cp(j)，通过外部词典WordNet的相似性度量工具WordNet::Similarity，计算得到文字语义相似度：

κ (s, j) = \max_{γ &Element; Γ_{s t} (s)} \frac{1}{| Γ_{c p} (j) |} Σ_{ω &Element; Γ_{c p} (j)} η (γ, ω) - - - (9 a)

其中η(γ，ω)表示字幕词汇γ与概念词汇ω在WordNet::Similarity中的相似度取值。

为了减小不相关概念的影响，定义以下的文字相关程度：

ρ (s, j) = \{\begin{matrix} \frac{1}{Q} κ (s, j), & u (s, j) &Element; (0.5, 1] \\ 0, & u (s, j) &Element; [0, 0.5] \end{matrix} - - - (10 a)

其中Q是保证成立的归一化系数。由于支撑向量机给出的是两类分类问题的概率，在上面公式中自然地采用阈值0.5。

最后，视频段的语义指示特征f_E(s)定义为ρ(s，j)以u(s，j)为权重的加权和：

f_{E} (s) = Σ_{j = 1}^{374} ρ (s, j) u (s, j) - - - (11 a)

步骤103：利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理，从而得到视频摘要。

最后，利用一个迭代重加权的线性模型对三种高级特征进行融合，产生用户所需长度的视频摘要。

本发明实施例中，视频摘要将由对每个视频段的显著性分值来最终决定，因而采用如下的线性模型对三种高级特征进行融合，融合结果即为视频段的显著性分值：

f_SAL(s)＝w_M(s)f_M(s)+w_F(s)f_F(s)+w_E(s)f_E(s)(12a)

其中w_M(s)，w_F(s)和w_E(s)是特征的权重。在线性融合之前，每一种特征都分别被归一化到区间[0，1]。

下面通过一种迭代重加权的方法计算出特征权重。在第k次迭代中，权值w_#(s)(#∈{M，F，E})由下列宏观因子α_#(s)和微观因子β_#(s)的乘积(即w_#(s)＝α_#(s)·β_#(s))决定：

α_{#} (s) = 1 - \frac{r_{#} (s)}{N_{S}} - - - (13 a)

β_{#}^{(k)} (s) = 1 + \frac{f_{#} (s^{(k)}) - f_{#} (s^{' (k - 1)})}{f_{#} (s^{(k)}) + f_{#} (s^{' (k - 1)})} - - - (14 a)

其中r_#(s)是特征f_#(s)在{f_#(s)|s＝1，2，...，N_S}经过降序排列之后的排名，N_S是视频中视频段的总数。接下来，可以计算出视频段的显著性f_SAL(s)并将其序列降序排列。根据用户所需长度，按照f_SAL(s)从高到低将视频段逐个入选视频摘要。

在首次迭代过程开始前，按照等权重的原则对特征权值进行初始化。迭代过程经过15次结束。

本发明实施例的技术方案，首先从视频帧中提取出色矩、小波纹理、运动和局部关键点等低级特征。接下来，基于这些低级特征，进一步计算出高级的视觉和语义特征，包括运动注意力特征、考虑深度信息的人脸注意力特征和视频段的语义指示特征。然后，利用一个迭代重加权的线性模型对三种高级特征进行融合，产生用户所需长度的视频摘要。

图2为本发明实施例二的视频处理方法的流程示意图，如图2所示，所述视频处理方法包括以下步骤：

步骤201：从视频帧中提取第一特征集，所述第一特征集包括：色矩特征、小波纹理特征、运动特征、局部关键点特征。

下面对第一特征集中的四个低级特征做详细描述。

(1)色矩特征

(2)小波纹理特征

(3)运动特征

(4)局部关键点特征

步骤202：根据所述第一特征集中的运动特征，计算得到运动注意力特征。

C_s(i，m，n)＝-∑_ζp_s(ζ)logp_s(ζ)(1b)

C_t(i，m，n)＝-∑_ζp_t(ζ)logp_t(ζ)(2b)

其中，

p_{s} (ζ) = H_{i, m, n}^{(s)} (ζ) / Σ_{ζ} H_{i, m, n}^{(s)} (ζ)

和

p_{t} (ζ) = H_{i, m, n}^{(t)} (ζ) / Σ_{ζ} H_{i, m, n}^{(t)} (ζ)

f_{M} (s) = \frac{1}{i_{2} (s) - i_{1} (s) + 1} Σ_{i = i_{1} (s)}^{i_{2} (s)} M O T (i) - - - (4 b)

步骤203：通过人脸检测算法获得每个视频帧中人脸的面积和位置，基于与该视频帧对应的深度图像和构成人脸的像素点集合，计算得到基于深度信息的人脸注意力特征。

D (j) = \frac{1}{| Λ (j) |} Σ_{x &Element; Λ (j)} d_{i} (x) - - - (5 b)

其中|Λ(j)|是第j个人脸所含像素点数。根据人脸在整个视频帧中的位置，还定义一个位置权重wfp(j)来近似反映该人脸能从观众获得的相对关注度(越靠近视频帧中心的区域权重越大)，如表1所示：

表1

第i帧的人脸注意力特征可以计算为：

f_{F} (s) = \frac{1}{i_{2} (s) - i_{1} (s) + 1} Σ_{i = i_{1} (s)}^{i_{2} (s)} F A C (i) - - - (7 b)

步骤204：所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测，得到概念密切度。

本发明实施例中，基于所述色矩特征、小波纹理特征和局部关键点特征，训练支撑向量机。支撑向量机选用LibSVM包，对色矩特征和小波纹理特征采用径向基核函数(radialbasisfunction，简称RBF)，而对局部关键点特征采用Chi方核(Chi-squarekernel)。

参照图4，为了挖掘语义信息，本方案基于VIREO-37的374个概念(semanticconcept)和每个概念的三种支撑向量机(SVM，SupportVectorMachine)提取视频段的语义指示特征。支撑向量机基于前面介绍的色矩、小波纹理和局部关键点特征进行了训练，在预测中可以估计出一个给定的视频帧与概念之间的关系密切程度的概率值。计算视频段的语义指示特征的流程如图4所示：

u (s, j) = \frac{u_{c m} (s, j) + u_{w t} (s, j) + u_{k p} (s, j)}{3} - - - (8 b)

本发明实施例中，利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息；或者，

从所述视频帧的字幕中获得与视频内容相关的文字信息。

步骤205：基于所述文字信息和概念词汇信息，计算得到文字语义相似度。

接下来，对视频段对应的字幕(subtitle)信息进行处理。基于字幕词汇构成的集合Γ_st(s)与概念词汇的集合Γ_cp(j)，通过外部词典WordNet的相似性度量工具WordNet::Similarity，计算得到文字语义相似度(textualsemanticsimilarity)：

κ (s, j) = \max_{γ &Element; Γ_{s t} (s)} \frac{1}{| Γ_{c p} (j) |} Σ_{ω &Element; Γ_{c p} (j)} η (γ, ω) - - - (9 b)

为了减小不相关概念的影响，定义以下的文字相关程度(textualrelatedness)：

ρ (s, j) = \{\begin{matrix} \frac{1}{Q} κ (s, j), & u (s, j) &Element; (0.5, 1] \\ 0, & u (s, j) &Element; [0, 0.5] \end{matrix} - - - (10 b)

步骤206：基于所述文字语义相似度和所述概念密切度，计算得到所述语义指示特征。

u (s, j) = \frac{u_{c m} (s, j) + u_{w t} (s, j) + u_{k p} (s, j)}{3} - - - (8 b)

κ (s, j) = \max_{γ &Element; Γ_{s t} (s)} \frac{1}{| Γ_{c p} (j) |} Σ_{ω &Element; Γ_{c p} (j)} η (γ, ω) - - - (9 b)

为了减小不相关概念的影响，定义以下的文字相关程度：

ρ (s, j) = \{\begin{matrix} \frac{1}{Q} κ (s, j), & u (s, j) &Element; (0.5, 1] \\ 0, & u (s, j) &Element; [0, 0.5] \end{matrix} - - - (10 b)

f_{E} (s) = Σ_{j = 1}^{374} ρ (s, j) u (s, j) - - - (11 b)

步骤207：按照特征权重值对第二特征集中的各个特征进行线性叠加，得到视频段的显著性分值。

f_SAL(s)＝w_M(s)f_M(s)+w_F(s)f_F(s)+w_E(s)f_E(s)(12b)

α_{#} (s) = 1 - \frac{r_{#} (s)}{N_{S}} - - - (13 b)

β_{#}^{(k)} (s) = 1 + \frac{f_{#} (s^{(k)}) - f_{#} (s^{' (k - 1)})}{f_{#} (s^{(k)}) + f_{#} (s^{' (k - 1)})} - - - (14 b)

其中r_#(s)是特征f_#(s)在{f_#(s)|s＝1，2，...，N_S}经过降序排列之后的排名，N_S是视频中视频段的总数。接下来，可以计算出视频段的显著性f_SAL(s)并将其序列降序排列。根据用户所需长度，能够根据f_SAL(s)从高到低将视频段逐个入选视频摘要。

图5为本发明实施例一的电子设备的结构组成示意图，如图5所示，所述电子设备包括：

提取单元51，用于从视频帧中提取第一特征集，所述第一特征集包括：色矩特征、小波纹理特征、运动特征、局部关键点特征；

第一处理单元52，用于基于所述第一特征集，计算得到第二特征集，所述第二特征集包括：运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征；

第二处理单元53，用于利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理，从而得到视频摘要。

本领域技术人员应当理解，图5所示的电子设备中的各单元的实现功能可参照前述视频处理方法的相关描述而理解。图5所示的电子设备中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

图6为本发明实施例二的电子设备的结构组成示意图，如图6所示，所述电子设备包括：

提取单元61，用于从视频帧中提取第一特征集，所述第一特征集包括：色矩特征、小波纹理特征、运动特征、局部关键点特征；

第一处理单元62，用于基于所述第一特征集，计算得到第二特征集，所述第二特征集包括：运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征；

第二处理单元63，用于利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理，从而得到视频摘要。

所述第一处理单元62包括：

运动注意力特征子单元621，用于根据所述第一特征集中的运动特征，计算得到运动注意力特征；

人脸注意力特征子单元622，用于通过人脸检测算法获得每个视频帧中人脸的面积和位置，基于与该视频帧对应的深度图像和构成人脸的像素点集合，计算得到基于深度信息的人脸注意力特征。

所述电子设备还包括：

训练单元64，用于基于所述色矩特征、小波纹理特征和局部关键点特征，训练支撑向量机。

所述电子设备还包括：

文字提取单元65，用于利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息；或者，从所述视频帧的字幕中获得与视频内容相关的文字信息。

所述第一处理单元62包括：

语义指示特征子单元623，用于利用所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测，得到概念密切度；基于所述文字信息和概念词汇信息，计算得到文字语义相似度；基于所述文字语义相似度和所述概念密切度，计算得到所述语义指示特征。

所述第二处理单元63包括：

线性叠加子单元631，用于按照特征权重值对第二特征集中的各个特征进行线性叠加，得到视频段的显著性分值；

视频摘要子单元632，用于按照预设的摘要长度，根据视频段的显著性分值从高到低的顺序将视频段逐个选为视频摘要。

本领域技术人员应当理解，图6所示的电子设备中的各单元的实现功能可参照前述视频处理方法的相关描述而理解。图6所示的电子设备中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种视频处理方法，所述方法包括：

2.根据权利要求1所述的视频处理方法，所述基于所述第一特征集，计算得到第二特征集，包括：

根据所述第一特征集中的运动特征，计算得到运动注意力特征；

通过人脸检测算法获得每个视频帧中人脸的面积和位置，基于与该视频帧对应的深度图像和构成人脸的像素点集合，计算得到基于深度信息的人脸注意力特征。

3.根据权利要求1所述的视频处理方法，所述方法还包括：

利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息；或者，

从所述视频帧的字幕中获得与视频内容相关的文字信息。

4.根据权利要求3所述的视频处理方法，所述方法还包括：

基于所述色矩特征、小波纹理特征和局部关键点特征，训练支撑向量机；

所述基于所述第一特征集，计算得到第二特征集，包括：

所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测，得到概念密切度；

基于所述文字信息和概念词汇信息，计算得到文字语义相似度；

基于所述文字语义相似度和所述概念密切度，计算得到所述语义指示特征。

5.根据权利要求1所述的视频处理方法，所述利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理，从而得到视频摘要；包括：

按照特征权重值对第二特征集中的各个特征进行线性叠加，得到视频段的显著性分值；

按照预设的摘要长度，根据视频段的显著性分值从高到低的顺序将视频段逐个选为视频摘要。

6.一种电子设备，所述电子设备包括：

7.根据权利要求6所述的电子设备，所述第一处理单元包括：

运动注意力特征子单元，用于根据所述第一特征集中的运动特征，计算得到运动注意力特征；

人脸注意力特征子单元，用于通过人脸检测算法获得每个视频帧中人脸的面积和位置，基于与该视频帧对应的深度图像和构成人脸的像素点集合，计算得到基于深度信息的人脸注意力特征。

8.根据权利要求6所述的电子设备，所述电子设备还包括：

文字提取单元，用于利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息；或者，从所述视频帧的字幕中获得与视频内容相关的文字信息。

9.根据权利要求6所述的电子设备，所述电子设备还包括：

训练单元，用于基于所述色矩特征、小波纹理特征和局部关键点特征，训练支撑向量机；

所述第一处理单元包括：

语义指示特征子单元，用于利用所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测，得到概念密切度；基于所述文字信息和概念词汇信息，计算得到文字语义相似度；基于所述文字语义相似度和所述概念密切度，计算得到所述语义指示特征。

10.根据权利要求9所述的电子设备，所述第二处理单元包括：

线性叠加子单元，用于按照特征权重值对第二特征集中的各个特征进行线性叠加，得到视频段的显著性分值；

视频摘要子单元，用于按照预设的摘要长度，根据视频段的显著性分值从高到低的顺序将视频段逐个选为视频摘要。