CN105228033A - 一种视频处理方法及电子设备 - Google Patents
一种视频处理方法及电子设备 Download PDFInfo
- Publication number
- CN105228033A CN105228033A CN201510535580.9A CN201510535580A CN105228033A CN 105228033 A CN105228033 A CN 105228033A CN 201510535580 A CN201510535580 A CN 201510535580A CN 105228033 A CN105228033 A CN 105228033A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- features
- feature set
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频处理方法及电子设备,所述方法包括:从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
Description
技术领域
本发明涉及视频处理技术,尤其涉及一种视频处理方法及电子设备。
背景技术
智能终端,如智能手机已成为当今人们工作生活的随身伴侣,用户通过下载和自行拍摄的方式很容易积累大量的视频。尤其对于配备双目相机的手机,需要存储的数据量更大。面对容量相对有限的手机存储器,对视频文件的管理成为亟需解决的问题。
发明内容
为解决上述技术问题,本发明实施例提供了一种视频处理方法及电子设备。
本发明实施例提供的视频处理方法包括:
从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;
基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;
利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
本发明实施例提供的电子设备包括:
提取单元,用于从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;
第一处理单元,用于基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;
第二处理单元,用于利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
本发明实施例的技术方案中,从视频帧中提取色矩特征、小波纹理特征、运动特征、局部关键点特征;然后,基于所提取的色矩特征、小波纹理特征、运动特征、局部关键点特征,计算得到运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;对运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征进行融合处理,从而得到视频摘要。如此,从原视频中提取出语义相对精炼和重要的视频段,从而有效减小电子设备中需要保存的数据量,提高电子设备存储器的利用效率和用户体验,也有利于用户日后从较小量的视频文件中定位到自己最想找到的视频。并且,本发明实施例的技术方案结合了来自视觉模态(visualmodality)和文字模态(textualmodality)的信息,能够更有效地捕捉视频内容的高级语义。在人脸注意力特征中结合场景中物体的深度信息,有利于从更全面的角度掌握高级语义。本发明实施例的技术方案不依赖于针对具体视频类型制定的启发探索式规则,能够适用于较宽泛的视频种类。
附图说明
图1为本发明实施例一的视频处理方法的流程示意图;
图2为本发明实施例二的视频处理方法的流程示意图;
图3为本发明实施例的视频摘要提取的整体流程图;
图4为本发明实施例的计算视频段的语义指示特征的流程图;
图5为本发明实施例一的电子设备的结构组成示意图;
图6为本发明实施例二的电子设备的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
在信息爆炸的时代,传统的视频数据浏览与管理方式已面临前所未有的挑战。因此,为视频用户提供简短且浓缩了原视频中关键信息的视频摘要具有重要的现实意义。视频摘要通常可分为动态和静态两种类型:动态视频摘要是原视频的缩短版本,其中可以包含一系列从原长版本提取出的视频段;而静态视频摘要可以由一组从原视频中提取出的关键帧构成。
传统的视频摘要通过提取视频中的视觉特征或文字特征来产生。然而,这一方向上的方法大多是采用启发摸索式的规则或简单的文字分析(如基于词频统计)。另外,传统的采用人脸特征的注意力模型方法仅考虑了检测出的人脸在场景中的平面位置和尺寸等信息,缺乏对深度信息的使用。
本发明实施例的技术方案基于用户的注意力模型、视频的语义信息和视频帧的深度信息通过迭代重加权的方式对视频段的相对重要性进行估计,从而产生动态视频摘要。
图1为本发明实施例一的视频处理方法的流程示意图,如图1所示,所述视频处理方法包括以下步骤:
步骤101:从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征。
参照图3,首先,从视频帧中提取第一特征集,第一特征集为低级特征集,第一特征集包括四个低级特征:色矩特征、小波纹理特征、运动特征和局部关键点特征。
下面对第一特征集中的四个低级特征做详细描述。
(1)色矩特征
将一个视频帧在空间上划分为5×5(一共25个)不重叠的像素块,在每个像素块上为Lab色彩空间的三个通道分别计算出一阶矩和二阶三阶中心矩。该帧的25个像素块的色矩即构成该帧的色矩特征向量fcm(i)。
(2)小波纹理特征
相似地,一个视频帧被划分为3×3(一共9个)不重叠的像素块,对每个块的亮度分量分别进行三级Haar小波分解,进而在水平、垂直和对角线方向上为每一级计算小波系数的方差。该视频帧的所有小波系数方差即构成本帧的小波纹理特征向量fwt(i)。
(3)运动特征
人眼对视觉内容的变化具有敏感的识别力。基于这一基本原理,将一个视频帧划分为M×N个非重叠的像素块,每个块含有16×16个像素点,并通过运动估计算法计算出运动矢量v(i,m,n)。M×N个运动矢量即构成本视频帧的运动特征fmv(i)。
(4)局部关键点特征
在语义级视频分析中,基于局部关键点的词袋(bagoffeatures,简称BoF)能够作为由全局信息计算出的特征的有力补充。因此,利用软加权的局部关键点特征来捕捉显著区域,该特征基于关键点在一个具有500个视觉词语的词汇表中的重要性而定义。具体地,第i个视频帧中的关键点由高斯差(DifferenceofGaussians,简称DoG)检测器获得,由尺度不变特征变换(Scale-InvariantFeatureTransform,简称SIFT)描述子进行表示,并被聚类到500个视觉词语中。关键点特征向量fkp(i)被定义为:四近邻下的关键点与视觉词语的加权相似度。
步骤102:基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征。
接下来,基于这些低级特征,进一步计算出高级的视觉和语义特征,称为第二特征集,包括:运动注意力特征、基于深度信息的人脸注意力特征和视频段的语义指示特征。
接下来,基于以上低级特征,进一步为每一个任意给定的视频段χs(起始于第i1(s)帧,终止于第i2(s)帧)计算出高级的视觉和语义特征。视频分段由镜头切换检测来实现。
下面对第二特征集中的各个特征做详细描述。
(1)运动注意力特征
心理学领域对人类注意力的研究为计算机视觉领域的注意力建模奠定了不可或缺的基础。注意力的认知机制在对人类思维和活动的分析与理解方面十分关键,因而在挑选原视频中相对重要的内容构成视频摘要的过程中可以起到指导作用。本方案利用运动注意力模型计算适合于语义分析的高级运动注意力特征。
对于第i个视频帧中的第(m,n)个像素块,设计了一个包含周围5×5个(共25个)像素块的空间窗和一个包含7个像素块的时间窗,而且这两个窗都以第i帧的第(m,n)像素块为中心。将[0,2π)的相位范围平均划分为8个区间,在空间窗中统计出空间相位直方图在时间窗中统计出时间相位直方图从而可依下列公式得到空间一致性指示Cs(i,m,n)和时间一致性指示Ct(i,m,n):
Cs(i,m,n)=-∑ζps(ζ)logps(ζ)(1a)
Ct(i,m,n)=-∑ζpt(ζ)logpt(ζ)(2a)
其中, 和 分别是空间窗和时间窗中的相位分布。接下来,第i帧的运动注意力特征被定义如下:
为了抑制相邻视频帧特征中的噪声,上面所得的运动注意力特征的序列将通过9阶中值滤波器的处理。对第s个视频段χs,其运动注意力特征由滤波后的单帧特征取值计算得到:
(2)基于深度信息的人脸注意力特征
在视频中,人脸的出现通常可能指示较为重要的内容。本方案通过人脸检测算法获得每个视频帧中人脸(用字母j来索引)的面积AF(j)和位置。对检测到的第j个人脸,基于与该视频帧对应的深度图像di和构成人脸的像素点集合{x|x∈Λ(j)},定义如下的深度显著性D(j):
其中|Λ(j)|是第j个人脸所含像素点数。根据人脸在整个视频帧中的位置,还定义一个位置权重wfp(j)来近似反映该人脸能从观众获得的相对关注度(越靠近视频帧中心的区域权重越大),如表1所示:
表1
表1视频帧中不同区域所赋予的不同人脸权重。中心区域权重大,边缘区域权重小。
第i帧的人脸注意力特征可以计算为:
其中Afrm为视频帧的面积,Dmax(i)=maxxdi(x)。为了降低人脸检测不准确性对本方案全局的影响,所得人脸注意力特征序列也将由中值滤波器(5阶)进行平滑。视频段χs的人脸注意力特征经下面公式由平滑后的特征{FAC(i)|i=i1(s),...,i2(s)}计算得到:
(3)视频段的语义指示特征
参照图4,为了挖掘语义信息,本方案基于VIREO-374的374个概念和每个概念的三种支撑向量机(SupportVectorMachine,简称SVM)提取视频段的语义指示特征。支撑向量机基于前面介绍的色矩、小波纹理和局部关键点特征进行了训练,在预测中可以估计出一个给定的视频帧与概念之间的关系密切程度的概率值。计算视频段的语义指示特征的流程如图4所示:
对于视频段χs,首先提取出它的中间帧im(s)的色矩特征fcm(im(s))、小波纹理特征fwt(im(s))和局部关键点特征fkp(im(s)),再通过支撑向量机的预测得到概率值{ucm(s,j),uwt(s,j),ukp(s,j)|j=1,2,...,374},进而计算出概念密切度:
接下来,对视频段对应的字幕信息进行处理。基于字幕词汇构成的集合Γst(s)与概念词汇的集合Γcp(j),通过外部词典WordNet的相似性度量工具WordNet::Similarity,计算得到文字语义相似度:
其中η(γ,ω)表示字幕词汇γ与概念词汇ω在WordNet::Similarity中的相似度取值。
为了减小不相关概念的影响,定义以下的文字相关程度:
其中Q是保证成立的归一化系数。由于支撑向量机给出的是两类分类问题的概率,在上面公式中自然地采用阈值0.5。
最后,视频段的语义指示特征fE(s)定义为ρ(s,j)以u(s,j)为权重的加权和:
步骤103:利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
最后,利用一个迭代重加权的线性模型对三种高级特征进行融合,产生用户所需长度的视频摘要。
本发明实施例中,视频摘要将由对每个视频段的显著性分值来最终决定,因而采用如下的线性模型对三种高级特征进行融合,融合结果即为视频段的显著性分值:
fSAL(s)=wM(s)fM(s)+wF(s)fF(s)+wE(s)fE(s)(12a)
其中wM(s),wF(s)和wE(s)是特征的权重。在线性融合之前,每一种特征都分别被归一化到区间[0,1]。
下面通过一种迭代重加权的方法计算出特征权重。在第k次迭代中,权值w#(s)(#∈{M,F,E})由下列宏观因子α#(s)和微观因子β#(s)的乘积(即w#(s)=α#(s)·β#(s))决定:
其中r#(s)是特征f#(s)在{f#(s)|s=1,2,...,NS}经过降序排列之后的排名,NS是视频中视频段的总数。接下来,可以计算出视频段的显著性fSAL(s)并将其序列降序排列。根据用户所需长度,按照fSAL(s)从高到低将视频段逐个入选视频摘要。
在首次迭代过程开始前,按照等权重的原则对特征权值进行初始化。迭代过程经过15次结束。
本发明实施例的技术方案,首先从视频帧中提取出色矩、小波纹理、运动和局部关键点等低级特征。接下来,基于这些低级特征,进一步计算出高级的视觉和语义特征,包括运动注意力特征、考虑深度信息的人脸注意力特征和视频段的语义指示特征。然后,利用一个迭代重加权的线性模型对三种高级特征进行融合,产生用户所需长度的视频摘要。
图2为本发明实施例二的视频处理方法的流程示意图,如图2所示,所述视频处理方法包括以下步骤:
步骤201:从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征。
参照图3,首先,从视频帧中提取第一特征集,第一特征集为低级特征集,第一特征集包括四个低级特征:色矩特征、小波纹理特征、运动特征和局部关键点特征。
下面对第一特征集中的四个低级特征做详细描述。
(1)色矩特征
将一个视频帧在空间上划分为5×5(一共25个)不重叠的像素块,在每个像素块上为Lab色彩空间的三个通道分别计算出一阶矩和二阶三阶中心矩。该帧的25个像素块的色矩即构成该帧的色矩特征向量fcm(i)。
(2)小波纹理特征
相似地,一个视频帧被划分为3×3(一共9个)不重叠的像素块,对每个块的亮度分量分别进行三级Haar小波分解,进而在水平、垂直和对角线方向上为每一级计算小波系数的方差。该视频帧的所有小波系数方差即构成本帧的小波纹理特征向量fwt(i)。
(3)运动特征
人眼对视觉内容的变化具有敏感的识别力。基于这一基本原理,将一个视频帧划分为M×N个非重叠的像素块,每个块含有16×16个像素点,并通过运动估计算法计算出运动矢量v(i,m,n)。M×N个运动矢量即构成本视频帧的运动特征fmv(i)。
(4)局部关键点特征
在语义级视频分析中,基于局部关键点的词袋(bagoffeatures,简称BoF)能够作为由全局信息计算出的特征的有力补充。因此,利用软加权的局部关键点特征来捕捉显著区域,该特征基于关键点在一个具有500个视觉词语的词汇表中的重要性而定义。具体地,第i个视频帧中的关键点由高斯差(DifferenceofGaussians,简称DoG)检测器获得,由尺度不变特征变换(Scale-InvariantFeatureTransform,简称SIFT)描述子进行表示,并被聚类到500个视觉词语中。关键点特征向量fkp(i)被定义为:四近邻下的关键点与视觉词语的加权相似度。
步骤202:根据所述第一特征集中的运动特征,计算得到运动注意力特征。
接下来,基于这些低级特征,进一步计算出高级的视觉和语义特征,称为第二特征集,包括:运动注意力特征、基于深度信息的人脸注意力特征和视频段的语义指示特征。
接下来,基于以上低级特征,进一步为每一个任意给定的视频段χs(起始于第i1(s)帧,终止于第i2(s)帧)计算出高级的视觉和语义特征。视频分段由镜头切换检测来实现。
心理学领域对人类注意力的研究为计算机视觉领域的注意力建模奠定了不可或缺的基础。注意力的认知机制在对人类思维和活动的分析与理解方面十分关键,因而在挑选原视频中相对重要的内容构成视频摘要的过程中可以起到指导作用。本方案利用运动注意力模型计算适合于语义分析的高级运动注意力特征。
对于第i个视频帧中的第(m,n)个像素块,设计了一个包含周围5×5个(共25个)像素块的空间窗和一个包含7个像素块的时间窗,而且这两个窗都以第i帧的第(m,n)像素块为中心。将[0,2π)的相位范围平均划分为8个区间,在空间窗中统计出空间相位直方图在时间窗中统计出时间相位直方图从而可依下列公式得到空间一致性指示Cs(i,m,n)和时间一致性指示Ct(i,m,n):
Cs(i,m,n)=-∑ζps(ζ)logps(ζ)(1b)
Ct(i,m,n)=-∑ζpt(ζ)logpt(ζ)(2b)
其中, 和 分别是空间窗和时间窗中的相位分布。接下来,第i帧的运动注意力特征被定义如下:
为了抑制相邻视频帧特征中的噪声,上面所得的运动注意力特征的序列将通过9阶中值滤波器的处理。对第s个视频段χs,其运动注意力特征由滤波后的单帧特征取值计算得到:
步骤203:通过人脸检测算法获得每个视频帧中人脸的面积和位置,基于与该视频帧对应的深度图像和构成人脸的像素点集合,计算得到基于深度信息的人脸注意力特征。
在视频中,人脸的出现通常可能指示较为重要的内容。本方案通过人脸检测算法获得每个视频帧中人脸(用字母j来索引)的面积AF(j)和位置。对检测到的第j个人脸,基于与该视频帧对应的深度图像di和构成人脸的像素点集合{x|x∈Λ(j)},定义如下的深度显著性D(j):
其中|Λ(j)|是第j个人脸所含像素点数。根据人脸在整个视频帧中的位置,还定义一个位置权重wfp(j)来近似反映该人脸能从观众获得的相对关注度(越靠近视频帧中心的区域权重越大),如表1所示:
表1
表1视频帧中不同区域所赋予的不同人脸权重。中心区域权重大,边缘区域权重小。
第i帧的人脸注意力特征可以计算为:
其中Afrm为视频帧的面积,Dmax(i)=maxxdi(x)。为了降低人脸检测不准确性对本方案全局的影响,所得人脸注意力特征序列也将由中值滤波器(5阶)进行平滑。视频段χs的人脸注意力特征经下面公式由平滑后的特征{FAC(i)|i=i1(s),...,i2(s)}计算得到:
步骤204:所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测,得到概念密切度。
本发明实施例中,基于所述色矩特征、小波纹理特征和局部关键点特征,训练支撑向量机。支撑向量机选用LibSVM包,对色矩特征和小波纹理特征采用径向基核函数(radialbasisfunction,简称RBF),而对局部关键点特征采用Chi方核(Chi-squarekernel)。
参照图4,为了挖掘语义信息,本方案基于VIREO-37的374个概念(semanticconcept)和每个概念的三种支撑向量机(SVM,SupportVectorMachine)提取视频段的语义指示特征。支撑向量机基于前面介绍的色矩、小波纹理和局部关键点特征进行了训练,在预测中可以估计出一个给定的视频帧与概念之间的关系密切程度的概率值。计算视频段的语义指示特征的流程如图4所示:
对于视频段χs,首先提取出它的中间帧im(s)的色矩特征fcm(im(s))、小波纹理特征fwt(im(s))和局部关键点特征fkp(im(s)),再通过支撑向量机的预测得到概率值{ucm(s,j),uwt(s,j),ukp(s,j)|j=1,2,...,374},进而计算出概念密切度:
本发明实施例中,利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息;或者,
从所述视频帧的字幕中获得与视频内容相关的文字信息。
步骤205:基于所述文字信息和概念词汇信息,计算得到文字语义相似度。
接下来,对视频段对应的字幕(subtitle)信息进行处理。基于字幕词汇构成的集合Γst(s)与概念词汇的集合Γcp(j),通过外部词典WordNet的相似性度量工具WordNet::Similarity,计算得到文字语义相似度(textualsemanticsimilarity):
其中η(γ,ω)表示字幕词汇γ与概念词汇ω在WordNet::Similarity中的相似度取值。
为了减小不相关概念的影响,定义以下的文字相关程度(textualrelatedness):
其中Q是保证成立的归一化系数。由于支撑向量机给出的是两类分类问题的概率,在上面公式中自然地采用阈值0.5。
步骤206:基于所述文字语义相似度和所述概念密切度,计算得到所述语义指示特征。
参照图4,为了挖掘语义信息,本方案基于VIREO-374的374个概念和每个概念的三种支撑向量机(SupportVectorMachine,简称SVM)提取视频段的语义指示特征。支撑向量机基于前面介绍的色矩、小波纹理和局部关键点特征进行了训练,在预测中可以估计出一个给定的视频帧与概念之间的关系密切程度的概率值。计算视频段的语义指示特征的流程如图4所示:
对于视频段χs,首先提取出它的中间帧im(s)的色矩特征fcm(im(s))、小波纹理特征fwt(im(s))和局部关键点特征fkp(im(s)),再通过支撑向量机的预测得到概率值{ucm(s,j),uwt(s,j),ukp(s,j)|j=1,2,...,374},进而计算出概念密切度:
接下来,对视频段对应的字幕信息进行处理。基于字幕词汇构成的集合Γst(s)与概念词汇的集合Γcp(j),通过外部词典WordNet的相似性度量工具WordNet::Similarity,计算得到文字语义相似度:
其中η(γ,ω)表示字幕词汇γ与概念词汇ω在WordNet::Similarity中的相似度取值。
为了减小不相关概念的影响,定义以下的文字相关程度:
其中Q是保证成立的归一化系数。由于支撑向量机给出的是两类分类问题的概率,在上面公式中自然地采用阈值0.5。
最后,视频段的语义指示特征fE(s)定义为ρ(s,j)以u(s,j)为权重的加权和:
步骤207:按照特征权重值对第二特征集中的各个特征进行线性叠加,得到视频段的显著性分值。
最后,利用一个迭代重加权的线性模型对三种高级特征进行融合,产生用户所需长度的视频摘要。
本发明实施例中,视频摘要将由对每个视频段的显著性分值来最终决定,因而采用如下的线性模型对三种高级特征进行融合,融合结果即为视频段的显著性分值:
fSAL(s)=wM(s)fM(s)+wF(s)fF(s)+wE(s)fE(s)(12b)
其中wM(s),wF(s)和wE(s)是特征的权重。在线性融合之前,每一种特征都分别被归一化到区间[0,1]。
下面通过一种迭代重加权的方法计算出特征权重。在第k次迭代中,权值w#(s)(#∈{M,F,E})由下列宏观因子α#(s)和微观因子β#(s)的乘积(即w#(s)=α#(s)·β#(s))决定:
其中r#(s)是特征f#(s)在{f#(s)|s=1,2,...,NS}经过降序排列之后的排名,NS是视频中视频段的总数。接下来,可以计算出视频段的显著性fSAL(s)并将其序列降序排列。根据用户所需长度,能够根据fSAL(s)从高到低将视频段逐个入选视频摘要。
在首次迭代过程开始前,按照等权重的原则对特征权值进行初始化。迭代过程经过15次结束。
本发明实施例的技术方案,首先从视频帧中提取出色矩、小波纹理、运动和局部关键点等低级特征。接下来,基于这些低级特征,进一步计算出高级的视觉和语义特征,包括运动注意力特征、考虑深度信息的人脸注意力特征和视频段的语义指示特征。然后,利用一个迭代重加权的线性模型对三种高级特征进行融合,产生用户所需长度的视频摘要。
图5为本发明实施例一的电子设备的结构组成示意图,如图5所示,所述电子设备包括:
提取单元51,用于从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;
第一处理单元52,用于基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;
第二处理单元53,用于利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
本领域技术人员应当理解,图5所示的电子设备中的各单元的实现功能可参照前述视频处理方法的相关描述而理解。图5所示的电子设备中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
图6为本发明实施例二的电子设备的结构组成示意图,如图6所示,所述电子设备包括:
提取单元61,用于从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;
第一处理单元62,用于基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;
第二处理单元63,用于利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
所述第一处理单元62包括:
运动注意力特征子单元621,用于根据所述第一特征集中的运动特征,计算得到运动注意力特征;
人脸注意力特征子单元622,用于通过人脸检测算法获得每个视频帧中人脸的面积和位置,基于与该视频帧对应的深度图像和构成人脸的像素点集合,计算得到基于深度信息的人脸注意力特征。
所述电子设备还包括:
训练单元64,用于基于所述色矩特征、小波纹理特征和局部关键点特征,训练支撑向量机。
所述电子设备还包括:
文字提取单元65,用于利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息;或者,从所述视频帧的字幕中获得与视频内容相关的文字信息。
所述第一处理单元62包括:
语义指示特征子单元623,用于利用所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测,得到概念密切度;基于所述文字信息和概念词汇信息,计算得到文字语义相似度;基于所述文字语义相似度和所述概念密切度,计算得到所述语义指示特征。
所述第二处理单元63包括:
线性叠加子单元631,用于按照特征权重值对第二特征集中的各个特征进行线性叠加,得到视频段的显著性分值;
视频摘要子单元632,用于按照预设的摘要长度,根据视频段的显著性分值从高到低的顺序将视频段逐个选为视频摘要。
本领域技术人员应当理解,图6所示的电子设备中的各单元的实现功能可参照前述视频处理方法的相关描述而理解。图6所示的电子设备中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种视频处理方法,所述方法包括:
从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;
基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;
利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
2.根据权利要求1所述的视频处理方法,所述基于所述第一特征集,计算得到第二特征集,包括:
根据所述第一特征集中的运动特征,计算得到运动注意力特征;
通过人脸检测算法获得每个视频帧中人脸的面积和位置,基于与该视频帧对应的深度图像和构成人脸的像素点集合,计算得到基于深度信息的人脸注意力特征。
3.根据权利要求1所述的视频处理方法,所述方法还包括:
利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息;或者,
从所述视频帧的字幕中获得与视频内容相关的文字信息。
4.根据权利要求3所述的视频处理方法,所述方法还包括:
基于所述色矩特征、小波纹理特征和局部关键点特征,训练支撑向量机;
所述基于所述第一特征集,计算得到第二特征集,包括:
所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测,得到概念密切度;
基于所述文字信息和概念词汇信息,计算得到文字语义相似度;
基于所述文字语义相似度和所述概念密切度,计算得到所述语义指示特征。
5.根据权利要求1所述的视频处理方法,所述利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要;包括:
按照特征权重值对第二特征集中的各个特征进行线性叠加,得到视频段的显著性分值;
按照预设的摘要长度,根据视频段的显著性分值从高到低的顺序将视频段逐个选为视频摘要。
6.一种电子设备,所述电子设备包括:
提取单元,用于从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;
第一处理单元,用于基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;
第二处理单元,用于利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。
7.根据权利要求6所述的电子设备,所述第一处理单元包括:
运动注意力特征子单元,用于根据所述第一特征集中的运动特征,计算得到运动注意力特征;
人脸注意力特征子单元,用于通过人脸检测算法获得每个视频帧中人脸的面积和位置,基于与该视频帧对应的深度图像和构成人脸的像素点集合,计算得到基于深度信息的人脸注意力特征。
8.根据权利要求6所述的电子设备,所述电子设备还包括:
文字提取单元,用于利用语音识别技术从所述视频帧的音频信号中获得与视频内容相关的文字信息;或者,从所述视频帧的字幕中获得与视频内容相关的文字信息。
9.根据权利要求6所述的电子设备,所述电子设备还包括:
训练单元,用于基于所述色矩特征、小波纹理特征和局部关键点特征,训练支撑向量机;
所述第一处理单元包括:
语义指示特征子单元,用于利用所述支撑向量机对所述色矩特征、小波纹理特征、局部关键点特征进行语义概念的检测,得到概念密切度;基于所述文字信息和概念词汇信息,计算得到文字语义相似度;基于所述文字语义相似度和所述概念密切度,计算得到所述语义指示特征。
10.根据权利要求9所述的电子设备,所述第二处理单元包括:
线性叠加子单元,用于按照特征权重值对第二特征集中的各个特征进行线性叠加,得到视频段的显著性分值;
视频摘要子单元,用于按照预设的摘要长度,根据视频段的显著性分值从高到低的顺序将视频段逐个选为视频摘要。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510535580.9A CN105228033B (zh) | 2015-08-27 | 2015-08-27 | 一种视频处理方法及电子设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510535580.9A CN105228033B (zh) | 2015-08-27 | 2015-08-27 | 一种视频处理方法及电子设备 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN105228033A true CN105228033A (zh) | 2016-01-06 |
| CN105228033B CN105228033B (zh) | 2018-11-09 |
Family
ID=54996666
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510535580.9A Active CN105228033B (zh) | 2015-08-27 | 2015-08-27 | 一种视频处理方法及电子设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN105228033B (zh) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106355171A (zh) * | 2016-11-24 | 2017-01-25 | 深圳凯达通光电科技有限公司 | 一种视频监控联网系统 |
| CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
| CN107222795A (zh) * | 2017-06-23 | 2017-09-29 | 南京理工大学 | 一种多特征融合的视频摘要生成方法 |
| CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
| CN109413510A (zh) * | 2018-10-19 | 2019-03-01 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
| CN109565614A (zh) * | 2016-06-28 | 2019-04-02 | 英特尔公司 | 多个流调节 |
| CN109932617A (zh) * | 2019-04-11 | 2019-06-25 | 东南大学 | 一种基于深度学习的自适应电网故障诊断方法 |
| CN110225368A (zh) * | 2019-06-27 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种视频定位方法、装置及电子设备 |
| CN110347870A (zh) * | 2019-06-19 | 2019-10-18 | 西安理工大学 | 基于视觉显著性检测与层次聚类法的视频摘要化生成方法 |
| WO2020119187A1 (zh) * | 2018-12-14 | 2020-06-18 | 北京沃东天骏信息技术有限公司 | 用于分割视频的方法和装置 |
| CN111984820A (zh) * | 2019-12-19 | 2020-11-24 | 重庆大学 | 一种基于双自注意力胶囊网络的视频摘要方法 |
| CN113158720A (zh) * | 2020-12-15 | 2021-07-23 | 嘉兴学院 | 一种基于双模特征和注意力机制的视频摘要方法及装置 |
| CN119673201A (zh) * | 2024-11-28 | 2025-03-21 | 中南大学 | 一种基于深度学习的音频分类方法、系统、设备及介质 |
Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1685344A (zh) * | 2002-11-01 | 2005-10-19 | 三菱电机株式会社 | 用于概括未知视频内容的方法 |
| US20050249412A1 (en) * | 2004-05-07 | 2005-11-10 | Regunathan Radhakrishnan | Multimedia event detection and summarization |
| WO2007099496A1 (en) * | 2006-03-03 | 2007-09-07 | Koninklijke Philips Electronics N.V. | Method and device for automatic generation of summary of a plurality of images |
| CN101743596A (zh) * | 2007-06-15 | 2010-06-16 | 皇家飞利浦电子股份有限公司 | 用于自动生成多媒体文件概要的方法和设备 |
| US20120099793A1 (en) * | 2010-10-20 | 2012-04-26 | Mrityunjay Kumar | Video summarization using sparse basis function combination |
| CN102880866A (zh) * | 2012-09-29 | 2013-01-16 | 宁波大学 | 一种人脸特征提取方法 |
| KR20130061058A (ko) * | 2011-11-30 | 2013-06-10 | 고려대학교 산학협력단 | 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템 |
| CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
| CN103210651A (zh) * | 2010-11-15 | 2013-07-17 | 华为技术有限公司 | 用于视频概要的方法和系统 |
| CN104508682A (zh) * | 2012-08-03 | 2015-04-08 | 柯达阿拉里斯股份有限公司 | 使用群组稀疏性分析来识别关键帧 |
-
2015
- 2015-08-27 CN CN201510535580.9A patent/CN105228033B/zh active Active
Patent Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1685344A (zh) * | 2002-11-01 | 2005-10-19 | 三菱电机株式会社 | 用于概括未知视频内容的方法 |
| US20050249412A1 (en) * | 2004-05-07 | 2005-11-10 | Regunathan Radhakrishnan | Multimedia event detection and summarization |
| WO2007099496A1 (en) * | 2006-03-03 | 2007-09-07 | Koninklijke Philips Electronics N.V. | Method and device for automatic generation of summary of a plurality of images |
| CN101743596A (zh) * | 2007-06-15 | 2010-06-16 | 皇家飞利浦电子股份有限公司 | 用于自动生成多媒体文件概要的方法和设备 |
| US20120099793A1 (en) * | 2010-10-20 | 2012-04-26 | Mrityunjay Kumar | Video summarization using sparse basis function combination |
| CN103210651A (zh) * | 2010-11-15 | 2013-07-17 | 华为技术有限公司 | 用于视频概要的方法和系统 |
| KR20130061058A (ko) * | 2011-11-30 | 2013-06-10 | 고려대학교 산학협력단 | 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템 |
| CN104508682A (zh) * | 2012-08-03 | 2015-04-08 | 柯达阿拉里斯股份有限公司 | 使用群组稀疏性分析来识别关键帧 |
| CN102880866A (zh) * | 2012-09-29 | 2013-01-16 | 宁波大学 | 一种人脸特征提取方法 |
| CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
Non-Patent Citations (2)
| Title |
|---|
| NAVEED EJAZ ET.AL: "Multi-scale information maximization based visual attention modeling for video summarization", 《2012 6TH INTERNATIONAL CONFERENCE ON NEXT GENERATION MOBILE APPLLICATIONS, SERVICE AND TECHNOLOGIES》 * |
| YU KONG ET.AL: "Hierarchical 3D kernel descriptors for action recognition using depth sequences", 《2015 11TH IEEE INTERNATIONAL CONFERENCE AND WORKSHOPS ON AUTOMATIC FACE AND GESTURE RECOGNITION》 * |
Cited By (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109565614B (zh) * | 2016-06-28 | 2021-08-20 | 英特尔公司 | 多个流调节 |
| CN109565614A (zh) * | 2016-06-28 | 2019-04-02 | 英特尔公司 | 多个流调节 |
| CN106355171A (zh) * | 2016-11-24 | 2017-01-25 | 深圳凯达通光电科技有限公司 | 一种视频监控联网系统 |
| CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
| WO2018166438A1 (zh) * | 2017-03-13 | 2018-09-20 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
| US10943145B2 (en) | 2017-03-13 | 2021-03-09 | Beijing Sensetime Technology Development Co., Ltd. | Image processing methods and apparatus, and electronic devices |
| CN106934397B (zh) * | 2017-03-13 | 2020-09-01 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
| CN107222795A (zh) * | 2017-06-23 | 2017-09-29 | 南京理工大学 | 一种多特征融合的视频摘要生成方法 |
| CN107979764B (zh) * | 2017-12-06 | 2020-03-31 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
| CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
| CN109413510A (zh) * | 2018-10-19 | 2019-03-01 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
| JP2021503123A (ja) * | 2018-10-19 | 2021-02-04 | 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. | ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 |
| CN109413510B (zh) * | 2018-10-19 | 2021-05-18 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
| JP7150840B2 (ja) | 2018-10-19 | 2022-10-11 | 深▲セン▼市商▲湯▼科技有限公司 | ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 |
| WO2020119187A1 (zh) * | 2018-12-14 | 2020-06-18 | 北京沃东天骏信息技术有限公司 | 用于分割视频的方法和装置 |
| US11275950B2 (en) | 2018-12-14 | 2022-03-15 | Beijing Wodong Tianjun Information Technology Co., Ltd. | Method and apparatus for segmenting video |
| CN109932617A (zh) * | 2019-04-11 | 2019-06-25 | 东南大学 | 一种基于深度学习的自适应电网故障诊断方法 |
| CN110347870A (zh) * | 2019-06-19 | 2019-10-18 | 西安理工大学 | 基于视觉显著性检测与层次聚类法的视频摘要化生成方法 |
| CN110225368A (zh) * | 2019-06-27 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种视频定位方法、装置及电子设备 |
| CN111984820A (zh) * | 2019-12-19 | 2020-11-24 | 重庆大学 | 一种基于双自注意力胶囊网络的视频摘要方法 |
| CN111984820B (zh) * | 2019-12-19 | 2023-10-27 | 重庆大学 | 一种基于双自注意力胶囊网络的视频摘要方法 |
| CN113158720A (zh) * | 2020-12-15 | 2021-07-23 | 嘉兴学院 | 一种基于双模特征和注意力机制的视频摘要方法及装置 |
| CN119673201A (zh) * | 2024-11-28 | 2025-03-21 | 中南大学 | 一种基于深度学习的音频分类方法、系统、设备及介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN105228033B (zh) | 2018-11-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN105228033B (zh) | 一种视频处理方法及电子设备 | |
| CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
| US11361019B2 (en) | Image query method and apparatus | |
| CN105100894A (zh) | 面部自动标注方法及系统 | |
| US20110243452A1 (en) | Electronic apparatus, image processing method, and program | |
| Mussel Cirne et al. | VISCOM: A robust video summarization approach using color co-occurrence matrices | |
| Haq et al. | Video summarization techniques: a review | |
| Faraki et al. | Log‐Euclidean bag of words for human action recognition | |
| Zhang et al. | Weakly supervised human fixations prediction | |
| Huo et al. | Multi-instance dictionary learning for detecting abnormal events in surveillance videos | |
| Li et al. | Videography-based unconstrained video analysis | |
| Zhang et al. | Retargeting semantically-rich photos | |
| Li et al. | Multi-keyframe abstraction from videos | |
| Tian et al. | Action recognition using local consistent group sparse coding with spatio-temporal structure | |
| CN109145140A (zh) | 一种基于手绘轮廓图匹配的图像检索方法及系统 | |
| Mallick et al. | Video retrieval using salient foreground region of motion vector based extracted keyframes and spatial pyramid matching | |
| CN111046232B (zh) | 一种视频分类方法、装置及系统 | |
| Lu et al. | A novel video summarization framework for document preparation and archival applications | |
| CN117437424A (zh) | 运动物体实例分割方法、装置、设备和计算机程序产品 | |
| CN113505247B (zh) | 基于内容的高时长视频色情内容检测方法 | |
| Meng et al. | Human action classification using SVM_2K classifier on motion features | |
| Li et al. | Human action recognition using spatio-temoporal descriptor | |
| KR20150101846A (ko) | 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
| Tsingalis et al. | Shot type characterization in 2D and 3D video content | |
| He et al. | A video summarization method based on key frames extracted by TMOF |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |