CN120475233A - 一种数字人的口播视频生成方法、系统、设备及介质 - Google Patents
一种数字人的口播视频生成方法、系统、设备及介质Info
- Publication number
- CN120475233A CN120475233A CN202510800917.8A CN202510800917A CN120475233A CN 120475233 A CN120475233 A CN 120475233A CN 202510800917 A CN202510800917 A CN 202510800917A CN 120475233 A CN120475233 A CN 120475233A
- Authority
- CN
- China
- Prior art keywords
- video
- digital person
- oral
- digital
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种数字人的口播视频生成方法、系统、设备及介质,方法通过获取口播文案和视频素材数据,利用多模态大模型分析确定文案在视频素材中的时间戳;将文案转为音频数据并预处理后,结合时间戳与视频合并生成第一视频数据;根据用户需求生成数字人,经抠像处理后与第一视频合并得到口播视频。本申请突破传统模板化生成模式,通过多模态语义匹配和个性化数字人生成技术,实现数字人口播视频的定制化生产;同时采用音视频精准同步、高质量抠像及合成技术,保障内容适配性与视频质量,显著提升数字人口播视频生产的灵活性、效率和效果。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种数字人的口播视频生成方法、系统、设备及介质。
背景技术
数字人主播是利用数字技术生成的虚拟人物,通过人工智能技术驱动,实现语音、表情、动作等的模拟,从而担任主播角色,进行直播、播报、表演等内容的传播。
目前市场上对于数字人主播的口播视频生成大多采用固定模板的视频生成工具、独立的语音合成软件以及数字人形象生成平台。用户需要分别使用这些工具进行视频剪辑、文案撰写、语音合成和字幕制作,导致整个工作流程零散且依赖大量人工干预。
发明内容
本发明所要解决的技术问题在于,提供一种数字人的口播视频生成方法、系统、设备及介质,以解决相关技术中,数字人口播视频的制作繁琐且效率低下的问题。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供了一种数字人的口播视频生成方法,包括:
获取口播文案和视频素材数据;
对所述口播文案和所述视频素材采用多模态大模型进行内容分析,确定所述文案中每句文案在所述视频素材中对应的时间戳信息;
将所述口播文案转化成对应的音频数据,并对所述音频数据进行预处理,获得预处理后的语音数据;
根据所述时间戳信息,将所述预处理后音频数据与所述视频数据数据进行合并,生成第一视频数据;
根据用户的需求,生成数字人;
采用图像处理技术对所述数字人进行抠像处理,获得抠像处理后的数字人;
将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频。
进一步地,所述对所述音频数据进行预处理,获得预处理后的语音数据,包括:
对音频数据进行加速或减速处理,使得音频数据的语音节奏与所述视频素材的内容相契合。
进一步地,所述对所述音频数据进行加速或减速处理,包括:
采用相位声码器或者是波形相似性的重叠相加算法对音频数据进行加速或者减速处理。
进一步地,在采用图像处理技术对所述数字人进行抠像处理,获得抠像处理的数字人之后,在将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频之前,还包括:
对所述抠像处理后的数字人的轮廓边缘采用边缘细化算法进行优化处理。
进一步地,所述边缘细化算法,具体采用如下计算公式:
其中,P′为膨胀后的像素值,P(i,j)表示在位置(i,j)处的取值,K为像素坐标集合。
进一步地,所述将所述抠像处理后的数字人形象与第一视频合并,生成数字人的口播视频,采用如下计算公式:
Aout=Alayer+Ain*(1-Alayer)
其中,Cout为输出的颜色;Cin为背景图像;Clayer为前景图像;Ain为背景图像的透明度;Alayer为前景图像的透明度;Aout为输出透明度。
第二方面,本申请还提供一种数字人的口播视频生成系统,包括:
获取模块,用于获取口播文案和视频素材数据;
内容分析模块,用于对所述口播文案和所述视频素材采用多模态大模型进行内容分析,确定所述文案中每句文案在所述视频素材中对应的时间戳信息;
预处理模块,用于将所述口播文案转化成对应的音频数据,并对所述音频数据进行预处理,获得预处理后的语音数据;
合成模块,用于根据所述时间戳信息,将所述预处理后音频数据与所述视频数据数据进行合并,生成第一视频数据;
数字人生成模块,用于根据用户的需求,生成数字人;
抠像处理模块,用于采用图像处理技术对所述数字人进行抠像处理,获得抠像处理后的数字人;
口播视频生成模块,用于将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频。
进一步地,所述系统还包括:轮廓优化模块,用于对所述抠像处理后的数字人的轮廓边缘采用边缘细化算法进行优化处理。
第三方面,本申请还提供了一种计算机电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述中任一项所述的基于统一约束出价的广告竞价方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述的数字人的口播视频生成方法的步骤。
本申请提供的一种基于数字人的口播视频生成方法、系统、设备及介质,其有益效果在于:
首先,打破了传统基于模板生成的局限,实现了高度定制化生产。通过用户可自定义输入参数生成数字人形象,并利用先进的三维建模与深度学习技术对其进行个性化调整,满足用户在不同场景下对数字人外貌、动作、风格等多维度的定制需求,有效解决了数字人形象同质化问题。同时,在口播内容与视频素材的处理上,通过多模态大模型进行深度内容分析,能够精准匹配文案与视频画面,结合用户需求灵活调整音视频元素,实现内容的定制化呈现,使数字人口播视频更好地适配电商、教育、娱乐等多元化应用场景。
其次,显著提升了视频生成的准确性与质量。利用多模态大模型融合自然语言处理与计算机视觉技术,精准确定文案在视频素材中的时间戳信息,配合先进的音视频同步算法,确保音频与视频画面的精确对齐;在音频预处理与数字人抠像处理环节,采用降噪、增强、深度学习抠图等技术,有效提升音频清晰度与数字人图像质量,最终生成视听效果协调、画面真实自然的高质量口播视频。
再者,提高了视频生成效率。方案中采用多线程、分布式计算等技术加速音视频合并,结合自动化的数据获取与处理流程,减少人工干预,大幅缩短数字人口播视频的制作周期,满足用户快速迭代内容的需求,降低数字人视频的生产制作成本,增强方案在市场应用中的竞争力与实用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的一种数字人的口播视频生成方法的流程示意图;
图2是本申请实施例中的一种数字人的口播视频生成系统的结构示意图;
图3是本申请实施例中的一种计算机电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。相反,当元件被称作“直接在”另一元件“上”时,不存在中间元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在模板的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”。
目前,现有的数字人的口播视频生成方案,存在着以下问题:
1、现在基本都是基于模板的视频生成工具,缺乏灵活性,难以满足高度个性化的需求。
2、不支持对生成的音频进行细致的时间调整以匹配视频内容,音画同步方面做得比较差。
3、需要较高的专业技能才能有效利用其全部功能。
4、工作流程复杂,对于非专业人士来说学习曲线陡峭。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
请参考图1,本申请实施例提供的一种数字人的口播视频生成方法,至少包括如下步骤:
S10、获取口播文案和视频素材数据。
具体地,在实际应用场景中,口播文案和视频素材数据的获取方式呈现多样化特点。口播文案来源广泛,既可以是用户手动在交互界面输入的自定义文本,也能从企业内容管理系统、电商平台商品详情页、新闻资讯数据库等第三方平台自动同步获取。而视频素材数据的获取途径同样丰富,除了从本地存储设备(如硬盘、U盘)导入外,还可通过网络接口从视频素材库、云端存储平台(如阿里云OSS、腾讯云COS)下载。同时,为了保证数据质量,系统会对获取到的口播文案进行语法校验、语义完整性检查,剔除存在明显错误或格式不规范的内容;对视频素材进行分辨率、帧率、编码格式等参数检测,确保其符合后续处理要求。
S20、对所述口播文案和所述视频素材采用多模态大模型进行内容分析,确定所述文案中每句文案在所述视频素材中对应的时间戳信息。
具体地,在本实施例中,多模态大模型融合了自然语言处理(NLP)、计算机视觉(CV)等技术,具备强大的跨模态语义理解能力。在处理口播文案时,大模型通过分词、词性标注、命名实体识别等NLP技术,提取文案中的关键词、主题信息和语义逻辑。对于视频素材,利用目标检测、场景识别、动作识别等CV技术,解析视频中的画面内容、场景转换、人物动作等视觉特征。然后,通过跨模态对齐算法,将文案的语义信息与视频的视觉信息进行匹配,分析文案内容与视频画面之间的关联性。例如,当文案描述“产品的外观设计”时,大模型会在视频素材中寻找展示产品外观的片段,并确定该片段的起始和结束时间戳。为了提高时间戳信息的准确性,系统还会引入时间序列分析算法,对视频的音频波形、画面变化频率等时间维度特征进行分析,进一步优化时间戳的定位。
S30、将所述口播文案转化成对应的音频数据,并对所述音频数据进行预处理,获得预处理后的语音数据。
具体地,口播文案转化为音频数据采用先进的文本转语音(TTS)技术,可选择如百度飞桨、科大讯飞等成熟的TTS引擎。在转化过程中,通过设置不同的参数,如语速、语调、音色、情感风格(欢快、沉稳、亲切等),实现多样化的语音输出。预处理环节则包括降噪处理,利用频谱分析和滤波算法去除环境噪声、电流杂音等干扰;音频增强,通过动态范围压缩、均衡器调节等手段提升语音的清晰度和可懂度;还会进行语音分割,将长音频按照句子或语义段落进行划分,方便后续与视频素材进行精准匹配。
在本申请的某一实施例中,所述对所述音频数据进行预处理,获得预处理后的语音数据,包括:
对音频数据进行加速或减速处理,使得音频数据的语音节奏与所述视频素材的内容相契合。
具体地,在本实施中,可以采用相位声码器或者是波形相似性的重叠相加算法对音频数据进行加速或者减速处理,具体如下:
使用相位声码器(Phase Vocoder)或WSOLA(Waveform Similarity-basedOverLap-Add)方法改变音频信号的时间尺度而不影响其音调。
目标是使音频片段与视频帧的时间长度一致。
时间伸缩因子其中T′是目标时长,T是原始时长。
对于每一个采样点n,新的采样点位置:
n′=round(α*n)
插值方法:
实际操作中为了避免失真,通常会采用更复杂的插值方法,例如线性插值或三次样条插值。对于两点间的插值,可以使用以下公式:
线性插值:
其中,x1,y1和x2,y2分别是两个已知数据点的坐标,x是需要插值的点的位置。
S40、根据所述时间戳信息,将所述预处理后音频数据与所述视频数据数据进行合并,生成第一视频数据。
具体地,基于步骤S20确定的时间戳信息,采用音视频同步技术将预处理后的音频数据与视频数据进行精确对齐。利用时间码同步、音频-视频互相关等算法,确保音频的每个字、每句话都与视频画面中的相应内容准确对应。在合并过程中,还会对音视频的音量、亮度、对比度等参数进行统一调整,使生成的第一视频数据在视听效果上更加协调一致。同时,为了提高合并效率,系统会采用多线程或分布式计算技术,并行处理多个音视频片段的合并任务。
S50、根据用户的需求,生成数字人。
具体地,在本实施例中,可以根据用户的实际需求,生成数字人,示例性地:用户需求输入可以通过可视化的交互界面实现,如滑块调节数字人的身高、体重,下拉菜单选择发型、服装款式,输入框自定义面部特征参数等。系统内部构建了丰富的数字人模型库,涵盖不同性别、年龄、种族、职业的基础数字人模型。基于用户输入的需求参数,采用三维建模、纹理映射、骨骼动画等技术,对基础模型进行个性化调整和渲染。例如,通过调整面部肌肉模型和骨骼绑定参数,实现数字人独特的表情和动作风格;利用深度学习生成对抗网络(GAN),根据用户提供的参考图片或描述,生成具有特定外貌特征的数字人形象。
S60、采用图像处理技术对所述数字人进行抠像处理,获得抠像处理后的数字人。
具体地,抠像处理过程中,可以综合运用多种图像处理算法。首先,利用颜色键控技术,通过识别数字人背景的特定颜色(如绿幕的绿色),将背景颜色与数字人主体进行分离;然后,结合边缘检测算法(如Canny边缘检测),精确提取数字人的轮廓边缘,避免边缘模糊或锯齿现象;对于复杂的毛发、半透明物体等难以处理的区域,采用基于深度学习的抠图网络(如Deep Image Matting),通过大量训练数据学习图像的前景和背景信息,实现高质量的抠像效果。最后,对抠像后的数字人进行边缘平滑、色彩校正等后处理操作,使其更加自然逼真。
在本申请的某一实施例中,在步骤S60之后,在步骤S70之前,还包括:
S61、对所述抠像处理后的数字人的轮廓边缘采用边缘细化算法进行优化处理。
具体地,在对数字人进行抠像后,可能需要对其边缘进行膨胀操作以增强视觉效果,膨胀公式具体如下:
膨胀操作可以通过卷积运算实现,假设我们有一个结构元素(kernel),如十字形结构元素:
对于每个像素点,膨胀后的像素值可以表示为:
即选择结构元素覆盖范围内所有像素的最大值作为膨胀后的结果。
其中,P′为膨胀后的像素值,P(i,j)表示在位置(i,j)处的取值,K为像素坐标集合。
S70、将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频。
具体地,在合并阶段,采用视频合成技术将抠像后的数字人融入第一视频中。根据第一视频的场景和构图,调整数字人的位置、大小、角度,使其与视频背景自然融合。利用深度估计和遮挡处理算法,模拟数字人在视频场景中的空间关系,确保数字人不会出现“悬浮”或与背景物体穿插的现象。同时,为了增强数字人的真实感和表现力,还会添加光影效果,根据第一视频的光线方向和强度,为数字人添加相应的阴影和高光,使数字人与视频环境在光照条件上保持一致,最终生成高质量、具有视觉冲击力的数字人口播视频。
在本申请的某一实施例中,数字人抠像与数字人抠像与视频合成采用
Alpha Compositing公式,具体目标为:将抠像后的数字人形象与背景图像进行无缝融合。
Alpha混合公式:
假设有两层图像:背景图像Cin和前景图像(即数字人图像)Clayer,它们都有对应的透明度(alpha通道)Ain和Alayer。
输出颜色Cout的计算公式为:
输出透明度Aout的计算公式为:
Aout=Alayer+Ain*(1-Alayer)
其中,Cout为输出的颜色;Cin为背景图像;Clayer为前景图像;Ain为背景图像的透明度;Alayer为前景图像的透明度;Aout为输出透明度。
本申请提供的一种基于数字人的口播视频生成方法,其有益效果在于:
首先,打破了传统基于模板生成的局限,实现了高度定制化生产。通过用户可自定义输入参数生成数字人形象,并利用先进的三维建模与深度学习技术对其进行个性化调整,满足用户在不同场景下对数字人外貌、动作、风格等多维度的定制需求,有效解决了数字人形象同质化问题。同时,在口播内容与视频素材的处理上,通过多模态大模型进行深度内容分析,能够精准匹配文案与视频画面,结合用户需求灵活调整音视频元素,实现内容的定制化呈现,使数字人口播视频更好地适配电商、教育、娱乐等多元化应用场景。
其次,显著提升了视频生成的准确性与质量。利用多模态大模型融合自然语言处理与计算机视觉技术,精准确定文案在视频素材中的时间戳信息,配合先进的音视频同步算法,确保音频与视频画面的精确对齐;在音频预处理与数字人抠像处理环节,采用降噪、增强、深度学习抠图等技术,有效提升音频清晰度与数字人图像质量,最终生成视听效果协调、画面真实自然的高质量口播视频。
再者,提高了视频生成效率。方案中采用多线程、分布式计算等技术加速音视频合并,结合自动化的数据获取与处理流程,减少人工干预,大幅缩短数字人口播视频的制作周期,满足用户快速迭代内容的需求,降低数字人视频的生产制作成本,增强方案在市场应用中的竞争力与实用性。
请参阅图2,本申请实施例还提供一种数字人的口播视频生成系统200,包括:
获取模块201,用于获取口播文案和视频素材数据;
内容分析模块202,用于对所述口播文案和所述视频素材采用多模态大模型进行内容分析,确定所述文案中每句文案在所述视频素材中对应的时间戳信息;
预处理模块203,用于将所述口播文案转化成对应的音频数据,并对所述音频数据进行预处理,获得预处理后的语音数据;
合成模块204,用于根据所述时间戳信息,将所述预处理后音频数据与所述视频数据数据进行合并,生成第一视频数据;
数字人生成模块205,用于根据用户的需求,生成数字人;
抠像处理模块206,用于采用图像处理技术对所述数字人进行抠像处理,获得抠像处理后的数字人;
口播视频生成模块207,用于将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频。
在本申请的某一实施例中,所述系统200还包括:轮廓优化模块2061,用于对所述抠像处理后的数字人的轮廓边缘采用边缘细化算法进行优化处理。
请参阅图3,本申请实施例还提供一种计算机电子设备300,包括存储器303和处理器302,所述存储器303存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的数字人的口播视频生成方法的步骤。
具体的,所述电子设备300包括:收发机301、总线接口及处理器302,所述处理器302,用于获取口播文案和视频素材数据;对所述口播文案和所述视频素材采用多模态大模型进行内容分析,确定所述文案中每句文案在所述视频素材中对应的时间戳信息;将所述口播文案转化成对应的音频数据,并对所述音频数据进行预处理,获得预处理后的语音数据;根据所述时间戳信息,将所述预处理后音频数据与所述视频数据数据进行合并,生成第一视频数据;根据用户的需求,生成数字人;采用图像处理技术对所述数字人进行抠像处理,获得抠像处理后的数字人;将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频。
在本申请实施例中,电子设备300还包括:存储器303。在图3中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器302代表的一个或多个处理器和存储器303代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机301可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线架构和通常的处理,存储器303可以存储处理器302在执行操作时所使用的数据。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述的数字人的口播视频生成方法的步骤。
在本实施例中,计算机可读存储介质可以是非易失性存储介质,也可以是易失性存储介质。例如,该计算机存储介质可包括但不限于为:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种数字人的口播视频生成方法,其特征在于,包括:
获取口播文案和视频素材数据;
对所述口播文案和所述视频素材采用多模态大模型进行内容分析,确定所述文案中每句文案在所述视频素材中对应的时间戳信息;
将所述口播文案转化成对应的音频数据,并对所述音频数据进行预处理,获得预处理后的语音数据;
根据所述时间戳信息,将所述预处理后音频数据与所述视频数据数据进行合并,生成第一视频数据;
根据用户的需求,生成数字人;
采用图像处理技术对所述数字人进行抠像处理,获得抠像处理后的数字人;
将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频。
2.根据权利要求1所述的口播视频生成方法,其特征在于,所述对所述音频数据进行预处理,获得预处理后的语音数据,包括:
对音频数据进行加速或减速处理,使得音频数据的语音节奏与所述视频素材的内容相契合。
3.根据权利要求2所述的口播视频生成方法,其特征在于,所述对所述音频数据进行加速或减速处理,包括:
采用相位声码器或者是波形相似性的重叠相加算法对音频数据进行加速或者减速处理。
4.根据权利要求1所述的口播视频生成方法,其特征在于,在采用图像处理技术对所述数字人进行抠像处理,获得抠像处理的数字人之后,在将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频之前,还包括:
对所述抠像处理后的数字人的轮廓边缘采用边缘细化算法进行优化处理。
5.根据权利要求4所述的口播视频生成方法,其特征在于,所述边缘细化算法,具体采用如下计算公式:
其中,P′为膨胀后的像素值,P(i,j)表示在位置(i,j)处的取值,K为像素坐标集合。
6.根据权利要求1所述的口播视频生成方法,其特征在于,所述将所述抠像处理后的数字人形象与第一视频合并,生成数字人的口播视频,采用如下计算公式:
Aout=Alayer+Ain*(1-Alayer)
其中,Cout为输出的颜色;Cin为背景图像;Clayer为前景图像;Ain为背景图像的透明度;Alayer为前景图像的透明度;Aout为输出透明度。
7.一种数字人的口播视频生成系统,其特征在于,包括:
获取模块,用于获取口播文案和视频素材数据;
内容分析模块,用于对所述口播文案和所述视频素材采用多模态大模型进行内容分析,确定所述文案中每句文案在所述视频素材中对应的时间戳信息;
预处理模块,用于将所述口播文案转化成对应的音频数据,并对所述音频数据进行预处理,获得预处理后的语音数据;
合成模块,用于根据所述时间戳信息,将所述预处理后音频数据与所述视频数据数据进行合并,生成第一视频数据;
数字人生成模块,用于根据用户的需求,生成数字人;
抠像处理模块,用于采用图像处理技术对所述数字人进行抠像处理,获得抠像处理后的数字人;
口播视频生成模块,用于将所述抠像处理后的数字人与第一视频合并,生成数字人的口播视频。
8.根据权利要求7所述的口播视频生成系统,其特征在于,所述系统还包括:轮廓优化模块,用于对所述抠像处理后的数字人的轮廓边缘采用边缘细化算法进行优化处理。
9.一种计算机电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的数字人的口播视频生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的数字人的口播视频生成方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510800917.8A CN120475233A (zh) | 2025-06-16 | 2025-06-16 | 一种数字人的口播视频生成方法、系统、设备及介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510800917.8A CN120475233A (zh) | 2025-06-16 | 2025-06-16 | 一种数字人的口播视频生成方法、系统、设备及介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120475233A true CN120475233A (zh) | 2025-08-12 |
Family
ID=96634723
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510800917.8A Pending CN120475233A (zh) | 2025-06-16 | 2025-06-16 | 一种数字人的口播视频生成方法、系统、设备及介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120475233A (zh) |
-
2025
- 2025-06-16 CN CN202510800917.8A patent/CN120475233A/zh active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112967212B (zh) | 一种虚拟人物的合成方法、装置、设备及存储介质 | |
| CN113901894B (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
| US11582519B1 (en) | Person replacement utilizing deferred neural rendering | |
| Cao et al. | Expressive speech-driven facial animation | |
| CN114513706B (zh) | 视频生成方法和装置、计算机设备、存储介质 | |
| US11581020B1 (en) | Facial synchronization utilizing deferred neural rendering | |
| CN113287118A (zh) | 用于面部再现的系统和方法 | |
| US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
| CN110874557A (zh) | 一种语音驱动虚拟人脸的视频生成方法以及装置 | |
| CN118674839B (zh) | 动画生成方法、装置、电子设备、存储介质及程序产品 | |
| CN119440254A (zh) | 一种数字人实时交互系统及数字人实时交互方法 | |
| CN117834935A (zh) | 数字人直播方法、装置、电子设备及存储介质 | |
| CN120318379B (zh) | 融合多模态感知的ai视觉特效动态生成系统 | |
| CN114898019A (zh) | 一种动画融合方法和装置 | |
| CN118138854A (zh) | 视频生成方法、装置、计算机设备及介质 | |
| CN117636897A (zh) | 一种数字人音视频生成系统 | |
| CN113453027B (zh) | 直播视频、虚拟上妆的图像处理方法、装置及电子设备 | |
| CN116528015A (zh) | 数字人视频的生成方法、装置、电子设备和存储介质 | |
| Kawai et al. | Data-driven speech animation synthesis focusing on realistic inside of the mouth | |
| Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
| CN117557695A (zh) | 一种音频驱动单张照片生成视频的方法及装置 | |
| CN117456067A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
| CN120475233A (zh) | 一种数字人的口播视频生成方法、系统、设备及介质 | |
| Perng et al. | Image talk: a real time synthetic talking head using one single image with chinese text-to-speech capability | |
| CN115529500A (zh) | 动态影像的生成方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination |