CN115052073A

CN115052073A - 一种视频生成方法、装置及电子设备

Info

Publication number: CN115052073A
Application number: CN202110256103.4A
Authority: CN
Inventors: 沈倩子; 柏强
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-09-13
Anticipated expiration: 2041-03-09
Also published as: CN115052073B

Abstract

本发明提供一种视频生成方法、装置及电子设备，涉及视频技术领域，其中，视频生成方法包括：获取用户终端发送的业务服务请求，所述业务服务请求用于请求目标业务服务；确定与所述目标业务服务对应的文字内容，并确定与所述目标业务服务对应的背景图片；将所述文字内容转换为第一图片，并将所述第一图片和所述背景图片合成为第二图片；将所述文字内容转换为语音内容，根据所述语音内容及所述第二图片生成用于返回给所述用户终端的视频。本发明实施例能够为用户推送个性化视频，从而能够提高智能视频客服的服务效果。

Description

一种视频生成方法、装置及电子设备

技术领域

本发明涉及视频技术领域，尤其涉及一种视频生成方法、装置及电子设备。

背景技术

目前，客服系统实现智能视频客服的方式通常为：预先录制视频片段，在用户终端请求客服系统提供智能客服服务时，向用户终端播放预先录制的视频片段，从而用户终端可以播放该预先录制的视频片段。现有的智能视频客服局限性较强，无法为用户推送个性化视频，智能视频客服的服务效果较差。

发明内容

本发明实施例提供一种视频生成方法、装置及电子设备，以解决现有的智能视频客服局限性较强，无法为用户推送个性化视频，智能视频客服的服务效果较差的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种视频生成方法，所述方法包括：

获取用户终端发送的业务服务请求，所述业务服务请求用于请求目标业务服务；

确定与所述目标业务服务对应的文字内容，并确定与所述目标业务服务对应的背景图片；

将所述文字内容转换为第一图片，并将所述第一图片和所述背景图片合成为第二图片；

将所述文字内容转换为语音内容，根据所述语音内容及所述第二图片生成用于返回给所述用户终端的视频。

可选的，所述确定与所述目标业务服务对应的文字内容，包括：

针对所述用户终端执行所述目标业务服务，并获取所述目标业务服务的执行结果；

获取所述目标业务服务对应的文字模板及索引值；

在所述文字模板中所述索引值对应的位置插入所述执行结果，得到与所述目标业务服务对应的文字内容。

可选的，所述将所述文字内容转换为第一图片，包括；

根据所述文字内容确定目标文字参数以及目标行数，所述目标文字参数用于表征文字大小；

根据所述目标文字参数以及所述目标行数确定图片模板中的文字区域，所述图片模板与所述背景图片的大小相同；

根据所述背景图片中所述文字区域对应的位置的颜色属性参数确定文字显示颜色；

将所述文字内容按照文字显示参数填充至所述图片模板中的所述文字区域，得到第一图片，所述文字显示参数包括所述目标文字参数、所述目标行数及所述文字显示颜色。

可选的，所述根据所述文字内容确定目标文字参数以及目标行数，包括：

确定至少一个候选文字参数及对应的行数，所述候选文字参数和行数满足第一条件和第二条件；

从所述至少一个候选文字参数中确定目标文字参数，并确定所述目标文字参数对应的目标行数；

其中，第一条件为：P*(1+L)≤R_y*Y，P为候选文字参数，L为行数，R_y为预设宽度占比，Y为所述背景图片的宽度；

第二条件为：

N为所述文字内容的文字长度，R_x为预设长度占比，X为所述背景图片的长度。

可选的，所述颜色属性参数为RGB参数，所述根据所述背景图片中所述文字区域对应的位置的颜色属性参数确定文字显示颜色，包括：

获取所述背景图片中所述文字区域对应的位置的多个像素点的RGB参数；

根据所述多个像素点的RGB参数确定所述多个像素点的平均RGB参数；

根据所述多个像素点的平均RGB参数确定饱和度值和明度值；

基于第一阈值确定文字显示颜色，其中，所述第一阈值为第一预设系数与所述饱和度值的乘积与第二预设系数与所述明度值的乘积的和。

可选的，所述将所述第一图片和所述背景图片合成为第二图片，包括：

将所述第一图片和所述背景图片进行合并处理，得到合并图片；

基于边缘检测算法提取所述合并图片中文字区域对应的位置的多个边缘像素点；

获取目标边缘像素点及与所述目标边缘像素点相邻的多个相邻像素点的灰度值，所述目标边缘像素点为所述多个边缘像素点中的任意一个边缘像素点；

基于所述目标边缘像素点和所述多个相邻像素点的灰度值对所述合并图片中的目标边缘像素点进行加权平均滤波处理，得到所述第二图片。

可选的，所述基于所述目标边缘像素点和所述多个相邻像素点的灰度值对所述合并图片中的目标边缘像素点进行加权平均滤波处理，包括：

根据所述目标边缘像素点的灰度值与所述多个相邻像素点的灰度值的差值的绝对值确定差值矩阵；

基于RGB参数矩阵与权值矩阵进行哈达马积运算，得到加权RGB参数矩阵，所述RGB参数矩阵基于所述目标边缘像素点的RGB参数与所述多个相邻像素点的RGB参数确定，所述权值矩阵基于所述差值矩阵确定；

确定加权平均滤波处理后的合并图片，其中，所述加权平均滤波处理后的合并图片中所述目标边缘像素点的RGB参数基于所述加权RGB参数矩阵确定。

第二方面，本发明实施例提供了一种视频生成装置，所述装置包括：

获取模块，用于获取用户终端发送的业务服务请求，所述业务服务请求用于请求目标业务服务；

确定模块，用于确定与所述目标业务服务对应的文字内容，并确定与所述目标业务服务对应的背景图片；

合成模块，用于将所述文字内容转换为第一图片，并将所述第一图片和所述背景图片合成为第二图片；

生成模块，用于将所述文字内容转换为语音内容，根据所述语音内容及所述第二图片生成用于返回给所述用户终端的视频。

可选的，所述确定模块具体用于：

获取所述目标业务服务对应的文字模板及索引值；

在所述文字模板中所述索引值对应的位置插入所述执行结果，得到与所述目标业务服务对应的文字内容；

确定与所述目标业务服务对应的背景图片。

可选的，所述合成模块包括；

第一确定单元，用于根据所述文字内容确定目标文字参数以及目标行数，所述目标文字参数用于表征文字大小；

第二确定单元，用于根据所述目标文字参数以及所述目标行数确定图片模板中的文字区域，所述图片模板与所述背景图片的大小相同；

第三确定单元，用于根据所述背景图片中所述文字区域对应的位置的颜色属性参数确定文字显示颜色；

填充单元，用于将所述文字内容按照文字显示参数填充至所述图片模板中的所述文字区域，得到第一图片，所述文字显示参数包括所述目标文字参数、所述目标行数及所述文字显示颜色；

合成单元，用于将所述第一图片和所述背景图片合成为第二图片。

可选的，所述第一确定单元具体用于：

第二条件为：

可选的，所述颜色属性参数为RGB参数，所述第三确定单元具体用于：

根据所述多个像素点的平均RGB参数确定饱和度值和明度值；

可选的，所述合成模块包括：

转换单元，用于将所述文字内容转换为第一图片；

合并单元，用于将所述第一图片和所述背景图片进行合并处理，得到合并图片；

提取单元，用于基于边缘检测算法提取所述合并图片中文字区域对应的位置的多个边缘像素点；

获取单元，用于获取目标边缘像素点及与所述目标边缘像素点相邻的多个相邻像素点的灰度值，所述目标边缘像素点为所述多个边缘像素点中的任意一个边缘像素点；

处理单元，用于基于所述目标边缘像素点和所述多个相邻像素点的灰度值对所述合并图片中的目标边缘像素点进行加权平均滤波处理，得到所述第二图片。

可选的，所述处理单元具体用于：

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现第一方面所述的视频生成方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的视频生成方法的步骤。

本发明实施例中，获取用户终端发送的业务服务请求，所述业务服务请求用于请求目标业务服务；确定与所述目标业务服务对应的文字内容，并确定与所述目标业务服务对应的背景图片；将所述文字内容转换为第一图片，并将所述第一图片和所述背景图片合成为第二图片；将所述文字内容转换为语音内容，根据所述语音内容及所述第二图片生成用于返回给所述用户终端的视频。这样，对于不同的用户终端，生成与用户终端匹配的视频，能够为用户推送个性化视频，从而能够提高智能视频客服的服务效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频生成方法的流程图；

图2是本发明实施例提供的一种视频生成方法的部分流程示意图；

图3是本发明实施例提供的一种视频生成装置的结构示意图之一；

图4是本发明实施例提供的一种视频生成装置的结构示意图之二；

图5是本发明实施例提供的一种视频生成装置的结构示意图之三；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，提出了一种视频生成方法、装置及电子设备，以解决现有的智能视频客服局限性较强，无法为用户推送个性化视频，智能视频客服的服务效果较差的问题。

参见图1，图1是本发明实施例提供的一种视频生成方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101、获取用户终端发送的业务服务请求，所述业务服务请求用于请求目标业务服务。

其中，可以从交互式语音及视频应答(Interactive Voice and Video Response，IVVR)系统获取用户终端发送的业务服务请求。所述业务服务请求中可以携带用于表征目标业务服务的服务编号。示例地，用户终端可以为手机，目标业务服务可以为查询话费余额、查询流量及套餐使用情况等业务服务。

步骤102、确定与所述目标业务服务对应的文字内容，并确定与所述目标业务服务对应的背景图片。

其中，可以针对所述用户终端执行所述目标业务服务，并获取所述目标业务服务的执行结果，与所述目标业务服务对应的文字内容可以包括所述目标业务服务的执行结果。另外，可以在图片模板库中查找出与目标业务服务对应的背景图片，示例地，可以根据用于表征目标业务服务的服务编号生成SQL语句，在图片模板库中查找出与目标业务服务对应的背景图片。在图片模板库中，对于不同的服务编号，可以对应存储有不同的背景图片。

步骤103、将所述文字内容转换为第一图片，并将所述第一图片和所述背景图片合成为第二图片。

其中，第一图片可以为包括所述文字内容的图片。为便于图片合成，第一图片可以为具有透明底色的图片。可以通过图层合并的方式将第一图片和所述背景图片合成为第二图片。第二图片可以是第一图片和背景图片叠加后得到的图片。

步骤104、将所述文字内容转换为语音内容，根据所述语音内容及所述第二图片生成用于返回给所述用户终端的视频。

其中，可以使用TTS(语音合成)接口将所述文字内容转换为语音内容，并可以得到语音长度。在实际应用中，可以使用图片转视频工具，例如ffmpeg工具将第二图片转换为视频，视频的长度为语音长度，在将第二图片转换为视频的过程中，可以在视频的前后加上无声音的0.5s空白帧，加入过渡效果，从而生成的视频更为流畅。可以在语音内容的前后加上0.5s的空白，将加上空白后的语音内容与转换的视频进行合并，生成用于返回给所述用户终端的视频。

获取所述目标业务服务对应的文字模板及索引值；

其中，所述业务服务请求还可以携带用户终端标识，所述用户终端标识可以用于标识所述用户终端。以用户终端为手机为例，用户终端标识可以为手机号码。以目标业务服务为查询服务为例，所述目标业务服务的执行结果可以为查询结果，所述针对所述用户终端执行所述目标业务服务，并获取所述目标业务服务的执行结果，可以是，针对所述用户终端执行查询服务，并获取查询结果。示例地，可以根据用于表征目标业务服务的服务编号映射得到一张或多张数据表，根据数据表与用户终端标识生成SQL语句，采用SQL语句在数据库中进行查询，并获取查询结果。以目标业务服务为查询话费余额服务为例，所述目标业务服务的执行结果为话费余额。

另外，可以在文字模板库中查找出所述目标业务服务对应的文字模板及索引值，示例地，可以根据用于表征目标业务服务的服务编号生成SQL语句，在文字模板库中查找出与目标业务服务对应的文字模板及索引值。在文字模板库中，对于不同的服务编号，可以对应存储有不同的文字模板及索引值。

示例地，所述文字模板可以为“尊敬的张三先生，您的话费余额为元”，索引值为15，执行结果为102.67，在所述文字模板中所述索引值对应的位置插入所述执行结果，文字内容可以为：“尊敬的张三先生，您的话费余额为102.67元”。

该实施方式中，通过在所述文字模板中所述索引值对应的位置插入所述执行结果，得到与所述目标业务服务对应的文字内容，从而能够在生成的视频中为用户提供个性化数据展示，具有较为广阔的使用场景。

可选的，所述将所述文字内容转换为第一图片，包括；

其中，目标文字参数可以表现为字号，例如，四号字，五号字等等；或者目标文字参数还可以用像素数描述，像素数与字号可以存在对应关系，例如，四号字对应的像素数为18，五号字对应的像素数为14。所述图片模板可以为透明底的图片。图片模板中的文字区域可以以坐标的形式表示，示例地，以图片模板的下方的长边为x轴，图片模板的左边的宽边为y轴，文字区域的左上角的坐标可以为：(0.1X，0.7Y)，文字区域的右下角的坐标可以为：(0.9X，0.7Y-(L₁+1)*P₁)，X为所述背景图片的长度，Y为所述背景图片的宽度，P₁为目标文字参数，L₁为目标行数。

另外，将所述文字内容按照文字显示参数填充至所述图片模板中的所述文字区域，得到第一图片，第一图片中文字内容以目标行数排布在文字区域，以文字显示颜色显示，并且显示大小为目标文字参数。

该实施方式中，通过将所述文字内容按照文字显示参数填充至所述图片模板中的所述文字区域，得到第一图片，从而基于第一图片生成的视频画面较为美观，且具有较好的用户友好性。

第二条件为：

其中，L为正整数。0＜R_x＜1，且0＜R_y＜1。候选文字参数可以用于表征文字大小。候选文字参数可以表现为字号，例如，四号字，五号字等等；或者候选文字参数还可以用像素数描述，像素数与字号可以存在对应关系，例如，四号字对应的像素数为18，五号字对应的像素数为14。预设长度占比可以为60％，或者80％，或者90％等等。预设宽度占比可以为20％，或者40％，或者60％等等。以目标业务服务为查询银行账户余额服务为例，为获取较好的显示效果，通常文字内容占图片模板的长宽比例不超过80％和40％，可以设置预设宽度占比为40％，预设长度占比为80％，分别计算L为1，或者2，或者3时，符合第一条件和第二条件的候选文字参数。

另外，所述从所述至少一个候选文字参数中确定目标文字参数，可以是，从所述至少一个候选文字参数中选择数值最大的候选文字参数作为目标文字参数；或者还可以是，将在预设取值范围内的候选文字参数作为目标文字参数，在存在多个候选文字参数在预设取值范围内时，可以选取该预设取值范围内数值最大的候选文字参数作为目标文字参数。预设取值范围可以依据实际需求设置，示例地，以候选文字参数用像素数描述为例，预设取值范围可以设置为15至25之间。

在实际应用中，如图2所示，确定至少一个候选文字参数及对应的行数的方式可以包括如下过程：

步骤a:进行初始化；

其中，在初始化的过程中，获取背景图片的长度和宽度，以及所述文字内容的文字长度N，设置行数L的初始值为1；

步骤b:判断行数L是否小于或等于3；若是，则执行步骤c；若否，则结束；

步骤c:获取满足第二条件的候选文字参数；

步骤d:确定获取的候选文字参数是否满足第一条件；若是，则存储候选文字参数与行数的对应关系；若否，则执行步骤e；

步骤e：将行数L的值加1，执行步骤b。

可以将候选文字参数与对应的行数以二元组的形式存储，若存在候选文字参数在预设取值范围内时，可以选取该预设取值范围内数值最大的候选文字参数作为目标文字参数；若不存在候选文字参数在预设取值范围内时，可以选取与目标取值的差值的绝对值最小的候选文字参数作为目标文字参数。可以将选取的候选文字参数对应的行数作为目标行数。目标取值可以依据实际需求设置，示例地，以候选文字参数用像素数描述为例，目标取值可以为18。

以候选文字参数用像素数描述为例，像素数与字号可以存在对应关系，在确定目标文字参数后，可以以目标文字参数对应的字号在图片模板中显示文字内容。可以将最接近目标文字参数的像素数对应的字号作为目标文字参数对应的字号。像素数与字号的对应关系可以包括中文字号、英文字号与像素数的对应关系。在文字内容为中文文字时，可以选取中文字号；在文字内容为英文文字时，可以选取英文字号。示例地，中文字号、英文字号与像素数的对应关系可以如表1所示：

表1

该实施方式中，确定至少一个候选文字参数及对应的行数，所述候选文字参数和行数满足第一条件和第二条件，从所述至少一个候选文字参数中确定目标文字参数，并确定所述目标文字参数对应的目标行数。这样，能够基于背景图片的大小自适应地调整文字显示参数，使得生成的视频具有较好地显示效果。

根据所述多个像素点的平均RGB参数确定饱和度值和明度值；

其中，所述背景图片中所述文字区域对应的位置，可以是第一图片和背景图片合并后，所述第一图片的文字区域在背景图片的位置。所述多个像素点的平均RGB参数可以是所述多个像素点的RGB参数的平均值，所述多个像素点的平均RGB参数可以包括所述多个像素点的平均R参数值、所述多个像素点的平均B参数值以及多个像素点的平均G参数值。所述多个像素点的平均R参数值可以是所述多个像素点的R参数值的平均值，所述多个像素点的平均G参数值可以是所述多个像素点的G参数值的平均值，所述多个像素点的平均B参数值可以是所述多个像素点的B参数值的平均值。可以通过现有的RGB转HSV的方法根据所述多个像素点的平均RGB参数确定饱和度值和明度值。

另外，饱和度值(S)和明度值(V)作为HSV颜色空间的颜色参数，饱和度值越小或者明度值越大，则表征颜色越浅；饱和度值越大或者明度值越小，则表征颜色越深。第一预设系数可以大于第二预设系数，第一预设系数可以为0.7，或者0.8，或者0.9等等。第二预设系数可以为0.3，或者0.2，或者0.1等等。示例地，第一预设系数为0.8，第二预设系数为0.2。在第一阈值大于预设阈值时，可以判断所述背景图片中所述文字区域对应的位置为深色；在第一阈值小于或等于预设阈值时，可以判断所述背景图片中所述文字区域对应的位置为浅色。预设阈值可以根据实际情况设置，在第一预设系数为0.8，第二预设系数为0.2时，预设阈值可以取值为200。为突出文字显示效果，在判断所述背景图片中所述文字区域对应的位置为深色的情况下，可以确定文字显示颜色为浅色；在判断所述背景图片中所述文字区域对应的位置为浅色的情况下，可以确定文字显示颜色为深色。

该实施方式中，获取所述背景图片中所述文字区域对应的位置的多个像素点的RGB参数；根据所述多个像素点的RGB参数确定所述多个像素点的平均RGB参数；根据所述多个像素点的平均RGB参数确定饱和度值和明度值；基于第一阈值确定文字显示颜色。这样，能够根据所述背景图片中所述文字区域对应的位置的颜色自适应地确定文字显示颜色，使得生成的视频具有较好地显示效果。

其中，文字区域可以是文字内容所在的区域，具体的，可以是用于生成第一图片的图片模板中的文字区域。边缘检测算法可以用于对文字区域进行边缘提取。示例地，边缘检测算法可以为Canny算法。可以将提取的边缘像素点存储在列表中。在获取目标边缘像素点及与所述目标边缘像素点相邻的多个相邻像素点的灰度值之前，可以将合并图片中文字区域对应的图像提取出来，转换为灰度图。示例地，与所述目标边缘像素点相邻的多个相邻像素点，可以是与所述目标边缘像素点相邻的8个相邻像素点。示例地，8个相邻像素点可以是以目标边缘像素点为中心，环绕目标边缘像素点的8个相邻的像素点。

另外，所述基于所述目标边缘像素点和所述多个相邻像素点的灰度值对所述合并图片中的目标边缘像素点进行加权平均滤波处理，可以是，根据所述目标边缘像素点的灰度值与所述多个相邻像素点的灰度值的差值的绝对值确定差值矩阵，基于RGB参数矩阵与权值矩阵进行哈达马积运算，得到加权RGB参数矩阵，所述RGB参数矩阵基于所述目标边缘像素点的RGB参数与所述多个相邻像素点的RGB参数确定，所述权值矩阵基于所述差值矩阵确定，确定加权平均滤波处理后的合并图片，其中，所述加权平均滤波处理后的合并图片中所述目标边缘像素点的RGB参数基于所述加权RGB参数矩阵确定；或者还可以是，计算所述多个相邻像素点的灰度值的均值，并计算目标边缘像素点的灰度值与所述均值的比值，所述第二图片中目标边缘像素点的RGB参数为合并图片中目标边缘像素点的RGB参数与所述比值的乘积。

该实施方式中，基于所述目标边缘像素点和所述多个相邻像素点的灰度值对所述合并图片中的目标边缘像素点进行加权平均滤波处理，能够使得文字区域边缘较为平滑，从而文字内容和背景图片的融合效果较好。

其中，以多个相邻像素点为8个相邻像素点为例，差值矩阵可以为3行3列的矩阵，差值矩阵中第2行第2列的值可以为0，用于表征目标边缘像素点，其余8个值分别为所述目标边缘像素点的灰度值与所述多个相邻像素点的灰度值的差值的绝对值。权值矩阵可以为3行3列的矩阵，权值矩阵中第2行第2列的值可以为第一预设值，用于表征目标边缘像素点，将差值矩阵中的值从大到小排序，较大的四个值对应的相邻像素点在权值矩阵中相应的位置可以设置为第二预设值，较小的四个值对应的相邻像素点在权值矩阵中相应的位置可以设置为第三预设值。第一预设值、第二预设值及第三预设值可以依据实际需求设置。示例地，第一预设值可以为4，第二预设值可以为1，第三预设值可以为2。

进一步的，所述RGB参数矩阵可以包括R参数矩阵、B参数矩阵及G参数矩阵。以R参数矩阵为例，R参数矩阵可以为3行3列的矩阵，R参数矩阵中的值分别为目标边缘像素点及其8个相邻像素点的R参数值，B参数矩阵及G参数矩阵可以依次类推。

另外，所述加权平均滤波处理后的合并图片中目标边缘像素点的RGB参数可以是所述加权RGB参数矩阵中的值的和，加权RGB参数矩阵可以包括加权R参数矩阵、加权G参数矩阵及加权B参数矩阵。所述加权平均滤波处理后的合并图片中目标边缘像素点的RGB参数中R参数可以为加权R参数矩阵中的值的和，目标边缘像素点的RGB参数中G参数可以为加权G参数矩阵中的值的和，目标边缘像素点的RGB参数中B参数可以为加权B参数矩阵中的值的和。

作为一个具体的实施方式，目标边缘像素点与8个相邻像素点的RGB值可以表征为如下矩阵：

[0 11 9]为目标边缘像素点的RGB值，其中，0为R参数值，11为B参数值，9为G参数值。目标边缘像素点与8个相邻像素点的RGB值在矩阵中的位置关系，与目标边缘像素点与8个相邻像素点在图像中的位置关系可以相同。转换为灰度图后，目标边缘像素点与8个相邻像素点的灰度值可以为：

计算所述目标边缘像素点的灰度值与所述多个相邻像素点的灰度值的差值的绝对值，差值矩阵可以为：

基于所述差值矩阵确定权值矩阵，权值矩阵为：

分别将R参数矩阵、B参数矩阵及G参数矩阵与权值矩阵进行哈达马积运算，得到加权R参数矩阵、加权G参数矩阵及加权B参数矩阵：

所述加权平均滤波处理后的合并图片中所述目标边缘像素点的RGB参数可以为所述加权RGB参数矩阵中的值的和：

R＝10+4+9+10+0+0+10+0+0＝43

G＝12+6+11+12+2+0+12+0+0＝55

B＝12+6+11+11+2+0+12+0+0＝54

该实施方式中，根据所述目标边缘像素点的灰度值与所述多个相邻像素点的灰度值的差值的绝对值确定差值矩阵；基于RGB参数矩阵与权值矩阵进行哈达马积运算，得到加权RGB参数矩阵，所述RGB参数矩阵基于所述目标边缘像素点的RGB参数与所述多个相邻像素点的RGB参数确定，所述权值矩阵基于所述差值矩阵确定；确定加权平均滤波处理后的合并图片，从而能够实现有条件的加权平均滤波处理，滤波效果较好，能够使得文字区域边缘更为平滑。

作为一种具体的实施方式，视频生成方法可以应用于视频生成装置，如图3所示，视频生成装置可以包括请求处理模块、文本转图片模块、图片合成模块、语音合成模块及视频合成模块。

示例地，在用户通过用户终端拨通查询电话想要查询自己的话费余额的情况下，视频生成装置的工作过程可以如下：

用户拨通查询电话后，接入IVVR系统，用户终端播放欢迎视频，欢迎视频中给出提示“查询话费余额请按1，查询流量余额请按2……”，用户按1键进行话费余额的查询；

视频生成装置通过IVVR获取到用户终端查询话费余额的业务服务请求，业务服务请求中携带服务编号1，通过映射表可以确定该业务服务请求为查询话费余额的请求。如图4所示，视频生成装置的请求处理模块包括请求图片模板库服务单元、请求文字模板库服务单元及请求数据库服务单元。请求图片模板库服务单元在图片模板库中查找到话费余额查询对应的背景图片，请求文字模板库服务单元在文字模板库中查找到话费余额查询对应的文字模板及索引值，请求数据库服务单元在数据库中根据业务服务请求中携带的用户终端标识查找到对应的话费余额。请求文字模板库服务单元将查找到的文字模板及索引值传递给文本转图片模块作为输入，请求数据库服务单元将查找到的话费余额传递给文本转图片模块作为输入，请求图片模板库服务单元将背景图片传递给图片合成模块作为输入。

文本转图片模块根据索引值将用户终端标识对应的用户信息和话费余额填充至文字模板，生成文字内容“尊敬的张三先生，您的话费余额为102.67元”，并将文字内容传递给语音合成模块作为输入。文本转图片模块中设定R_y为0.3，R_x为0.9，文字长度N为20，背景图片的长度X为360，背景图片的宽度Y为480，根据第一条件和第二条件计算出：

P×(1+L)≤0.3×480

L的取值范围为1、2及3，当L取值为1时，P为16，大小较为合适，查找像素数和字号的对应关系，得到字号为小四。背景图片的平均HSV值为[99 132 234]，饱和度值为132，明度值为234，以第一预设系数为0.8，第二预设系数为0.2，预设阈值取值为200为例，计算得到第一阈值为152.4，第一阈值小于200，判定为浅色底，可以确定文字颜色为深色字，选取文字颜色为黑色。文本转图片模块按照背景图片大小生成有文字透明底的第一图片，传递给图片合成模块作为输入。

图片合成模块将第一图片和背景图片进行融合，将透明底的图片叠加在背景图片上合成合并图片，对合并图片进行边缘处理，利用canny算子提取出文字的边缘，对边缘像素点进行加权平均滤波处理，将各边缘点的RGB值重新赋值，得到第二图片，并将第二图片传递给视频合成模块作为输入。

语音合成模块将文本转图片模块传递的文字内容，利用现有tts接口合成语音内容，将合成的语音内容传递给视频合成模块作为输入。

视频合成模块根据图片合成模块传递的第二图片和语音合成模块传递的语音内容利用现有的视频合成工具进行视频的合成。为了使得视频更具观赏友好性，加入过渡帧，使得画片整体更舒缓流畅。

视频生成装置将生成的视频返回给IVVR，在用户终端播放。

该实施方式中，提供了视频的动态生成方法，使实时查询出来的用户个性化数据能够动态生成视频呈现出来，且文本区域、字号、颜色的确定，使整体画面更具美观性。本发明实施例的视频生成方法可用于个性化数据展示，具有更广阔的适用场景，且具有经济价值。

参见图5，图5是本发明实施例提供的一种视频生成装置的结构示意图，如图5所示，视频生成装置200包括：

获取模块201，用于获取用户终端发送的业务服务请求，所述业务服务请求用于请求目标业务服务；

确定模块202，用于确定与所述目标业务服务对应的文字内容，并确定与所述目标业务服务对应的背景图片；

合成模块203，用于将所述文字内容转换为第一图片，并将所述第一图片和所述背景图片合成为第二图片；

生成模块204，用于将所述文字内容转换为语音内容，根据所述语音内容及所述第二图片生成用于返回给所述用户终端的视频。

可选的，所述确定模块202具体用于：

获取所述目标业务服务对应的文字模板及索引值；

确定与所述目标业务服务对应的背景图片。

可选的，所述合成模块203包括；

可选的，所述第一确定单元具体用于：

第二条件为：

根据所述多个像素点的平均RGB参数确定饱和度值和明度值；

可选的，所述合成模块203包括：

转换单元，用于将所述文字内容转换为第一图片；

可选的，所述处理单元具体用于：

视频生成装置能够实现图1的方法实施例中实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

如图6所示，本发明实施例还提供了一种电子设备300，包括：处理器301、存储器302及存储在所述存储器302上并可在所述处理器301上运行的程序，所述程序被所述处理器301执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如ROM、RAM、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定与所述目标业务服务对应的文字内容，包括：

获取所述目标业务服务对应的文字模板及索引值；

3.根据权利要求1所述的方法，其特征在于，所述将所述文字内容转换为第一图片，包括；

4.根据权利要求3所述的方法，其特征在于，所述根据所述文字内容确定目标文字参数以及目标行数，包括：

第二条件为：

5.根据权利要求3所述的方法，其特征在于，所述颜色属性参数为RGB参数，所述根据所述背景图片中所述文字区域对应的位置的颜色属性参数确定文字显示颜色，包括：

根据所述多个像素点的平均RGB参数确定饱和度值和明度值；

6.根据权利要求1所述的方法，其特征在于，所述将所述第一图片和所述背景图片合成为第二图片，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标边缘像素点和所述多个相邻像素点的灰度值对所述合并图片中的目标边缘像素点进行加权平均滤波处理，包括：

8.一种视频生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视频生成方法的步骤。