JP7669555B1 - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP7669555B1 JP7669555B1 JP2024053719A JP2024053719A JP7669555B1 JP 7669555 B1 JP7669555 B1 JP 7669555B1 JP 2024053719 A JP2024053719 A JP 2024053719A JP 2024053719 A JP2024053719 A JP 2024053719A JP 7669555 B1 JP7669555 B1 JP 7669555B1
- Authority
- JP
- Japan
- Prior art keywords
- content
- video content
- generation
- metadata
- generation instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】コンテンツに適合するよう素材を修正する負担を軽減する。【解決手段】動画コンテンツを構成するための素材と、動画コンテンツを生成するための生成指示と、を受付ける受付部131と、素材について記述されたデータであるメタデータを取得する取得部132と、生成指示と、素材のメタデータと、に基づいて、素材を動画コンテンツに適用するための修正内容を特定する特定部133と、特定した修正内容に基づき、素材を修正する指示を画像生成AIに入力するためのプロンプトを生成する生成部134と、を有する情報処理装置1である。【選択図】図2[Problem] To reduce the burden of modifying materials to fit content. [Solution] An information processing device 1 having a receiving unit 131 that receives materials for constituting video content and generation instructions for generating video content, an acquisition unit 132 that acquires metadata that is data describing the materials, a specification unit 133 that specifies modification content for applying the materials to the video content based on the generation instructions and the metadata of the materials, and a generation unit 134 that generates a prompt for inputting instructions to modify the materials to an image generation AI based on the specified modification content. [Selected Figure] Figure 2
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
素材を組み合わせることでコンテンツを構成する装置が知られている(例えば、特許文献1を参照)。 Devices that create content by combining materials are known (see, for example, Patent Document 1).
このような素材が所望の動画コンテンツに適合しない場合があり、コンテンツの生成に制限がある一方、素材を人手で修正する負担が大きいという問題が生じていた。 Such materials may not match the desired video content, which creates limitations on content generation while also creating problems such as the heavy burden of manually correcting the materials.
そこで、本発明はこれらの点に鑑みてなされたものであり、コンテンツに適合するよう素材を修正する負担を軽減することができるようにすることを目的とする。 The present invention was made in consideration of these points, and aims to reduce the burden of modifying materials to fit content.
本発明の第1の態様の情報処理装置においては、動画コンテンツを構成するための素材と、前記動画コンテンツを生成するための生成指示と、を受付ける受付部と、前記素材について記述されたデータであるメタデータを取得する取得部と、前記生成指示と、前記素材のメタデータと、に基づいて、前記素材を前記動画コンテンツに適用するための修正内容を特定する特定部と、特定した修正内容に基づき、前記素材を修正する指示を画像生成AIに入力するためのプロンプトを生成する生成部と、を有する。 The information processing device of the first aspect of the present invention includes a receiving unit that receives materials for constituting video content and generation instructions for generating the video content, an acquisition unit that acquires metadata that is data describing the materials, a specification unit that specifies corrections for applying the materials to the video content based on the generation instructions and the metadata of the materials, and a generation unit that generates a prompt for inputting instructions to modify the materials to an image generation AI based on the specified corrections.
前記メタデータは、前記素材のアスペクト比を含み、前記生成指示は、前記動画コンテンツにおいて基準となるアスペクト比である基準アスペクト比を含み、前記特定部は、前記メタデータが示すアスペクト比と、前記基準アスペクト比と、が異なる場合、前記素材のアスペクト比の変更を前記修正内容として特定し、前記生成部は、前記素材のアスペクト比を前記特定部が特定したアスペクト比に変更するためのプロンプトを生成してもよい。 The metadata includes the aspect ratio of the material, and the generation instruction includes a reference aspect ratio that is a standard aspect ratio for the video content. When the aspect ratio indicated by the metadata differs from the reference aspect ratio, the identification unit may identify a change in the aspect ratio of the material as the modification content, and the generation unit may generate a prompt to change the aspect ratio of the material to the aspect ratio identified by the identification unit.
前記生成指示は、前記動画コンテンツを説明する記載を含み、前記生成部は、前記特定部がアスペクト比の変更を前記修正内容として特定した場合、前記生成指示に基づいて、前記素材のアスペクト比を前記修正内容に基づいて変更するために不足する部分を当該生成指示が示す動画コンテンツを説明する記載に基づいて補完することを指示するためのプロンプトを生成してもよい。 The generation instruction includes a description describing the video content, and when the identification unit identifies a change in aspect ratio as the modification content, the generation unit may generate a prompt based on the generation instruction to instruct the user to supplement a portion that is missing in order to change the aspect ratio of the material based on the modification content, based on the description describing the video content indicated by the generation instruction.
前記生成部は、前記特定部がアスペクト比の変更を前記修正内容として特定した場合、前記生成指示に基づいて、前記素材のアスペクト比を前記修正内容に基づいて変更した場合に余剰となる部分を切り取ることを指示するためのプロンプトを生成してもよい。 When the identification unit identifies a change in aspect ratio as the modification content, the generation unit may generate a prompt based on the generation instruction to instruct the user to cut out a portion that would be redundant if the aspect ratio of the material were changed based on the modification content.
前記素材は写真画像を含み、前記メタデータは、前記写真画像の被写体を説明する記載を含み、前記生成指示は、前記動画コンテンツを説明する記載を含み、前記生成部は、前記メタデータが示す前記写真画像の被写体を説明する記載と、前記生成指示が示す前記動画コンテンツを説明する記載と、が一致しない場合に、前記生成指示が示す前記動画コンテンツを説明する記載に基づいて、前記写真画像を修正するためのプロンプトを生成してもよい。 The material includes a photographic image, the metadata includes a description describing a subject of the photographic image, and the generation instructions include a description describing the video content, and the generation unit may generate a prompt to modify the photographic image based on the description describing the video content indicated by the generation instructions when the description describing the subject of the photographic image indicated by the metadata does not match the description describing the video content indicated by the generation instructions.
前記メタデータと、前記生成指示と、に基づいて、前記素材を前記動画コンテンツに適用するための修正が必要か否かを判定する判定部をさらに有し、前記特定部は、前記素材の修正が必要と前記判定部が判定する場合に、前記修正内容を特定してもよい。 The system may further include a determination unit that determines whether or not modification is required to apply the material to the video content based on the metadata and the generation instructions, and the identification unit may identify the content of the modification when the determination unit determines that modification of the material is required.
前記生成指示は、前記動画コンテンツにおいて表現が制限される事項を示す制限事項をさらに含み、前記生成部は、前記制限事項をさらに含むプロンプトを生成してもよい。 The generation instructions may further include restrictions indicating matters that are restricted from being expressed in the video content, and the generation unit may generate a prompt that further includes the restrictions.
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、動画コンテンツを構成するための素材と、前記動画コンテンツを生成するための生成指示と、を受付けるステップと、前記素材について記述されたデータであるメタデータを取得するステップと、前記生成指示と、前記素材のメタデータと、に基づいて、前記素材を前記動画コンテンツに適用するための修正内容を特定するステップと、特定した修正内容に基づき、前記素材を修正する指示を画像生成AIに入力するためのプロンプトを生成するステップと、を有する。 The information processing method of the second aspect of the present invention includes the steps of receiving materials for constituting video content and generation instructions for generating the video content, executed by a computer, acquiring metadata that is data describing the materials, identifying corrections for applying the materials to the video content based on the generation instructions and the metadata of the materials, and generating a prompt for inputting instructions to modify the materials to an image generation AI based on the identified corrections.
コンピュータに、動画コンテンツを構成するための素材と、前記動画コンテンツを生成するための生成指示と、を受付けるステップと、前記素材について記述されたデータであるメタデータを取得するステップと、前記生成指示と、前記素材のメタデータと、に基づいて、前記素材を前記動画コンテンツに適用するための修正内容を特定するステップと、特定した修正内容に基づき、前記素材を修正する指示を画像生成AIに入力するためのプロンプトを生成するステップと、を実行させる。 The computer is caused to execute the steps of: accepting materials for constructing video content and generation instructions for generating the video content; acquiring metadata, which is data describing the materials; identifying modifications for applying the materials to the video content based on the generation instructions and the metadata of the materials; and generating a prompt for inputting instructions to modify the materials to an image generation AI based on the identified modifications.
本発明によれば、コンテンツに適合するよう素材を修正する負担を軽減するという効果を奏する。 The present invention has the effect of reducing the burden of modifying materials to fit content.
[情報処理システムSの概要]
図1は、実施形態にかかる情報処理装置1の概要を説明するための図である。情報処理システムSは、動画コンテンツを提供するためのシステムである。情報処理システムSは、ユーザが指定した素材に基づいて動画コンテンツを生成する。情報処理システムSは、情報処理装置1、情報端末2及び生成装置3を有する。素材は、動画コンテンツを構成する要素となるコンテンツである。素材は、動画データ、静止画データ、テキストデータ、音声データ又は音楽データ等である。
[Overview of Information Processing System S]
1 is a diagram for explaining an overview of an information processing device 1 according to an embodiment. The information processing system S is a system for providing video content. The information processing system S generates video content based on materials specified by a user. The information processing system S has an information processing device 1, an information terminal 2, and a generation device 3. The materials are contents that are elements that make up the video content. The materials are video data, still image data, text data, audio data, music data, etc.
情報処理装置1は、機械学習モデルに指示を与えるためのプロンプトを生成するための装置である。情報処理装置1は、ユーザが指定したコンテンツの内容と、ユーザが指定した素材のメタデータと、に基づいて素材の修正の要否を判定する。情報処理装置1は、修正が必要な場合に素材の修正を生成装置3に指示するためのプロンプトを生成する。 The information processing device 1 is a device for generating a prompt for giving instructions to a machine learning model. The information processing device 1 determines whether or not the material needs to be modified based on the content specified by the user and the metadata of the material specified by the user. If modification is necessary, the information processing device 1 generates a prompt for instructing the generation device 3 to modify the material.
情報端末2は、情報処理システムSのユーザが使用する端末である。情報端末2は、例えば、スマートフォン、タブレット又はパーソナルコンピュータである。情報端末2は、情報処理装置1に生成するコンテンツの内容についての指示を送信する。 The information terminal 2 is a terminal used by a user of the information processing system S. The information terminal 2 is, for example, a smartphone, a tablet, or a personal computer. The information terminal 2 transmits instructions to the information processing device 1 regarding the content to be generated.
生成装置3は、受付けた指示に基づいて動画コンテンツや静止画等を生成する。生成装置3は、自然言語で記述された指示に基づいて動画像又は静止画像を生成するよう学習された学習済みモデルである生成モデル(以下、「画像生成AI」と言う場合がある)を有し、入力された指示に基づいて生成モデルが生成した動画像又は静止画像を出力する。 The generating device 3 generates video content, still images, etc. based on the received instructions. The generating device 3 has a generative model (hereinafter sometimes referred to as "image generation AI") that is a trained model trained to generate video or still images based on instructions written in natural language, and outputs video or still images generated by the generative model based on the input instructions.
情報処理装置1の処理を説明する。情報処理装置1は、素材及び生成指示を情報端末2から取得する(図1における(1))。生成指示は、動画コンテンツを生成する指示である。一例として、生成指示は、動画コンテンツを説明する記載を含む。具体的には、生成指示においては、「ジョギングする男性」のように動画コンテンツが表現する内容や動画コンテンツに登場する被写体やその動作、情景等を示す情報を含む。生成指示においては、生成する動画コンテンツの再生時間を指定する情報を含んでいてもよいし、動画コンテンツにおいて基準となるアスペクト比(以下、「基準アスペクト比」と言う場合がある)を示す情報を含んでいてもよい。 The processing of the information processing device 1 will be described. The information processing device 1 acquires materials and a generation instruction from the information terminal 2 ((1) in FIG. 1). The generation instruction is an instruction to generate video content. As an example, the generation instruction includes a description that explains the video content. Specifically, the generation instruction includes information indicating the content expressed by the video content, such as "a man jogging", and subjects and their actions and scenes that appear in the video content. The generation instruction may include information specifying the playback time of the video content to be generated, and may include information indicating a standard aspect ratio for the video content (hereinafter sometimes referred to as a "standard aspect ratio").
情報処理装置1は、メタデータを取得する(図1における(2))。メタデータは、素材について記述されたデータである。メタデータは、一例として、素材のアスペクト比を含む。メタデータは、素材に写りこんだ被写体や素材が表現するテーマ等を示す素材を説明する記載を含んでいてもよい。 The information processing device 1 acquires metadata ((2) in FIG. 1). The metadata is data describing the material. As an example, the metadata includes the aspect ratio of the material. The metadata may also include descriptions describing the material, such as subjects captured in the material or the theme expressed by the material.
情報処理装置1は、生成指示と、メタデータと、に基づいて素材の修正内容を特定する(図1における(3))。一例として、情報処理装置1は、生成指示に含まれる動画コンテンツのアスペクト比と、素材のメタデータに含まれるアスペクト比と、を比較し、生成指示に含まれる動画コンテンツのアスペクト比と、素材のメタデータに含まれるアスペクト比と、が異なる場合に素材のアスペクト比を変更することを素材の修正内容として特定する。例えば、素材のアスペクト比が「4:3」であり、動画コンテンツの基準アスペクト比が「16:9」である場合、情報処理装置1は、「アスペクト比を16:9に変更すること」を修正内容として特定する。 The information processing device 1 identifies the modification content of the material based on the generation instruction and the metadata ((3) in FIG. 1). As an example, the information processing device 1 compares the aspect ratio of the video content included in the generation instruction with the aspect ratio included in the metadata of the material, and identifies changing the aspect ratio of the material as the modification content of the material when the aspect ratio of the video content included in the generation instruction differs from the aspect ratio included in the metadata of the material. For example, when the aspect ratio of the material is "4:3" and the standard aspect ratio of the video content is "16:9", the information processing device 1 identifies "changing the aspect ratio to 16:9" as the modification content.
情報処理装置1は、特定した修正内容に基づいて素材を修正するためのプロンプトを生成する(図1における(4))。プロンプトは、自然言語により記述された指示であり、機械学習モデルに与える指示である。例えば、特定した修正内容がアスペクト比の変更であり、生成指示に含まれる基準アスペクト比が「16:9」である場合、「入力したコンテンツのアスペクト比を16:9に変更してください」と記述したプロンプトを生成する。 The information processing device 1 generates a prompt for modifying the material based on the identified modification content ((4) in FIG. 1). The prompt is an instruction written in natural language and is an instruction to be given to the machine learning model. For example, if the identified modification content is a change in aspect ratio and the reference aspect ratio included in the generation instruction is "16:9", a prompt is generated stating "Please change the aspect ratio of the input content to 16:9".
情報処理装置1は、生成したプロンプトを生成装置3に送信する(図1における(5))。情報処理装置1は、生成したプロンプトを情報端末2に表示させ、ユーザの確認を促してもよい。情報処理装置1は、情報端末2においてユーザの確認の操作がされた場合、生成されたプロンプトと受付けた素材とを生成装置3に送信し、素材を修正させてもよい。一例として、生成装置3は、プロンプトに基づいて素材を修正し、修正した素材を情報端末2に表示させる。 The information processing device 1 transmits the generated prompt to the generation device 3 ((5) in FIG. 1). The information processing device 1 may display the generated prompt on the information terminal 2 to prompt the user for confirmation. When the user performs a confirmation operation on the information terminal 2, the information processing device 1 may transmit the generated prompt and the accepted material to the generation device 3 to modify the material. As an example, the generation device 3 modifies the material based on the prompt and displays the modified material on the information terminal 2.
情報処理システムSがこのように構成されることで、コンテンツに適合するよう素材を修正する負担を軽減するという効果を奏する。 By configuring the information processing system S in this way, it has the effect of reducing the burden of modifying materials to fit the content.
[情報処理装置1の構成]
図2は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、通信部11、記憶部12及び制御部13を有する。制御部13は、受付部131、取得部132、特定部133、生成部134及び判定部135を有する。
[Configuration of information processing device 1]
2 is a block diagram showing the configuration of the information processing device 1. The information processing device 1 has a
通信部11は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)、ハードディスクドライブ等を含む記憶媒体である。記憶部12は、制御部13が実行するプログラムを予め記憶している。
The
制御部13は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部13は、記憶部12に記憶されたプログラムを実行することにより、受付部131、取得部132、特定部133、生成部134及び判定部135として機能する。
The
受付部131は、動画コンテンツを構成するための素材と、動画コンテンツを生成するための生成指示と、を受付ける。受付部131は、図3に示す受付画面を情報端末2に表示させる。受付画面は、生成指示を受付けるため画面である。受付画面においては、一例として、素材を選択するためのインターフェースO1、生成した動画のアスペクト比を指定するためのインターフェースO2及び動画の内容を指定するためのインターフェースO3を含む。受付部131は、ユーザが送信ボタンO4を押した場合に、ユーザが指定した内容を含む生成指示を取得する。なお、受付画面においては、アスペクト比を選択するインターフェースに変えて、アスペクト比や動画の再生時間等の動画の設定を関連付けたテンプレートを選択するインターフェースを備えていてもよい。
The
取得部132は、素材についてのメタデータを取得する。取得部132は、情報端末2から素材についてのメタデータを取得してもよい。取得部132は、素材を管理する素材管理サーバ(不図示)からメタデータを取得してもよい。この場合、取得部132は、指定する素材の素材IDを情報端末2から受付け、受付部131が受付けた素材IDに対応するメタデータを素材管理サーバから取得する。
判定部135は、メタデータと、生成指示と、に基づいて、素材を動画コンテンツに適用するための修正が必要か否かを判定する。判定部135は、メタデータと、生成指示と、を比較し修正が必要か否かを判定する。判定部135は、メタデータ及び生成指示に含まれるアスペクト比を比較して修正の要否を判定してもよいし、メタデータ及び生成指示それぞれに含まれる素材及び動画コンテンツの内容を比較して修正の要否を判定してもよい。特定部133は、素材の修正が必要と判定部135が判定する場合に、修正内容を特定する。
The
The
特定部133は、生成指示と、素材のメタデータと、に基づいて、素材を動画コンテンツに適用するための修正内容を特定する。一例として、特定部133は、メタデータが示すアスペクト比と、基準アスペクト比と、が異なる場合、素材のアスペクト比の変更を修正内容として特定する。
The
生成部134は、特定した修正内容に基づき、素材を修正する指示を画像生成AIに入力するためのプロンプトを生成する。生成部134は、素材のアスペクト比を特定部133が特定したアスペクト比に変更するためのプロンプトを生成する。一例として、記憶部12は、プロンプトを生成するためのテンプレートを記憶している。生成部134は、記憶部12が記憶するテンプレートに特定した修正内容を当て嵌めることでプロンプトを生成する。また、記憶部12は、修正内容を入力すると、自然言語で記述されたプロンプトを出力するように学習された学習済みモデル(以下、「プロンプト生成モデル」と言う)を記憶しており、生成部134は、特定部133が特定した修正内容をプロンプト生成モデルに入力し、修正内容に対応するプロンプトを出力させる。
The
生成部134は、特定部133がアスペクト比の変更を修正内容として特定した場合、生成指示に基づいて、素材のアスペクト比を修正内容に基づいて変更するために不足する部分を当該生成指示が示す動画コンテンツを説明する記載に基づいて補完することを指示するためのプロンプトを生成する。一例として、図4に示すように横向きの画像の素材に基づいて縦向きの動画コンテンツを生成する場合、動画コンテンツにおいて素材が適用できない領域Rが生じる。一例として、特定部133は、素材を中央に配置した場合に素材により埋めることができない領域を領域Rとして特定してもよい。この場合、特定部133は、特定した領域Rを生成指示に含まれる動画コンテンツの内容に基づいて補完することを修正内容として特定する。この場合、生成部134は、特定部133が特定した領域Rを生成指示に含まれる動画の内容に基づいて生成するよう指示するプロンプトを生成する。この場合、一例として、生成部134は、「入力したコンテンツのアスペクト比を9:16に変更してください。入力したコンテンツにより埋まらない部分は「ランニングする男性」に基づいて生成してください」と記述したプロンプトを生成する。
When the
このように領域Rに補完する内容は素材との関係で自然なものとなることが望ましい。そこで、プロンプト生成モデルにおいては、生成したプロンプトについてのユーザの評価を学習していてもよい。 In this way, it is desirable for the content to be supplemented in region R to be natural in relation to the material. Therefore, the prompt generation model may learn the user's evaluation of the generated prompt.
より具体的には、プロンプト生成モデルが生成したプロンプトに基づいて画像生成AIが修正した素材を閲覧したユーザが、修正された素材を自然と感じるかを示す評価を情報処理装置1は取得する。ユーザの評価は、自然と感じるか否かの2値で表現されてもよいし、自然と感じる程度を示す情報で表現されてもよい。なお、ユーザの評価はこれらの例には限られない。一例として、生成モデルはプロンプト生成モデルが生成したプロンプトと、評価と、を関連付けた教師データを学習している。また、プロンプト生成モデルは、ユーザの評価が所定の閾値以上となるプロンプトを教師データとして学習していてもよい。 More specifically, the information processing device 1 acquires an evaluation indicating whether a user who has viewed material modified by the image generation AI based on a prompt generated by the prompt generation model feels the modified material is natural. The user's evaluation may be expressed as a binary value indicating whether it is felt to be natural or not, or may be expressed as information indicating the degree to which it is felt to be natural. Note that the user's evaluation is not limited to these examples. As an example, the generation model learns training data that associates the prompt generated by the prompt generation model with the evaluation. The prompt generation model may also learn training data that includes prompts that are rated by users at or above a predetermined threshold.
生成部134は、特定部133がアスペクト比の変更を修正内容として特定した場合、生成指示に基づいて、素材のアスペクト比を修正内容に基づいて変更した場合に余剰となる部分を切り取ることを指示するためのプロンプトを生成する。この場合、特定部133は、アスペクト比を変更することにより余剰となる素材の領域を特定し、余剰となる領域をトリミングするよう指示するプロンプトを生成する。
When the
素材が動画であって、素材の再生時間がテンプレートに関連付けられた動画コンテンツの再生時間と異なる場合には、不足又は余剰な時間の処理方法を示すプロンプトを生成してもよい。この場合、一例として、テンプレートにおいては動画コンテンツの再生時間に対して素材の再生時間が短い場合又は長い場合の処理方法が関連付けられている。一例として、素材の再生時間が動画コンテンツの再生時間より短い場合には、素材をループして再生すること又は不足する時間に素材が示す内容を編集したダイジェスト映像を生成することが関連付けられている。また、素材の再生時間が動画コンテンツの再生時間より長い場合には、素材の所定の部分(例えば末尾)を削除することが関連付けられていてもよい。
特定部133は、素材の再生時間とテンプレートに関連付けられた動画コンテンツの再生時間と、が異なる場合にテンプレートに関連付けられた不足又は余剰な時間の処理方法を参照し、修正内容を特定する。
If the material is a video and the playback time of the material is different from the playback time of the video content associated with the template, a prompt may be generated that indicates how to handle the missing or surplus time. In this case, as an example, the template is associated with a processing method when the playback time of the material is shorter or longer than the playback time of the video content. As an example, when the playback time of the material is shorter than the playback time of the video content, it is associated with playing the material in a loop or generating a digest video in which the content indicated by the material is edited to fill the missing time. Also, when the playback time of the material is longer than the playback time of the video content, it may be associated with deleting a predetermined part of the material (e.g., the end).
When the playback time of the material differs from the playback time of the video content associated with the template, the
生成部134は、特定部133が特定した修正内容に基づくプロンプトを生成する。一例として、素材の再生時間が9分で動画コンテンツの再生時間が10分の場合であって、余剰な時間の処理方法がダイジェスト映像の生成である場合、生成部134は、「入力したコンテンツを1分間にまとめたダイジェストを生成し、生成したダイジェストを入力したコンテンツの後に繋げて動画を生成してください。」と記述したプロンプトを生成する。また、素材の再生時間が10分で動画コンテンツの再生時間が60分の場合であって、余剰な時間の処理方法がループ再生である場合、「入力したコンテンツを6回繰り返す動画を生成してください」と記述したプロンプトを生成する。
The
写真画像である素材に写りこんだ内容を修正するプロンプトを生成するよう情報処理装置1が構成されてもよい。 The information processing device 1 may be configured to generate a prompt to correct content captured in a photographic image.
生成部134は、メタデータが示す写真画像の被写体を説明する記載と、生成指示が示す動画コンテンツを説明する記載と、が一致しない場合に、生成指示が示す動画コンテンツを説明する記載に基づいて、写真画像を修正するためのプロンプトを生成する。一例として、メタデータにおいて素材である画像に含まれる内容が「餃子5個」であることを示し、生成指示において動画コンテンツの内容が「餃子6個」であることを示す場合、生成部134は素材を餃子6個に修正するためのプロンプトを生成する。
When the description describing the subject of the photographic image indicated by the metadata does not match the description describing the video content indicated by the generation instruction, the
コンテンツを生成する際の制限を指示としてさらに含むプロンプトを生成するよう情報処理装置1が構成されてもよい。 The information processing device 1 may be configured to generate a prompt that further includes, as an instruction, restrictions on content generation.
生成指示は、動画コンテンツにおいて表現が制限される事項を示す制限事項をさらに含む。制限事項は例えば、ブランドのロゴ画像や著作権の目的となるキャラクター等が生成されたコンテンツに含まれないようにすることである。制限事項は例えば、暴力や犯罪等を示唆する内容がコンテンツに含まれないことであってもよい。一例として、受付画面においては、生成されるコンテンツに指定する制限事項を選択するためのインターフェースが配置され、受付部131は、ユーザが受付画面において選択した制限事項を生成指示として受付けてもよい。
The generation instruction further includes restrictions indicating matters that are to be restricted from being expressed in the video content. For example, restrictions are to ensure that brand logo images, characters that are the subject of copyright, and the like are not included in the generated content. For example, restrictions may be to ensure that the content does not include any content that suggests violence, crime, or the like. As an example, an interface for selecting restrictions to be specified for the generated content may be provided on the reception screen, and the
生成部134は、制限事項をさらに含むプロンプトを生成する。一例として、生成部134はコンテンツの内容を指定する文章に制限事項を示す文章がさらに連続するように構成されたプロンプトを生成してもよい。
The
[情報処理装置1における処理の流れ]
図5は、情報処理装置1における処理の流れを示すフローチャートである。受付部131は、素材と、生成指示と、を受付ける(S01)。取得部132は、受付部131が受付けた素材についてのメタデータを取得する(S02)。
[Processing flow in information processing device 1]
5 is a flowchart showing a flow of processing in the information processing device 1. The
特定部133は、生成指示と、素材のメタデータと、に基づいて、素材の修正内容を特定する(S03)。生成部134は、特定した修正内容に基づき、素材を修正する指示を画像生成AIに入力するためのプロンプトを生成する(S04)。そして情報処理装置1は処理を終了する。
The
[情報処理装置1による効果]
以上説明したように情報処理装置1が構成されることで、コンテンツに適合するよう素材を修正する負担を軽減するという効果を奏する。
[Effects of information processing device 1]
By configuring the information processing device 1 as described above, an effect is achieved in that the burden of correcting material so as to match it with content is reduced.
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。 Furthermore, this invention will make it possible to contribute to Goal 9 of the United Nations' Sustainable Development Goals (SDGs), which is "Build resilient infrastructure, promote inclusive and sustainable industrialization, and promote innovation and infrastructure."
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。 Although the present invention has been described above using embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments, and various modifications and changes are possible within the scope of the gist of the invention. For example, all or part of the device can be configured by distributing or integrating functionally or physically in any unit. In addition, new embodiments resulting from any combination of multiple embodiments are also included in the embodiments of the present invention. The effect of the new embodiment resulting from the combination also has the effect of the original embodiment.
1 情報処理装置
2 情報端末
3 生成装置
11 通信部
12 記憶部
13 制御部
131 受付部
132 取得部
133 特定部
134 生成部
135 判定部
Reference Signs List 1 Information processing device 2 Information terminal 3
Claims (8)
前記素材について記述されたデータであるメタデータであって、前記写真画像の被写体の内容の説明を含む前記メタデータを取得する取得部と、
前記生成指示と、前記素材のメタデータと、に基づいて、前記素材を前記動画コンテンツに適用するための修正内容を特定する特定部と、
特定した修正内容に基づき、前記素材を修正する指示を画像生成AIに入力するためのプロンプトを生成する生成部と、
を有し、
前記生成部は、前記メタデータが示す前記写真画像の被写体の内容の説明と、前記生成指示が示す前記動画コンテンツの内容の説明と、が一致しない場合に、前記生成指示が示す前記動画コンテンツの内容の説明に基づいて、前記写真画像である前記素材を修正するためのプロンプトを生成する、
情報処理装置。 a receiving unit that receives a source of photographic images for constituting video content and a generation instruction for generating the video content , the generation instruction including an explanation of the content of the video content ;
an acquisition unit that acquires metadata, which is data describing the material , the metadata including a description of the subject of the photographic image ;
a specification unit that specifies a modification content for applying the material to the video content based on the generation instruction and metadata of the material;
A generation unit that generates a prompt for inputting an instruction to modify the material to an image generation AI based on the identified modification content;
having
When a description of a subject of the photographic image indicated by the metadata does not match a description of the video content indicated by the generation instruction, the generation unit generates a prompt for modifying the material, which is the photographic image, based on the description of the video content indicated by the generation instruction.
Information processing device.
前記生成指示は、前記動画コンテンツにおいて基準となるアスペクト比である基準アスペクト比を含み、
前記特定部は、前記メタデータが示すアスペクト比と、前記基準アスペクト比と、が異なる場合、前記素材のアスペクト比の変更を前記修正内容として特定し、
前記生成部は、前記素材のアスペクト比を前記特定部が特定したアスペクト比に変更するためのプロンプトを生成する、
請求項1に記載の情報処理装置。 the metadata includes an aspect ratio of the material;
the generation instruction includes a reference aspect ratio that is a reference aspect ratio for the video content,
the identifying unit, when the aspect ratio indicated by the metadata is different from the reference aspect ratio, identifies a change in the aspect ratio of the material as the modification content;
the generating unit generates a prompt for changing the aspect ratio of the material to the aspect ratio specified by the specifying unit;
The information processing device according to claim 1 .
前記生成部は、前記特定部がアスペクト比の変更を前記修正内容として特定した場合、前記生成指示に基づいて、前記素材のアスペクト比を前記修正内容に基づいて変更するために不足する部分を当該生成指示が示す動画コンテンツを説明する記載に基づいて補完することを指示するためのプロンプトを生成する、
請求項2に記載の情報処理装置。 The generation instruction includes a description explaining the video content,
When the specification unit specifies a change in aspect ratio as the modification content, the generation unit generates, based on the generation instruction, a prompt for instructing to supplement a portion that is insufficient for changing the aspect ratio of the material based on the modification content, based on a description explaining the video content indicated by the generation instruction.
The information processing device according to claim 2 .
請求項2に記載の情報処理装置。 When the specification unit specifies a change in aspect ratio as the modification content, the generation unit generates, based on the generation instruction, a prompt for instructing to cut off a portion that would become redundant if the aspect ratio of the material is changed based on the modification content.
The information processing device according to claim 2 .
前記特定部は、前記素材の修正が必要と前記判定部が判定する場合に、前記修正内容を特定する、
請求項1から4のいずれか1項に記載の情報処理装置。 a determination unit that determines whether or not the material needs to be modified to apply to the video content based on the metadata and the generation instruction,
The identification unit identifies the content of the correction when the determination unit determines that the material needs to be corrected.
The information processing device according to claim 1 .
前記生成部は、前記制限事項をさらに含むプロンプトを生成する、
請求項1から4のいずれか1項に記載の情報処理装置。 The generation instruction further includes a restriction indicating a restriction on an expression of the video content,
The generating unit generates a prompt further including the restriction.
The information processing device according to claim 1 .
動画コンテンツを構成するための写真画像である素材と、前記動画コンテンツを生成するための生成指示であって、前記動画コンテンツの内容の説明を含む前記生成指示と、を受付けるステップと、
前記素材について記述されたデータであるメタデータであって、前記写真画像の被写体の内容の説明を含む前記メタデータを取得するステップと、
前記生成指示と、前記素材のメタデータと、に基づいて、前記素材を前記動画コンテンツに適用するための修正内容を特定するステップと、
特定した修正内容に基づき、前記素材を修正する指示を画像生成AIに入力するためのプロンプトを生成するステップと、
を有し、
前記生成するステップにおいては、前記メタデータが示す前記写真画像の被写体の内容の説明と、前記生成指示が示す前記動画コンテンツの内容の説明と、が一致しない場合に、前記生成指示が示す前記動画コンテンツの内容の説明に基づいて、前記写真画像である前記素材を修正するためのプロンプトを生成する、
情報処理方法。 The computer executes
receiving a source of photographic images for constituting video content and a generation instruction for generating the video content, the generation instruction including a description of the content of the video content;
obtaining metadata, which is descriptive data about the material , the metadata including a description of the content of a subject of the photographic image ;
determining, based on the generation instructions and metadata of the material, modifications to be applied to the material to the video content;
generating a prompt for inputting instructions to the image generation AI to modify the material based on the identified modification content;
having
In the generating step, if a description of the subject of the photographic image indicated by the metadata does not match a description of the content of the video content indicated by the generation instruction, a prompt is generated for modifying the material, which is the photographic image, based on the description of the content of the video content indicated by the generation instruction.
Information processing methods.
動画コンテンツを構成するための写真画像である素材と、前記動画コンテンツを生成するための生成指示であって、前記動画コンテンツの内容の説明を含む前記生成指示と、を受付けるステップと、
前記素材について記述されたデータであるメタデータであって、前記写真画像の被写体の内容の説明を含む前記メタデータを取得するステップと、
前記生成指示と、前記素材のメタデータと、に基づいて、前記素材を前記動画コンテンツに適用するための修正内容を特定するステップと、
特定した修正内容に基づき、前記素材を修正する指示を画像生成AIに入力するためのプロンプトを生成するステップと、
を有し、
前記生成するステップにおいては、前記メタデータが示す前記写真画像の被写体の内容の説明と、前記生成指示が示す前記動画コンテンツの内容の説明と、が一致しない場合に、前記生成指示が示す前記動画コンテンツの内容の説明に基づいて、前記写真画像である前記素材を修正するためのプロンプトを生成する、
を実行させるプログラム。 On the computer,
receiving a source of photographic images for constituting video content and a generation instruction for generating the video content, the generation instruction including a description of the content of the video content;
obtaining metadata, which is descriptive data about the material , the metadata including a description of the content of a subject of the photographic image ;
determining, based on the generation instructions and metadata of the material, modifications to be applied to the material to the video content;
generating a prompt for inputting instructions to the image generation AI to modify the material based on the identified modification content;
having
In the generating step, if a description of the subject of the photographic image indicated by the metadata does not match a description of the content of the video content indicated by the generation instruction, a prompt is generated for modifying the material, which is the photographic image, based on the description of the content of the video content indicated by the generation instruction.
A program that executes the following.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024053719A JP7669555B1 (en) | 2024-03-28 | 2024-03-28 | Information processing device, information processing method, and program |
| JP2025067194A JP7693145B1 (en) | 2024-03-28 | 2025-04-16 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024053719A JP7669555B1 (en) | 2024-03-28 | 2024-03-28 | Information processing device, information processing method, and program |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2025067194A Division JP7693145B1 (en) | 2024-03-28 | 2025-04-16 | Information processing device, information processing method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP7669555B1 true JP7669555B1 (en) | 2025-04-28 |
| JP2025152024A JP2025152024A (en) | 2025-10-09 |
Family
ID=95513931
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024053719A Active JP7669555B1 (en) | 2024-03-28 | 2024-03-28 | Information processing device, information processing method, and program |
| JP2025067194A Active JP7693145B1 (en) | 2024-03-28 | 2025-04-16 | Information processing device, information processing method, and program |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2025067194A Active JP7693145B1 (en) | 2024-03-28 | 2025-04-16 | Information processing device, information processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (2) | JP7669555B1 (en) |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100860155B1 (en) * | 2000-04-27 | 2008-09-24 | 소니 가부시끼 가이샤 | Information providing device and image information editing method |
| JP2010232814A (en) * | 2009-03-26 | 2010-10-14 | Nikon Corp | Video editing program and video editing apparatus |
| JP2014042234A (en) * | 2012-07-25 | 2014-03-06 | Panasonic Corp | Image editing apparatus |
| JP2015179978A (en) * | 2014-03-19 | 2015-10-08 | カシオ計算機株式会社 | Image processing apparatus, image processing method, and program |
| JP2017059888A (en) * | 2015-09-14 | 2017-03-23 | オリンパス株式会社 | Information recording apparatus, information recording method, and information recording program |
| WO2020153193A1 (en) * | 2019-01-23 | 2020-07-30 | ソニー株式会社 | Information processing system, information processing method, and program |
| JP7398723B1 (en) * | 2023-02-23 | 2023-12-15 | Tavern株式会社 | Image generation device, prompt creation support device, program and application program |
-
2024
- 2024-03-28 JP JP2024053719A patent/JP7669555B1/en active Active
-
2025
- 2025-04-16 JP JP2025067194A patent/JP7693145B1/en active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100860155B1 (en) * | 2000-04-27 | 2008-09-24 | 소니 가부시끼 가이샤 | Information providing device and image information editing method |
| JP2010232814A (en) * | 2009-03-26 | 2010-10-14 | Nikon Corp | Video editing program and video editing apparatus |
| JP2014042234A (en) * | 2012-07-25 | 2014-03-06 | Panasonic Corp | Image editing apparatus |
| JP2015179978A (en) * | 2014-03-19 | 2015-10-08 | カシオ計算機株式会社 | Image processing apparatus, image processing method, and program |
| JP2017059888A (en) * | 2015-09-14 | 2017-03-23 | オリンパス株式会社 | Information recording apparatus, information recording method, and information recording program |
| WO2020153193A1 (en) * | 2019-01-23 | 2020-07-30 | ソニー株式会社 | Information processing system, information processing method, and program |
| JP7398723B1 (en) * | 2023-02-23 | 2023-12-15 | Tavern株式会社 | Image generation device, prompt creation support device, program and application program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7693145B1 (en) | 2025-06-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11882319B2 (en) | Virtual live video streaming method and apparatus, device, and readable storage medium | |
| US20210044644A1 (en) | Systems, devices, and methods for streaming haptic effects | |
| CN114121028B (en) | Voice playback method, device, equipment and storage medium | |
| JP7140909B2 (en) | Curriculum package development method and apparatus, system, device and storage medium | |
| JP6812583B1 (en) | Systems and methods to assist in the creation of game scripts | |
| JP7669555B1 (en) | Information processing device, information processing method, and program | |
| CN115690277A (en) | Video generation method, system, device, electronic equipment and computer storage medium | |
| CN118803173B (en) | Video generation method, device, electronic equipment, storage medium and product | |
| JP5291448B2 (en) | Content production server and content production program | |
| JP2025152024A (en) | Information processing device, information processing method, and program | |
| JP2025156293A (en) | Information processing device, information processing method, and program | |
| CN117201706B (en) | Digital person synthesis method, system, equipment and medium based on control strategy | |
| KR102541008B1 (en) | Method and apparatus for producing descriptive video contents | |
| US20180253986A1 (en) | Electronic flash card methods and systems | |
| KR102462685B1 (en) | Apparatus for assisting webtoon production | |
| CN115766971A (en) | Demonstration video generation method, device, electronic device and readable storage medium | |
| JP2016171529A (en) | Video generation device and video generation method | |
| Klaassen et al. | Elckerlyc Goes Mobile Enabling Natural Interaction in Mobile User Interfaces | |
| US20250259362A1 (en) | Prompt editor for use with a visual media generative response engine | |
| US20250259272A1 (en) | Blending user interface for blending visual media using a visual media generative response engine | |
| US20240290329A1 (en) | Systems and methods for enhanced contextual responses with a virtual assistant | |
| AU2018100109A4 (en) | Electronic Flash Card Methods and Systems | |
| KR20220012031A (en) | Apparatus and method for generating and playing media using application programming interface for interactive media | |
| HK40076743A (en) | System and method for assisting creation of game script | |
| WO2025174789A1 (en) | Generative video engine capable of outputting videos in a variety of durations, resolutions, and aspect ratios |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240328 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20241017 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250107 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250304 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250401 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250416 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7669555 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |