JP6442102B1 - Information processing system and information processing apparatus - Google Patents
Information processing system and information processing apparatus Download PDFInfo
- Publication number
- JP6442102B1 JP6442102B1 JP2018097838A JP2018097838A JP6442102B1 JP 6442102 B1 JP6442102 B1 JP 6442102B1 JP 2018097838 A JP2018097838 A JP 2018097838A JP 2018097838 A JP2018097838 A JP 2018097838A JP 6442102 B1 JP6442102 B1 JP 6442102B1
- Authority
- JP
- Japan
- Prior art keywords
- sound
- data
- reproduction
- moving image
- sound information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】画像制作に係る作業を効率的に行うことが可能な情報処理システム及び情報処理装置の提供。
【解決手段】情報処理システムでは、動画像に効果音を付加する場合、その動画像データの再生中に作業者が発話した音声を音声認識部が認識し、その認識した音声に対応する音データ(効果音)を検索部が検索して、付加する音データを取得する。この取得した音データを、再生中の動画像データに付加することで、音データと動画像データとを関連付けた再生データが得られる。このように、動画像に対する効果音の付加(関連付け)を音声認識により行えるようにすることで、再生中の動画像を見ながら効果音を付加することができるので、画像制作に係る作業効率の向上を図ることが可能となる。
【選択図】図2An information processing system and an information processing apparatus capable of efficiently performing work related to image production.
In an information processing system, when a sound effect is added to a moving image, a voice recognition unit recognizes a voice uttered by an operator during reproduction of the moving image data, and sound data corresponding to the recognized voice. The search unit searches for (sound effect) and acquires sound data to be added. By adding the acquired sound data to the moving image data being reproduced, reproduction data in which the sound data and the moving image data are associated with each other can be obtained. In this way, sound effects can be added to (or associated with) moving images by voice recognition, so that sound effects can be added while viewing the moving image being played back. It is possible to improve.
[Selection] Figure 2
Description
本発明は、情報処理システム及び情報処理装置に関し、特に、画像情報を含む再生データと音情報とを関連付けることが可能な情報処理システム及び情報処理装置に関する。 The present invention relates to an information processing system and an information processing apparatus, and more particularly, to an information processing system and an information processing apparatus capable of associating reproduction data including image information with sound information.
近年、パチンコ遊技機やスロットマシン等の遊技機、ビデオゲーム、WEBサイト等、画像を利用した娯楽やサービスの提供が広く普及している。こうした画像の制作には、画像を構成するキャラクタの作成やデザイン、動画編集、更には画像に付随する音声の編集など、幅広い作業が必要とされ、その作業には多くの者が関わるのが一般的である。こうした画像制作に係る作業を容易にするためのツールが提案されている(例えば特許文献1を参照)。 In recent years, the provision of entertainment and services using images, such as pachinko machines and slot machines, video games, WEB sites, etc., has become widespread. The production of such images requires a wide range of work, including the creation and design of the characters that make up the images, video editing, and sound editing that accompanies the images, and many people are involved in such work. Is. A tool for facilitating such work related to image production has been proposed (see, for example, Patent Document 1).
しかしながら、特許文献1に開示されているような画像編集ツールでは、編集画面の構成を分かりやすくすることで視覚的な作業性の向上は図れるものの、例えば、画像素材と音声素材を合成する等の編集作業(編集処理)自体が効率化されるものではないため、画像制作に係る作業の更なる効率化が望まれる。 However, an image editing tool such as that disclosed in Patent Document 1 can improve the visual workability by making the configuration of the editing screen easy to understand. Since the editing work (editing process) itself is not efficient, further efficiency of work related to image production is desired.
本発明は、上記事情に鑑みてなされたものであり、その目的とするところは、画像制作に係る作業を効率的に行うことが可能なシステム及び装置を提供することにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a system and apparatus capable of efficiently performing work related to image production.
前述の課題を解決するために、本発明は以下の構成を採用した。
すなわち、手段1の情報処理システムは、
画像情報を含む再生データを再生する再生手段と、
前記再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとを関連付ける関連手段と、
複数の音情報を記憶する記憶手段と、を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成するものであり、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段をさらに備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
In order to solve the above-described problems, the present invention employs the following configuration.
That is, the information processing system of means 1 is
Re co means you play including playback data image information,
And recognition means for recognizing input during playback of the previous SL re-raw data,
Generating means for generating sound information based on the input recognized by the recognition means;
And related means for associating the sound information and the prior SL playback data generated by the generating means,
Storage means for storing a plurality of sound information,
The generation means acquires sound information corresponding to the input recognized by the recognition means from the sound information stored in the storage means, and generates sound information associated with the reproduction data. ,
Sound information stored in the storage means is managed by classification,
A specifying unit capable of specifying a classification of sound information to be generated by the generating unit among the classifications;
The generating means acquires sound information corresponding to the input recognized by the recognizing means from the sound information of the classification specified by the specifying means among the sound information stored in the storage means. Is the gist.
これによれば、再生データの再生中における入力に基づいて音情報が生成され、当該生成された音情報と再生データとの関連付けが行われるので、画像制作に係る作業の効率化を図ることが可能となる。また、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。さらに、関連付ける音情報の分類(種類)を予め指定しておくことで、その指定された分類に即した音情報が、再生データの再生中における入力に基づいて生成されて該再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。 According to this, the sound information based on the input during the reproduction of playback data is generated, the association between the sound information the generation and playback data is performed, improve the efficiency of work related to the image production It becomes possible. In addition, since sound information corresponding to the input is acquired and generated from a plurality of pieces of sound information stored in advance, it is possible to diversify the associated sound information. Furthermore, by specifying the classification (type) of the sound information to be associated in advance, the sound information corresponding to the designated classification is generated based on the input during reproduction of the reproduction data and is associated with the reproduction data. Therefore, it is possible to improve the efficiency of selecting sound information to be associated.
また、前述の課題を解決するための手段2の情報処理装置は、
画像情報を含む再生データを再生可能な再生処理装置に接続可能な情報処理装置であって、
前記再生処理装置による再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
複数の音情報を記憶する記憶手段と、を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成するものであり、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段をさらに備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
Further, the information processing apparatus means 2 for solving the problems described above,
An information processing apparatus connectable to a reproduction processing apparatus capable of reproducing reproduction data including image information,
Recognizing means for recognizing input during reproduction of reproduction data by the reproduction processing device;
Generating means for generating sound information based on the input recognized by the recognition means;
Association instruction means for instructing the reproduction processing apparatus to associate the sound information generated by the generation means with the reproduction data;
Storage means for storing a plurality of sound information,
The generation means acquires sound information corresponding to the input recognized by the recognition means from the sound information stored in the storage means, and generates sound information associated with the reproduction data. ,
Sound information stored in the storage means is managed by classification,
A specifying unit capable of specifying a classification of sound information to be generated by the generating unit among the classifications;
The generating means acquires sound information corresponding to the input recognized by the recognizing means from the sound information of the classification specified by the specifying means among the sound information stored in the storage means. Is the gist.
これによれば、再生処理装置での再生データの再生中における入力に基づいて、音情報が生成されて再生データに関連付けられるので、画像制作に係る作業の効率化を図ることが可能となる。また、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。さらに、関連付ける音情報の分類(種類)を予め指定しておくことで、その指定された分類に即した音情報が、再生データの再生中における入力に基づいて生成されて該再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。 According to this, since the sound information is generated and associated with the reproduction data based on the input during reproduction of the reproduction data in the reproduction processing apparatus, it is possible to improve the efficiency of the work related to image production . In addition, since sound information corresponding to the input is acquired and generated from a plurality of pieces of sound information stored in advance, it is possible to diversify the associated sound information. Furthermore, by specifying the classification (type) of the sound information to be associated in advance, the sound information corresponding to the designated classification is generated based on the input during reproduction of the reproduction data and is associated with the reproduction data. Therefore, it is possible to improve the efficiency of selecting sound information to be associated.
以上の本発明によれば、画像制作に係る作業を効率的に行うことが可能となる。 According to the above-described present invention, it is possible to efficiently perform work related to image production.
次に、本発明の実施の形態について実施例を用いて説明する。 Next, embodiments of the present invention will be described using examples.
[システム全体構成]
図1は本発明の一実施例に係る情報処理システム10のハードウェア構成例を示しており、図2は本実施例に係る情報処理システム10のシステム構成例を示している。本実施例の情報処理システム10は、市販のパーソナルコンピュータ(PC)に本システムのソフトウェア(プログラム)をインストールすることで、当該PCを情報処理システム10として機能させるものとして構成されている。このため、本実施例に係る情報処理システム10のハードウェア構成は、一般的なパーソナルコンピュータと同様の構成を備えている。すなわち、システム(装置)全体の処理を制御するCPU100と、PCを起動させたり動作させたりするのに必要な基本プログラムやデータ等を記憶するROM101と、CPU100による各種処理の実行に際してデータを一時的に記憶するワークメモリとして使用されるRAM102と、後述の表示部106に表示するための画像データを格納するフレームバッファメモリ103(VRAM)と、画像データを圧縮して圧縮画像データを生成したり圧縮画像データを伸張して再生したりする画像圧縮伸張部104と、HDD等により構成され少なくとも本実施例に係る情報処理システム10を構成するプログラム、画像データ及び音データ等を記憶する補助記憶部105と、液晶ディスプレイ等により構成され各種情報を表示する表示部106と、キーボードやマウス等により構成され操作入力を行うための操作入力部107と、1又は複数のマイク等(集音部)により構成され音声入力を行うための音声入力部108と、1又は複数のスピーカ等により構成され各種の音を出力する音出力部109と、を備えている。この他にも、一般的なパーソナルコンピュータが備える構成や機能を備えているが、これについては図示を省略している。
[Entire system configuration]
FIG. 1 shows a hardware configuration example of an
こうしたハードウェア構成のもとで機能する本実施例の情報処理システム10は、図2に示すように、大別すると、動画像の画像データ(画像情報)を含む再生データを再生することが可能な再生処理装置20と、再生処理装置20にて再生される再生データと関連付ける音データ(音情報)を生成することが可能な情報処理装置30とにより構成される。再生処理装置20は、動画像の画像データ(以下「動画像データ」ともいう。)を含む再生データの再生に係る処理を実行する再生部21と、動画像データや音データの編集に係る処理を実行する編集部22と、情報処理装置30にて生成された音データの読み込みに係る処理を実行する読込部23とにより構成される。編集部22は、読込部23が読み込んだ音データを動画像データに付加したり、動画像データに対する音データの再生位置を調整したりする等の各種編集に係る処理を実行可能に構成されている。また、再生部21は、編集部22により編集された音データと動画像データとを含む再生データの再生に係る処理を実行可能に構成されている。
As shown in FIG. 2, the
なお、再生処理装置20にて再生される再生データには、1又は複数の動画像データ(画像情報)を含んで構成されるもの、1又は複数の音データ(音情報)を含んで構成されるもの、これらの動画像データ(画像情報)と音データ(音情報)の両方を含んで構成されるもの等が存在する。また、動画像(動画像データ)は、時系列的に並べられた複数のフレーム単位の画像(画像データ)からなるものである。以下では、動画像データを含む再生データのことを単に動画像データということがある。
The reproduction data reproduced by the
情報処理装置30は、音声入力部108により入力された音声の認識に係る処理を実行する音声認識部31と、補助記憶部105に記憶された複数の音データの中から音声認識部31により認識した音声に対応する音データの検索に係る処理を実行する検索部32と、検索部32により検索された音データの取得および再生処理装置20への供給に係る処理を実行する音データ取得部33とにより構成される。CPU100は、操作入力部107により情報処理システム10の起動指示が入力されると、これを受けて補助記憶部105に記憶されている本システムのプログラムをRAM102にロードし、当該プログラムを実行する。これにより、情報処理システム10が起動して、図2に示す各部による処理が実行可能となる。
The
[編集画面]
次に、情報処理システム10が起動されることで表示部106に表示される編集画面について説明する。図3は本実施例の情報処理システム10に係る編集画面の一例を示している。図3に示すように、編集画面200は複数の表示領域(ウィンドウ)により構成されるもので、具体的に、動画像タイトル表示領域201と、再生表示領域202と、タイムライン表示領域203と、音編集表示領域204と、音声認識表示領域205とを含んで構成される。なお、本実施例で説明する編集画面200の構成はあくまでも一例であり、編集画面を構成する表示領域(ウィンドウ)の種類や数、サイズ、配置、表示内容等については種々の態様を採ることが可能である。
[Editing screen]
Next, an editing screen displayed on the
動画像タイトル表示領域201は、補助記憶部105の所定のデータフォルダ(記憶領域)に記憶されている動画像データ(動画ファイル)のタイトル(ファイル名)を表示する領域であり、複数のタイトルを一覧で表示することができるように構成されている。本情報処理システム10を用いて画像編集(画像制作)に係る作業を行う者(以下「作業者」ともいう。)は、操作入力部107としてのマウス等を操作して、動画像タイトル表示領域201に表示されたタイトルの中から編集対象とする動画像データのタイトルをクリックすることで、編集対象の動画像データを選択することができる。編集対象の動画像データを選択すると、当該動画像データの1フレーム目の再生開始位置の画像が再生表示領域202に静止した状態で表示される。
The moving image
再生表示領域202は、動画像タイトル表示領域201にて選択した編集対象の動画像データに基づく動画像を再生表示する領域である。再生表示領域202の下部には、「再生」、「停止」、「一時停止」等のメディア操作アイコンが設けられており、作業者は、操作入力部107としてのマウス等を操作してメディア操作アイコンをクリックすることで、再生表示領域202に表示された動画像の再生や一時停止等の指示を入力することができる。前述のように動画像タイトル表示領域201にて編集対象の動画像データを選択した状態で「再生」のアイコンをクリックすると、選択した編集対象の動画像データ(再生データ)の再生が開始され、当該データに係る動画像が再生表示領域202に再生表示される。また、再生表示領域202におけるメディア操作アイコンの左側には、再生表示中の動画像の再生時間の経過をリアルタイムで表示する再生時間表示部が設けられている。さらに、メディア操作アイコンの右側には「プレビュー」ボタンが設けられており、当該「プレビュー」ボタンを押下(クリック)すると、編集中の再生データ(編集対象の動画像データと音データとを合成した再生データ)が最初から再生されるように構成されている。
The
タイムライン表示領域203は、再生表示領域202にて再生表示される動画像、すなわち編集対象の動画像データの時間軸の再生位置情報(動画像タイムライン)を表示する領域である。このタイムライン表示領域203には、音編集表示領域204に跨って上下方向に延びる1本のタイムラインカーソルTCが表示される。タイムラインカーソルTCは現在の再生位置を示すものであり、再生時間の経過に伴って時間軸方向(図3では左側から右側)に移動していくものである。また、タイムライン表示領域203は、再生表示領域202にて再生表示される動画像の再生データがBGM(バックグラウンドミュージック)等の音データを含む場合、音データの波形HKを併せて表示するように構成されている。つまり、タイムライン表示領域203は、音データの時間軸の再生位置情報(音タイムライン)も表示することが可能となっている。これにより、作業者はタイムライン表示領域203を見ることで、画像再生表示領域202にて再生表示される動画像の再生位置やこれに付随して再生される音との対応関係、再生位置に応じて出力される音の質、強弱など、編集作業に役立つ情報を容易に把握することができる。
The
音編集表示領域204は、編集対象の動画像データ(再生データ、第1再生データ)に対して音データ(音情報)を付加(追加)する場合の音編集に関する情報を表示する領域である。本情報処理システム10では、再生表示領域202にて動画像を再生表示しているときに、音声入力部108としてのマイク等を通じて作業者等が発話した音声を認識すると、その認識した音声に対応する効果音を、その音声認識タイミングに合わせて(略同期させて)、タイムライン上(時間軸上)の再生位置に付加することが可能となっている。なお、ここでいう音声認識タイミングは、当該音声認識の契機となった発話のタイミングと略同じである。このことに対応して、音編集表示領域204には、音声認識に基づいて付加される効果音に係る音データの情報(効果音の種類(タイトル)、再生タイミングを示す時間等)が、その再生位置に合わせて表示される。
The sound
ここで、本実施例では効果音(音データ)の付加に際し、当該効果音が付加される位置を示すマークMKをタイムライン表示領域203の時間軸上(タイムライン上)に表示するものとしており、音編集表示領域204には、そのマークMKと対応付けて、付加した音データの情報を示す音アイコンICを表示(配置)するものとしている。これにより、作業者はタイムライン表示領域203や音編集表示領域204を見ることで、再生表示領域202にて再生表示される動画像(編集対象の動画像データ)に効果音が付加されたことや当該付加された効果音の内容、再生表示中の動画像と効果音の再生位置との対応関係等を容易に把握することができる。本実施例では図3に示すように、マークMKと音アイコンICとを破線で繋ぐことにより両者の対応付けを行うものとしている。なお、図3では、マークMK及び音アイコンICがそれぞれ3つ表示されている例を示している(マークMK1〜MK3、音アイコンIC1〜IC3)。
Here, in the present embodiment, when a sound effect (sound data) is added, a mark MK indicating the position where the sound effect is added is displayed on the time axis (on the time line) of the
また、本実施例では、作業者が操作入力部107としてのマウス等を操作して、音編集表示領域204に表示(配置)されている音アイコンICを左右方向にドラッグすることで、当該音アイコンICに対応する効果音(音データ)の再生位置を調整できるように構成されている。このとき、タイムライン表示領域203の時間軸上に表示されるマークMK(及び破線)も連動して左右方向に移動するように構成されているので、効果音の再生位置の微調整を容易に行うことできる。さらに、音編集表示領域204に1又は複数の音アイコンICが表示されている状態、すなわち、動画像データに1又は複数の効果音の音データを付加した状態(編集中)において、再生表示領域202の「プレビュー」ボタンを押下(クリック)すると、音編集表示領域204に表示されている音アイコンに対応する音データが付加された動画像データ、つまり当該音データと編集対象の動画像データとを合成した再生データ(第2再生データ)が、最初から再生されるように構成されている。これにより、再生表示領域202に動画像が1フレーム目の再生開始位置から再生表示されるとともに、付加した音データの再生位置(再生タイミング)になると効果音が音出力部109(スピーカ)から出力される。
Further, in this embodiment, the operator operates the mouse or the like as the
また、本実施例では、動画像データのタイムライン上(時間軸上)に効果音の音データが付加される際、すなわち、音編集表示領域204に音アイコンICが表示(配置)される際、これに伴って当該音データに基づく効果音が音出力部109から出力されるように構成されている。これにより、作業者は効果音が付加された動画像の印象をリアルタイムで感じ取ることが可能となる。さらに、音編集表示領域204に表示されている音アイコンICをクリックして削除の指示を入力することで、その音アイコンICに対応する音データ(つまり、付加された効果音)を削除する(再生データとの関連付けを解く)ことができるように構成されている。
In this embodiment, when sound effect sound data is added on the timeline (time axis) of the moving image data, that is, when the sound icon IC is displayed (arranged) in the sound
音声認識表示領域205は、音声入力部108としてのマイク等を介して音声認識部31により認識された音声の内容を表示する領域である。この音声認識表示領域205は、作業者等が発話した音声(認識された音声)をテキストで表示するように構成されている。本実施例では、動画像タイトル表示領域201にて選択した編集対象の動画像データの再生が開始されると、これに連動して、音声認識により効果音(音データ)を付加することが可能な状態(以下「音声認識モード」ともいう。)となるように構成されている。このため、本実施例では、音声認識モード中、音声認識表示領域205には、認識された音声の内容(テキスト)が上から下に向かって時系列で表示されるように構成されている。このように認識された音声の内容(テキスト)を表示することで、発話の内容(発話した音声)が正しく認識されているのかを確認することが可能となる。なお、音声認識モードは、動画像データの再生停止に伴って終了するように構成されている。
The voice
さらに、音編集表示領域204の右下部には「ジャンル指定」ボタンが設けられており、当該「ジャンル指定」ボタンを押下(クリック)すると、図4に示すジャンル指定画面210が編集画面200の手前側に重畳して表示されるように構成されている。本実施例では後述するように、動画像に付加することが可能な効果音(音データ)をジャンル別(分類別)に管理するものとしており、このことに対応して、付加する効果音(音データ)のジャンル(分類)を指定するためのジャンル指定画面210を表示可能に構成されている。本実施例のジャンル指定画面210は、ジャンル毎にチェックボックスを形成して構成されており、操作入力部107としてのマウス等を操作して、指定するジャンルのチェックボックスにチェックを入れることで、付加する効果音のジャンルを1又は複数選択して指定することが可能となっている。ジャンル指定画面210で指定可能(選択可能)なジャンルは、後述する効果音データベースに登録されているジャンルに対応している(図5を参照)。効果音のジャンルを指定した場合には、この指定したジャンルの効果音を対象にして、付加する効果音の検索が行われる(後述のS108)。また、ジャンル指定画面210は、操作入力部107により所定の表示終了の指示入力を行うことで、表示部106への表示を終えるように構成されている。
Further, a “genre designation” button is provided at the lower right of the sound
[編集処理]
次に、本実施例の情報処理システム10の動作処理について、図6に基づいて説明する。本システム10の動作処理は、再生処理装置20と情報処理装置30との協働により実行されるものである。CPU100は本システム10が起動されると、前述した編集画面200(図3を参照)を表示部106に表示して、図6に示す編集処理を実行する。
[Edit processing]
Next, operation processing of the
S100では、動画像データの再生が停止中(一時停止を含む)であるか否かを判定する。その結果、停止中でないと判定した場合(S100でNO)、すなわち、動画像データを再生中である場合、後述するS104の処理に移行し、停止中であると判定した場合(S100でYES)、動画像データの再生開始を指示する入力が行われたか否かを判定する(S101)。再生開始の指示入力は、編集画面200の再生表示領域202に表示されるメディア操作アイコンのうち「再生」のアイコンをクリックすることにより行われる。再生開始の指示入力がないと判定した場合(S101でNO)、後述するS110の処理に移行し、再生開始の指示入力があると判定した場合(S101でYES)、再生部21が動画像タイトル表示領域201にて選択された編集対象の動画像データの再生を開始して(S102)、音声認識部31が音声認識モードを設定する(S103)。これにより、再生表示領域202において、編集対象の動画像データに基づく動画像が再生表示される。
In S100, it is determined whether or not reproduction of moving image data is being stopped (including pause). As a result, when it is determined that it is not stopped (NO in S100), that is, when moving image data is being reproduced, the process proceeds to S104 described later, and it is determined that it is stopped (YES in S100). Then, it is determined whether or not an input for instructing the start of reproduction of moving image data has been performed (S101). The instruction to start playback is input by clicking the “play” icon among the media operation icons displayed in the
次いでS104では、音声入力部108による音声の入力が行われたか否かを判定し、音声入力がないと判定した場合(S104でNO)、後述するS110の処理に移行し、音声入力があると判定した場合(S104でYES)、音声認識部31がその入力のあった音声を取得して音声認識を行う(S105)。音声認識部31は、音声入力部108を介して入力された作業者等の音声を認識することが可能な音声認識機能であり、一般的な音声認識アルゴリズムによる音声認識を行うものである。この音声認識部31としては、公知の音声認識機能を用いることが可能である。そして、入力のあった音声を適切に認識することができなかった場合には(S106でNO)、後述するS110の処理に移行し、認識することができた場合には(S106でYES)、その認識した音声をテキストデータに変換して、当該テキストデータに基づく音声の内容を編集画面200の音声認識表示領域205に表示するとともに(S107)、当該テキストデータに基づいて検索部32が検索処理を実行する(S108)。
Next, in S104, it is determined whether or not voice input has been performed by the
ここで、補助記憶部105には、動画像データ(再生データ、第1再生データ)に付加する(関連付ける)ことが可能な音データ(音情報)と、実際に音データを付加する(関連付ける)際に参照する効果音データベースが記憶されている。補助記憶部105に記憶される音データは、動画像に付加する効果音として用いられるであろう音をデータ化したものであり、本実施例では、自然現象、物の動き、物が出す音、動物の鳴き声など、様々なジャンルの音をベースとして作成された効果音のデータを音データとしている。そして、これらの音データに係る効果音の内容をそれぞれ言語化して表したもの(擬声語)を、音声認識による音データの付加にあたっての認識対象とする音声(以下「認識ワード」ともいう。)としており、この認識ワードと、音データ(効果音)との関係を規定した効果音データベースが補助記憶部105に記憶されている。
Here, sound data (sound information) that can be added (associated) with moving image data (reproduction data, first reproduction data) and sound data are actually added (associated) to the
図5は本実施例の効果音データベースのテーブル構造の概略を示している。図5に示すように、本実施例の効果音データベースのテーブルは、予め用意された効果音のジャンル毎に(「自然現象」等)、各効果音の内容を言語化して表した擬声語(「ごろごろ」等)と、これに対応する効果音の音データの情報(データ保存先、ファイル名等)とを一対一で対応付けた構造となっている。本実施例の情報処理システム10は、補助記憶部105に記憶される音データ(効果音)の更新(追加、削除等)や、これに対応する効果音データベースの更新(追加、削除等)を事後的に行うこと(いわゆるバージョンアップ)が可能に構成されている。なお、図5では説明の便宜上、効果音のジャンルと、各ジャンルの認識ワード及び音データをそれぞれ3つ例示しているが、実際には、これより多くのジャンル、認識ワード及び音データを備えており、付加することが可能な音データ(効果音)の多様化が図られている。また、図5では、各ジャンルの音データが他のジャンルに含まれない(重複しない)態様を例示しているが、複数のジャンルに含まれる(重複する)音データが存在していてもよい。
FIG. 5 shows an outline of the table structure of the sound effect database of the present embodiment. As shown in FIG. 5, the table of the sound effect database of the present embodiment is a pseudo-spoken word (““ natural phenomenon ”etc.) prepared by verbalizing and expressing the content of each sound effect for each genre of sound effect prepared in advance (“ And the like (ie, data storage destination, file name, etc.) corresponding to the sound effect data corresponding to this. The
本実施例では、図5に示すようなテーブル構造を有する効果音データベースを用いて音データ(効果音)を管理しており、検索部32は、効果音データベースを参照して音データの検索処理(S108)を実行するのである。この検索処理(S108)は、図7に示すフローチャートにしたがって実行される。すなわち、検索処理(S108)ではまず、S106で認識した音声(認識ワード)に対応する音データを検索して取得するための命令文を生成する(S201)。この生成した命令文にしたがって、効果音データベースにアクセスして(S202)、認識した音声(認識ワード)に対応する音データを検索し(S203)、検索の結果、音データが特定されると、その特定された音データを、補助記憶部105に記憶されている音データの中から取得する(S204)。これにより、現在再生中の動画像データ(再生データ、第1再生データ)に付加する効果音の音データが生成(抽出)される。
In this embodiment, sound data (sound effects) is managed using a sound effect database having a table structure as shown in FIG. 5, and the
例えば、本システム10を利用している作業者の発話した音声が「どかーん」である場合、この音声を音声認識部31が認識すると(S106でYES)、検索部32が効果音データベースを参照して、その認識された音声「どかーん」(認識ワード)に対応する効果音の音データを検索する(S203)。図5に示すように「どかーん」の認識ワードに対応する効果音の音データは「音データC2(小爆発音)」であるため、補助記憶部105に記憶されている音データの中から「音データC2」を取得する(S204)。
For example, when the voice uttered by the worker using the
ここで、作業者の発話した音声(認識ワード)が複数のジャンルに重複する場合、例えば、認識ワードが図5に示す「ごろごろ」である場合、検索部32は、「ごろごろ」に対応する音データA1(自然現象:雷の音)および音データB1(物の動き:転がる音)を検索結果として抽出するが、本実施例では、このように一の認識ワードに対応する音データが複数存在する場合、当該複数の音データの中から一の音データをランダムに特定(抽出)して取得するように構成されている。なお、一の認識ワードに対応する音データが複数存在する場合の一の音データの特定(抽出)方法はランダム抽出に限られず、一の音データを特定するための条件をプログラム上で予め定めておき、当該条件に基づいて特定することが可能である。例えば、認識ワードが共通する音データ毎に優先順位を定めておき当該優先順位にしたがって一の音データを特定したり、認識した音声の特徴によって認識ワードに対応する一の音データを特定したり、編集対象(再生中)の動画像データの種類(タイトル、ジャンル等)を識別してこれに適した一の音データを特定したりすること等が可能である。また、前述したジャンル指定画面210により事前に効果音のジャンルを指定しておくことで、認識ワード(音データ)の重複を回避することが可能であり、音データの検索(選択)の効率を向上させることが可能である。
Here, when the voice (recognition word) uttered by the operator overlaps with a plurality of genres, for example, when the recognition word is “about” shown in FIG. 5, the
また、本実施例では、S203による検索の結果が0件となって音データの特定ができなかった場合(認識ワード未対応の場合)、その旨を示すメッセージ画像を編集画面200に表示し、S109の処理を行うことなくS110の処理に移行する。この場合、効果音の音データは生成されず、これに伴い動画像データには音データ(効果音)が付加されないこととなる。
In this embodiment, when the result of the search by S203 is 0 and the sound data cannot be specified (when the recognition word is not supported), a message image indicating that fact is displayed on the
図6に戻り、CPU100は検索処理(S108)を終えると、当該検索処理のS204で取得(生成)された音データを、現在再生中の動画像データ(再生データ、第1再生データ))に付加するための音データ付加処理(S109)を実行する。この音データ付加処理(S109)は、図8に示すフローチャートにしたがって実行される。すなわち、音データ付加処理(S109)ではまず、指示部33が再生処理装置20に対して、先のS204で取得(生成)された音データの読み込み及び当該音データと再生中の動画像データとの合成を指示する信号(以下「指示信号」ともいう。)を出力する(S301)。指示部33(情報処理装置30)からの指示信号を再生処理装置20が受信すると、読込部23が先のS204で取得(生成)された音データを読み込み(S302)、当該読み込んだ音データと、現在再生中の動画像データ(再生データ、第1再生データ)とを、編集部22が合成する(S303)。S303では、S302で読み込んだ音データを、現在再生中の動画像データ(再生データ)における現在の再生位置情報(再生時間情報)と関連付けて当該再生データ(第1再生データ)に貼り付ける処理が実行される。これにより、現在再生中の動画像データ(再生データ、第1再生データ)に対して、作業者が発話した音声に対応する効果音の音データが、その発話タイミング(音声認識タイミング)と略同期して付加される(関連付けられる)こととなる。このとき、編集画面200のタイムライン表示領域203と音編集表示領域204には、それぞれ今回の音データが付加されることとなる再生位置に、マークMKと、音アイコンICが表示される(図3を参照)。また、本実施例では、S303にて音データと動画像データとを合成する際、その音データを再生部21が再生して、当該音データに基づく効果音が音出力部109から出力される。
Returning to FIG. 6, when the
図6に戻り、CPU100は音データ付加処理(S109)を終えると、本編集処理の終了指示の入力が行われたか否かを判定する(S110)。終了指示の入力は、例えば、操作入力部107としてのマウス等を操作して編集画面200の右上の終了アイコン(×印)をクリックすることにより行われる。S110にて終了指示の入力があると判定した場合(S110でYES)、本編集処理を終了し、これにより本情報処理システム10の動作が終了する。一方、終了指示の入力がないと判定した場合(S110でNO)、S100に戻り、上述したS100〜S110の処理が繰り返される。この間、一の編集対象の動画像データの再生が終了するまでは、音データの付加を続けて行うことが可能である。したがって、一の動画像データに対し1又は複数の音データ(効果音)を付加することが可能である。なお、S303により合成した動画像データと音データに関する情報、すなわち、再生中の動画像データの種類、当該動画像データと合成する音データの種類、合成位置(再生位置)等の情報は、編集処理の実行中(編集作業中)、RAM102等の所定の記憶領域に記憶される。また、編集対象の動画像データについての編集作業を終える際、その作業の結果を確定させる指示入力を行うことで、編集済の動画像データ(音データが付加された動画像データ、第2再生データ)が補助記憶部105の所定の記憶領域(フォルダ等)に記憶される。
Returning to FIG. 6, when the sound data adding process (S109) is completed, the
以上の編集処理が、本実施例の情報処理システム10の主要な動作処理であるが、この他にも、CPU100は、本システム10による編集作業に係る処理を実行可能に構成されている。例えば、本システム10を起動して編集作業を行うなか、編集対象の動画像データに1又は複数の音データを付加した状況、すなわち、図3に示すように音編集表示領域204に音アイコンIC(図3では音アイコンIC1〜IC3の3つ)が表示されている状況で、再生表示領域202に設けられた「プレビュー」ボタンが押下されると、編集部22が、そのとき再生表示領域202に表示されている動画像に係る画像データ(編集対象の動画像データ)と、音編集表示領域204に表示されている音アイコンICに係る音データ(付加した効果音の音データ)とを合成して編集後の再生データ(第2再生データ)を作成し、当該再生データを再生部21が再生する。すると、当該再生データに基づく動画像が再生表示領域202に再生表示されるとともに、当該再生データに基づく効果音が音出力部109(スピーカ)から出力される。これにより、編集作業を行う作業者は、効果音が付加された動画像を最初から再生して、編集内容を確認することができる。
The editing process described above is the main operation process of the
また、例えば、本システム10を起動して編集作業を行うなか、音編集表示領域204に表示されている音アイコンICがマウス操作により左右方向(タイムラインの時間軸方向)に移動(ドラッグ)されると、編集部22が、当該音アイコンICに対応する音データの再生位置情報(再生時間情報)を、当該音データのタイムライン上(時間軸上)での移動に合わせて変更し、編集対象の動画像データとの関連付けを更新する。これにより、動画像データに付加した音データ(効果音)の再生位置が変更され、音データ(効果音)の再生位置の事後的な調整が可能となる。
Further, for example, while the
なお、「プレビュー」ボタンの押下に基づく再生データの作成・再生処理や、音アイコンICの移動による音データの再生位置(再生タイミング)変更処理の実行に際しては、音声認識モードの設定が解除され、音声認識部31(音声認識機能)が働かないように構成されている。 Note that the setting of the voice recognition mode is canceled when executing reproduction data creation / reproduction processing based on pressing of the “preview” button or sound data reproduction position (reproduction timing) change processing by moving the sound icon IC, The voice recognition unit 31 (voice recognition function) is configured not to work.
[編集作業の例]
次に、本実施例に係る情報処理システム10を利用した画像制作に係る作業(編集作業)の一例を説明する。ここでは、図9に示すように、本システム10として機能するノート型のパーソナルコンピュータ(ノートPC)に接続された大型の液晶モニタに編集画面200(図3を参照)を表示するものとし、編集作業に関わる者として5人の作業者(作業者A〜E)が居るものとして説明する。また、音声入力用のマイク(音声入力部108)として、1個の全指向性(無指向性)のマイクを使用するものとする。なお、音声入力部108としてのマイクは、単一指向性のマイクとすることも可能であり、この場合、作業者の人数分のマイクを用意したり、1個のマイクを作業者全員で使用したりする等の対応が可能である。また、音声入力部108としてのマイクは有線、無線を問わない。さらに、ノートPCに有線または無線で接続されたスピーカ(音出力部109)から各種音声が出力されるものとする。
[Example of editing work]
Next, an example of work (editing work) related to image production using the
作業を開始するにあたっては、まず、本システム10を起動して、モニタ(表示部)に編集画面200を表示させる。そして、編集画面200上の動画像タイトル表示領域201にて編集対象の動画像データ(再生データ)を選択して、当該データに基づく動画像を再生表示領域202にて再生表示させる。この再生表示が進行して行く中、各作業者はその再生表示中の動画像を見ながら、効果音を付加したいと思うタイミングで、その効果音の擬声語(認識ワード)を発話する。この発話した音声(認識ワード)がマイク(音声入力部108)を介して情報処理装置30に入力され、音声認識部31により認識されると、その認識した音声に対応する効果音の音データが生成されて編集対象の動画像データ(再生データ、第1再生データ)に付加される。このとき、編集画面200の音編集表示領域204には、付加された効果音(音データ)に関する情報を示す音アイコンICが表示され、また、スピーカ(音出力部109)から当該効果音が出力される
In starting the work, first, the
本システム10では、こうした発話による効果音(音データ)の付加を、5人の作業者A〜Eの各人が自由に行うことが可能であり、各人の音声認識による音データ(効果音)の付加が可能となっている。そして、効果音を付加した動画像の内容(編集後の再生データ)を確認したい場合には、再生表示領域202の「プレビュー」ボタン(図3を参照)を押下(クリック)することで、効果音付きの動画像(音データと動画像データとを合成した再生データ、第2再生データ)が再生され、これをすぐに確認することができる。
In the
このように、音声認識による効果音(音データ)の付加を数名(ここでは5人)で行いながら作業を進めることで、編集作業を効率的に行うことが可能となる。具体的に、例えば、音声デザインの担当者が作成した効果音付きの動画像のサンプルデータを、別の作業担当者や作業リーダー、顧客等のもとへ持参し、そのサンプルデータに基づく効果音付きの動画像を確認する場合、本システム10の動作環境さえ整っていれば、その場で効果音の修正や調整、変更等に対応することが可能となる。しかも、音声認識による効果音の付加にあたっての認識ワードを擬声語とし、これに対応する効果音を生成して付加することが可能に構成されているので、その場に居る者の個々の持つイメージにできる限り近似した効果音を付加することが可能となる。したがって、サンプルデータに基づく効果音付きの動画像を確認した結果、効果音の修正等が必要になったとしても、その場で、別の作業担当者等の意向を踏まえた形のデータを直ちに作成することができるので、サウンド担当者がサンプルデータを持ち帰って修正等を行う必要がなくなる。これにより、編集作業の効率が格段に向上することとなる。
As described above, the editing operation can be efficiently performed by proceeding the operation while adding the sound effect (sound data) by the voice recognition by several persons (here, five persons). Specifically, for example, bring sample data of a moving image with sound effects created by a person in charge of voice design to another worker, work leader, customer, etc., and sound effects based on the sample data When the attached moving image is confirmed, if the operating environment of the
以上に説明した本実施例の情報処理システム10では、動画像データを含む再生データ(第1再生データ)に対して効果音の音データを付加する(関連付ける)場合、その再生データの再生中(動画像の再生表示中)に作業者が発話した音声(認識ワード)を認識し、その認識した音声に対応する音データ(効果音)を付加する(関連付ける)ことが可能となっている。このように、動画像に対する効果音の付加(関連付け)を、動画像の再生表示中の音声認識により行えるように構成することで、再生表示される動画像を確認しながら発話するだけで効果音を任意のタイミングで付加することができるので、画像制作に係る作業の効率化を図ることが可能となる。
In the
特に、本実施例では、認識する音声(認識ワード)を擬声語とし、認識ワードに対応する効果音の音データを効果音データベースにより管理している。そして、作業者が発話した擬声語(認識ワード)に基づいて音データ(効果音)を動画像データ(再生データ、第1再生データ)に付加するように構成されているため、作業者の持つイメージにより感覚的に編集作業を進めることが可能となる。また、前述した編集作業の例のように、複数人が同じ編集対象の動画像データ(再生データ、第1再生データ)に対して音データ(効果音)を付加する作業に関与することが可能となる。これにより、画像制作に係る作業効率の向上を図ることが可能となる。 In particular, in this embodiment, the recognized speech (recognition word) is an onomatopoeia, and sound data of sound effects corresponding to the recognition word is managed by the sound effect database. And since it is comprised so that sound data (sound effect) may be added to moving image data (reproduction data, 1st reproduction data) based on the onomatopoeia (recognition word) which the operator uttered, the image which a worker has This makes it possible to proceed editing work sensuously. Further, as in the example of the editing work described above, a plurality of people can be involved in the work of adding sound data (sound effect) to the same editing target moving image data (playback data, first playback data). It becomes. As a result, it is possible to improve work efficiency related to image production.
なお、本発明は前述した実施例と異なる構成(以下「変形例」ともいう。)を採ることも可能である。以下、変形例について説明する。 It should be noted that the present invention can adopt a configuration (hereinafter also referred to as “modification”) different from the above-described embodiments. Hereinafter, modified examples will be described.
[変形例1]
前述した実施例の情報処理システム10では、音声入力部108を介して音声認識部31により認識可能な音声について特に制限を設けていなかったが、これについて制限を設けることも可能である。例えば、前述した実施例に対して音声認証機能を追加し、事前にシステム利用者として登録した者の音声だけを音声認識部31が認識するように構成してもよい。音声認証機能としては公知のものを利用することが可能である。本変形例1に係るシステム構成としては、例えば、本システム10により編集作業を行う者の音声に関する情報(音声情報)を登録しておく登録部と、音声入力部108を介して入力された音声が登録部に登録された者の音声であるか否かを識別する識別部を情報処理装置30に設け、登録部に登録された情報に対応する者の音声のみを音声認識部31が認識する構成を例示できる。このような構成では、まず、本システム10を利用する者が、事前に音声入力部108を介して自己の音声を登録しておく。この登録は、入力された音声を登録部が分析して当該音声の特徴データ(周波数等)を抽出し、これを特定の個人の音声モデル(音声情報)として記録することにより行われる。そして、本システム10を利用して実際に編集作業を行う場合には、作業者が、本システム10の利用開始に際して自己の所定の音声を音声入力部108により入力する。この入力した音声と、登録部に登録(記録)されている音声モデル(音声情報)との比較・照合が識別部により行われ、両者が一致すれば、その音声を入力した作業者は、以後、前述した音声認識による音データの付加を行うことが可能となる。このような変形例1によれば、事前に登録した者のみが、音声認識による音データの付加を行うことができるので、編集作業を行わない者の音声を認識して音データが付加されることがない。また、一度にシステムを利用する作業者の人数を制限することも可能となるので、音声認識(音声認識機能)が適切に機能する環境を維持しやすくなる。
[Modification 1]
In the
[変形例2]
前述した実施例の情報処理システム10では、音声入力部108を介して入力された音声を音声認識部が認識し、この認識した音声(認識ワード)に対応する音データを動画像データに付加するように構成していた。これに対し、音声入力以外の入力に基づいて音データを動画像データに付加するように構成してもよく、例えば、キーボードやマウス等のパーソナルコンピュータ(PC)が備える操作入力部107や、効果音データベースに登録された認識ワードを入力するための専用のコントローラ、入力画面等を用いた作業者による入力(操作入力)に基づいて、動画像データに付加する音データの選択(検索)や音データの付加を行うように構成してもよい。この場合、操作入力部107やコントローラ、入力画面等からの入力を認識可能な入力認識部を情報処理装置30に設け、入力認識部が認識した入力に対応する音データ(効果音)を取得して動画像データに付加するように構成することが可能である。また、操作入力部107やコントローラ等による入力に基づいて電子音等の音データを生成可能な音生成部を情報処理装置30に設け、音生成部が生成した音データを動画像データに付加するように構成してもよい。これらの構成においても、前述した実施例のように、編集画面200の再生表示領域202に再生表示される動画像やタイムライン表示領域203に表示されるタイムラインカーソルTC等を確認しながら、任意のタイミングで操作入力部107やコントローラ等を操作することで、任意の効果音(音データ)を付加することが可能である。このような変形例2によれば、編集作業を行わない者の音声やその他周囲の雑音等の認識による音データの付加がなされないので、音声認識の場合に懸念されるノイズを考慮する必要がなくなる。
[Modification 2]
In the
[変形例3]
前述した実施例の情報処理システム10では、図5に示すようなテーブル構造を有する効果音データベースにより音データ(効果音)を管理しており、音声認識部により認識された音声(認識ワード)に対応する音データを取得して、動画像データに付加するように構成していた。そして、音声認識部により認識された音声が認識ワードとして効果音データベースに存在しない場合(認識ワード未対応の場合)には音データが生成されず、動画像データに音データが付加されないものとなっていた。これに対し、音声認識部により認識された音声に対応する認識ワードが存在しない場合、認識された音声に近似する一の音データを、補助記憶部105に記憶されている1又は2以上の音データを合成して生成し、これを動画像データに付加する(関連付ける)ように構成してもよい。例えば、図5に示すように「かーん」の認識ワードに対応する効果音の音データC1は存在するものの、音声認識部により認識された音声が「かーんかーん」であり、これに対応する認識ワード及び音データが存在しない場合、「かーん」の音データC1を2つ合成して(組み合わせて)一の音データ(「かーんかーん」)を生成することが可能である。また、実施例のような効果音データベースに対応する効果音の音データ(効果音データ)に加え、直音、拗音、清音、濁音、半濁音、鼻濁音等の単音に該当する音データ(単音データ)を補助記憶部105に記憶しておき、この単音データと効果音データを合成して一の音データを生成したり(例えば「ぱ」+「かーん」=「ぱかーん」)、単音データ同士を合成して一の音データを生成したりすること(例えば「きゅ」+「い」+「ん」=「きゅいん」)も可能である。このような変形例3によれば、音声認識部により認識された音声によっては音データが生成されず動画像に効果音が付加されないといったことを極力排除することが可能となる。また、音声認識により付加することが可能な効果音の多様化を図ることが可能となる。
[Modification 3]
In the
[変形例4]
前述した実施例の情報処理システム10では、音声認識により音データを再生中の動画像データに対して付加する際、当該音データを再生中の動画像データの現在の再生位置情報(再生時間情報)と関連付けて、発話者の発話タイミング(音声認識タイミング)に合わせて(略同期させて)音データを付加するように構成していた。これに対し、動画像データに対する音データを付加する位置(音の再生タイミング)を、実際の発話タイミング(音声認識タイミング)よりも僅かに早くする(前倒しとする)ことができるように構成してもよい。例えば、再生表示領域202に再生表示される編集対象の動画像が作業者にとって初見である場合、作業者の発話タイミングが遅れることが想定される。これに鑑み、前述した実施例のジャンル指定画面210と同様にして音設定画面(図示せず)を設け、当該画面を通じて効果音を付加する位置(音の再生タイミング)を若干早めにする設定を事前に行えるように構成する(付加位置設定機能)。このような変形例4によれば、使い勝手の良いシステムとすることが可能となる。
[Modification 4]
In the
[変形例5]
前述した実施例の情報処理システム10では、検索処理(S108)により取得した音データを動画像データに付加する音データ付加処理(S109)において、音データと再生中の動画像データとを合成し(S303)、この合成した音データをすぐに再生部21が再生することで、当該音データに基づく効果音が動画像への付加とともに音出力部109により出力されるように構成していた。これに対し、音データ付加処理(S109)では、音データと動画像データとを合成せずに、再生中の動画像データに対して関連付ける音データの再生位置情報(再生時間情報)を記憶するに止めておき、音データの再生も行わないように構成してもよい。つまり、音データ付加処理(S109)では、音データそのものの付加を行わず、音データに関する情報(音データの種類、タイトル等)を、現在再生中の動画像データの現在の再生位置情報(再生時間情報)と関連付けて記憶するように構成する。この場合、検索処理(S108)による音データの検索(S203)は行うが、その検索結果に基づく音データの取得(S204)については音データに関する情報(音データの種類、タイトル等)を取得することとし、この情報を音データ付加処理(S109)の中で読み込んで、動画像データの現在の再生位置情報(再生時間情報)と関連付けて記憶するように構成する(S302)。そして、その後に、例えば再生表示領域202の「プレビュー」ボタンが押下される等、音データと編集対象の動画像データとを合成したものの再生を指示する旨の入力に基づいて、編集部22が、S302にて記憶した情報に対応する音データを補助記憶部105から読み込み、当該音データと編集対象の動画像データとを合成して、合成済の再生データを再生するように構成する。このような変形例5によれば、編集を施している動画像データの再生中におけるCPUの処理負担が軽減されるので、編集作業をより円滑にすることが可能となる。なお、このような変形例5においても、編集作業中の画面表示に関しては、前述した実施例と同様、図3に示すような編集画面200を表示することが可能である。こうすれば、音データ付加処理(S109)において、内部的には、音データと動画像データとを合成せず、動画像データ(再生データ)に対して関連付ける音データの再生位置情報(再生時間情報)を記憶するに止めたとしても、作業者にとっては、見かけ上、動画像データ(再生データ)に対する音データの付加状況が分かりやすいものとなる。
[Modification 5]
In the
[変形例6]
前述した実施例の情報処理システム10では、音声認識部により認識する音声(認識ワード)を擬声語とし、その擬声語に基づいて音データ(効果音)を動画像データに付加するように構成しており、その音声認識の対象は日本語を前提としていた(図5を参照)。これに対し、音声認識の対象とする言語に関し、日本語以外の言語も対象とすることができるように構成してよい。例えば「犬の鳴き声」を表す擬声語に関し、日本語では「わんわん」、英語では「Bowwow」といったように、同じ内容の擬声語であっても言語によって表現(認識ワード)が異なるものが多く存在する。このことに対応して、効果音データベースにおける認識ワードを、日本語だけでなく英語等の他の言語についても予め設定し、言語に応じた検索が可能となるように構成する。そして、前述した実施例のジャンル指定画面210と同様にして言語指定画面(図示せず)を設け、当該画面を通じて何れの言語で音声認識を行うのかを事前に指定できるように構成する(言語指定機能)。このような変形例6によれば、日本語だけでなく他国の言語にも対応し得るので、利便性の高いシステムとすることが可能となる。
[Modification 6]
In the
[変形例7]
前述した実施例の情報処理システム10では、当該システムを構成するパーソナルコンピュータ(PC)が備える補助記憶部105に効果音データベース及び音データを記憶し、この効果音データベースにアクセスして検索処理(S108)を行うように構成していた。これに対して、情報処理システム10を構成するPCがインターネット等のネットワークを介して接続可能なサーバーに、効果音データベース及び音データを記憶する記憶部を設け、サーバー側で検索処理を行うように構成してよい。この場合、サーバー側での検索処理により抽出された音データを、PC側がネットワークを介して取得し、この取得した音データと動画像データとを合成するように構成する。このような変形例7によれば、ネットワーク環境さえ整っていれば、様々な場所で本システムを利用した編集作業が可能となる。また、効果音データベースや音データの更新やメンテナンス等の作業を、システム利用者に委ねることなく、本システムの提供者(販売者、製造者、管理者等)が行えるようになる。したがって、より使い勝手の良いシステムとすることが可能となる。
[Modification 7]
In the
以上、本発明の実施形態として実施例および変形例を説明したが、本発明はこれらに限定されるものではなく、各請求項に記載した範囲を逸脱しない限り、各請求項の記載文言に限定されず、当業者がそれらから容易に置き換えられる範囲にも及び、かつ、当業者が通常有する知識に基づく改良を適宜付加することが可能である。 As mentioned above, although an example and a modification were explained as an embodiment of the present invention, the present invention is not limited to these, and unless it deviates from a range indicated in each claim, it limits to a statement word of each claim. However, it is possible to appropriately add improvements based on the knowledge that a person skilled in the art normally has, and to the extent that those skilled in the art can easily replace them.
例えば、前述した実施例等では、音声認識により音データ(効果音)を動画像データに関連付ける構成としていたが、例えば、各種エフェクト画像の画像データを動画像データに関連付けるようにしてもよい。こうすれば、効果音及びエフェクト画像の何れか一方または両方と動画像データ(再生データ)との関連付けに係る作業を、音声認識より行うことが可能となる。 For example, in the above-described embodiments, sound data (sound effects) is associated with moving image data by voice recognition. However, for example, image data of various effect images may be associated with moving image data. In this way, it is possible to perform work related to associating one or both of sound effects and effect images with moving image data (reproduction data) by voice recognition.
また、前述した実施例等では、再生処理装置20及び情報処理装置30により構成される情報処理システム10のソフトウェア(プログラム)をパーソナルコンピュータ(PC)することで、当該PCを情報処理システム10として機能させるものとしていたが、例えば、市販の再生処理装置のソフトウェア(プログラム)をインストール済のPCに対して、情報処理装置のソフトウェア(プログラム)をインストールした場合にも、前述した実施例等と同様の情報処理システムを構築することができるように構成してもよい。この場合、情報処理装置を、PCが既に備えている再生処理装置と接続可能かつ通信可能に構成し、再生処理装置と情報処理装置をそれぞれ起動することで、両装置が接続されるように構成する。また、両装置を起動することで、PCの表示部には、再生処理装置に対応する画面(以下「第1画面」ともいう。)と、情報処理装置に対応する画面(以下「第2画面」ともいう。)とが、それぞれ独立して(別々のウィンドウで)表示されるように構成する。ここで、第1画面は、例えば、前述した実施例等の編集画面200(図3を参照)のうち音声認識表示領域205を除いた他の領域201〜204からなるものとすることができ、第2画面は、例えば、同編集画面200のうち音声認識表示領域205からなるものとすることができる。
In the above-described embodiment, the personal computer (PC) is used as the software (program) of the
このように、再生処理装置のソフトウェアと情報処理装置のソフトウェアとを別々にインストールする構成においても、前述した実施例等と同様にして、再生処理装置により再生する動画像データ(再生データ)に対して、情報処理装置により生成した音データを付加する(関連付ける)ことが可能である。また、このような構成によれば、情報処理システム全体(再生処理装置+情報処理装置)のソフトウェアの他、情報処理装置用のソフトウェアだけを単独で提供することも可能なので、既に再生処理装置のソフトウェアをインストールしたPCを所有する利用者(ユーザー)にとっては、実施例等で説明したシステムによる画像制作に係る作業環境を手軽に導入することが可能となり、利用者(ユーザー)にとっての利便性が高まる。 As described above, even in the configuration in which the software of the reproduction processing device and the software of the information processing device are installed separately, the moving image data (reproduction data) reproduced by the reproduction processing device is similar to the above-described embodiment. Thus, the sound data generated by the information processing apparatus can be added (associated). Further, according to such a configuration, since only the software for the information processing apparatus can be provided alone in addition to the software of the entire information processing system (reproduction processing apparatus + information processing apparatus), the reproduction processing apparatus already has For the user (user) who owns the PC on which the software is installed, it is possible to easily introduce the work environment related to image production by the system described in the embodiments and the like, which is convenient for the user (user). Rise.
なお、前述の第2画面には、音声認識の開始(音声認識モードの設定)を指示する「開始」ボタン(図示せず)と、音声認識の終了(音声認識モードの設定解除)を指示する「終了」ボタン(図示せず)とを設けてもよい。これは、再生処理装置と情報処理装置は別々に起動するもの(別々のソフトウェア)であり、再生処理装置における動画像データ(再生データ)の再生開始・終了に係る指示と、情報処理装置における音声認識の開始・終了に係る指示とを別系統にすることも可能だからである。この場合、作業者は、例えば、第1画面にて「再生」のアイコン(図3を参照)をクリックして動画像データの再生開始の指示入力を行った後、第2画面にて「開始」ボタンをクリックして音声認識開始の指示入力を行うことで、前述の実施例等と同様にして編集作業を行うことが可能である。 The second screen described above instructs a “start” button (not shown) for instructing the start of voice recognition (setting of the voice recognition mode) and the end of voice recognition (resetting the voice recognition mode). An “end” button (not shown) may be provided. This is because the playback processing device and the information processing device are started separately (separate software), instructions relating to the start and end of playback of moving image data (playback data) in the playback processing device, and audio in the information processing device This is because it is possible to make a separate system for the instructions related to the start / end of recognition. In this case, for example, the operator clicks the “play” icon (see FIG. 3) on the first screen and inputs an instruction to start playback of moving image data, and then “start” on the second screen. By clicking the “” button and inputting a voice recognition start instruction, the editing operation can be performed in the same manner as in the above-described embodiment.
また、本発明に係る情報処理システム及び情報処理装置は、パチンコ遊技機やスロットマシン等の遊技機で使用される各種遊技演出画像の制作、家庭用ゲームや携帯ゲーム、ネットゲーム、アーケードゲーム等のゲーム機で使用される各種ゲーム画像の制作、WEBサイト上の宣伝広告等で使用される各種WEBサイト画像の制作、テレビや映画等で使用される各種アニメーション画像の制作等、あらゆる分野の画像の制作において利用することが可能である。特に、製品アイテム数が多かったり製品のライフサイクルが短かったりする遊技機分野やゲーム分野等において本発明は有用である。
[その他]
以下、本明細書で開示した実施形態(実施例)に関連する発明を参考発明として開示しておく。
(1)参考発明1の情報処理システムは、
画像情報を含む第1再生データを再生する第1再生手段と、
前記第1再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記第1再生データとを関連付ける関連手段と、
を備えることを要旨とする。
これによれば、第1再生データの再生中における入力に基づいて音情報が生成され、当該生成された音情報と第1再生データとの関連付けが行われるので、画像制作に係る作業の効率化を図ることが可能となる。
(2)参考発明2の情報処理システムは、前述の参考発明1の情報処理システムにおいて、
前記音情報と前記第1再生データとを関連付けた第2再生データを再生する第2再生手段を備えることを要旨とする。
これによれば、第2再生データの再生により、音情報を含めた第1再生データ(つまり、生成した音情報と画像情報とを含む再生データ)の確認作業が容易となる。
(3)参考発明3の情報処理システムは、前述の参考発明1または参考発明2の情報処理システムにおいて、
前記関連手段は、前記生成手段による音情報の生成の契機となった入力のタイミングに合わせて、該入力に基づいて生成された音情報と前記第1再生データとを関連付けることを要旨とする。
これによれば、第1再生データの再生中における入力タイミングと、音情報の再生タイミングとを同期させることが可能となり、音情報の再生タイミング(再生位置)の設定(決定)が容易となる。
(4)参考発明4の情報処理システムは、前述の参考発明1から参考発明3の何れか一つの情報処理システムにおいて、
前記第1再生データと関連付けた前記音情報の再生タイミングを調整可能な調整手段を備えることを要旨とする。
これによれば、関連付けた音情報の再生タイミング(再生位置)を調整することが可能となるので、音情報の再生タイミングの最適化を図ることが可能となる。
(5)参考発明5の情報処理システムは、前述の参考発明1から参考発明4の何れか一つの情報処理システムにおいて、
複数の音情報を記憶する記憶手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記第1再生データと関連付ける音情報を生成することを要旨とする。
これによれば、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。
(6)参考発明6の情報処理システムは、前述の参考発明5の情報処理システムにおいて、
前記生成手段は、前記記憶手段に記憶されている音情報の中に、前記認識手段により認識された入力に対応する音情報が複数存在する場合、該複数の音情報のうち何れかを所定条件に基づいて特定して取得することを要旨とする。
これによれば、入力に対応する音情報が複数存在する場合であっても、何れかの音情報が第1再生データと関連付けられることとなるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(7)参考発明7の情報処理システムは、前述の参考発明5または参考発明6の情報処理システムにおいて、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
これによれば、関連付ける音情報の分類(種類)を予め指定しておくことで、その指定された分類に即した音情報が、第1再生データの再生中における入力に基づいて生成されて該第1再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(8)参考発明8の情報処理システムは、前述の参考発明5から参考発明7の何れか一つの情報処理システムにおいて、
前記生成手段は、前記記憶手段に記憶されている音情報を合成して、前記認識手段により認識された入力に対応する一の音情報を生成することが可能であることを要旨とする。
これによれば、第1再生データの再生中における入力が行われた際、当該入力に合致する音情報が記憶手段に記憶されていないとしても、記憶手段に記憶されている音情報の合成により、その入力に対応する一の音情報が生成されて第1再生データと関連付けられるので、入力の内容によっては音情報が生成されずに第1再生データとの関連付けが行われないといったことを極力排除することが可能となる。
(9)参考発明9の情報処理システムは、前述の参考発明1から参考発明8の何れか一つの情報処理システムにおいて、
前記認識手段は、前記第1再生データの再生中に発話された音声を認識する音声認識手段であることを要旨とする。
これによれば、第1再生データの再生中に発話された音声に基づいて音情報が生成され、当該生成された音情報と第1再生データとの関連付けが行われるので、音情報と第1再生データとの関連付けを音声入力(音声認識)によって簡便に行うことが可能となる。
(10)参考発明10の情報処理装置は、
画像情報を含む再生データを再生可能な再生処理装置に接続可能な情報処理装置であって、
前記再生処理装置による再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
を備えることを要旨とする。
これによれば、再生処理装置での再生データの再生中における入力に基づいて、音情報が生成されて再生データに関連付けられるので、画像制作に係る作業の効率化を図ることが可能となる。
(11)参考発明11の情報処理装置は、前述の参考発明10の情報処理装置において、
前記音情報を関連付けた再生データの再生を前記再生処理装置に対して指示する再生指示手段を備えることを要旨とする。
これによれば、音情報を含めた再生データ(つまり、生成した音情報と画像情報とを含む再生データ)を再生処理装置にて再生させることが可能となるので、音情報と画像情報とを含む再生データの確認作業が容易となる。
(12)参考発明12の情報処理装置は、前述の参考発明10または参考発明11の情報処理装置において、
前記関連指示手段は、前記生成手段による音情報の生成の契機となった入力のタイミングに合わせて、該入力に基づいて生成された音情報と前記再生データとの関連付けを指示することを要旨とする。
これによれば、再生データの再生中における入力タイミングと、音情報の再生タイミングとを同期させることが可能となり、音情報の再生タイミング(再生位置)の設定(決定)が容易となる。
(13)参考発明13の情報処理装置は、前述の参考発明10から参考発明12の何れか一つの情報処理装置において、
複数の音情報を記憶する記憶手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成することを要旨とする。
これによれば、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。
(14)参考発明14の情報処理装置は、前述の参考発明13の情報処理装置において、
前記生成手段は、前記記憶手段に記憶されている音情報の中に、前記認識手段により認識された入力に対応する音情報が複数存在する場合、該複数の音情報のうち何れかを所定条件に基づいて特定して取得することを要旨とする。
これによれば、入力に対応する音情報が複数存在する場合であっても、何れかの音情報が再生データに関連付けられることとなるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(15)参考発明15の情報処理装置は、前述の参考発明13または参考発明14の情報処理装置において、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
これによれば、関連付ける音情報の分類(種類)を予め指定しておくことで、その指定された分類に即した音情報が、再生データの再生中における入力に基づいて生成されて該再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(16)参考発明16の情報処理装置は、前述の参考発明13から参考発明15の何れか一つの情報処理装置において、
前記生成手段は、前記記憶手段に記憶されている音情報を合成して、前記認識手段により認識された入力に対応する一の音情報を生成することが可能であることを要旨とする。
これによれば、再生データの再生中における入力が行われた際、当該入力に合致する音情報が記憶手段に記憶されていないとしても、記憶手段に記憶されている音情報の合成により、その入力に対応する一の音情報が生成されて再生データに関連付けられるので、入力の内容によっては音情報が生成されずに再生データとの関連付けが行われないといったことを極力排除することが可能となる。
(17)参考発明17の情報処理装置は、前述の参考発明10から参考発明16の何れか一つの情報処理装置において、
前記認識手段は、前記再生処理装置による再生データの再生中に発話された音声を認識する音声認識手段であることを要旨とする。
これによれば、再生データの再生中に発話された音声に基づいて音情報が生成され、当該生成された音情報が再生データに関連付けられるので、音情報と再生データとの関連付けを音声入力(音声認識)によって簡便に行うことが可能となる。
In addition, the information processing system and information processing apparatus according to the present invention are used to produce various game effect images used in gaming machines such as pachinko gaming machines and slot machines, home games, mobile games, net games, arcade games, etc. Production of various game images used in game machines, production of various WEB site images used in advertising on the WEB site, production of various animation images used in television and movies, etc. It can be used in production. In particular, the present invention is useful in the gaming machine field, the game field, and the like where the number of product items is large and the product life cycle is short.
[Others]
Hereinafter, inventions related to the embodiments (examples) disclosed in this specification are disclosed as reference inventions.
(1) The information processing system of Reference Invention 1 is
First reproducing means for reproducing first reproduction data including image information;
Recognition means for recognizing an input during reproduction of the first reproduction data;
Generating means for generating sound information based on the input recognized by the recognition means;
Association means for associating the sound information generated by the generation means with the first reproduction data;
It is a summary to provide.
According to this, sound information is generated based on the input during the reproduction of the first reproduction data, and the generated sound information and the first reproduction data are associated with each other. Can be achieved.
(2) The information processing system of
The gist of the present invention is to provide second reproduction means for reproducing second reproduction data in which the sound information and the first reproduction data are associated with each other.
According to this, the confirmation of the first reproduction data including the sound information (that is, the reproduction data including the generated sound information and the image information) is facilitated by the reproduction of the second reproduction data.
(3) The information processing system of Reference Invention 3 is the information processing system of Reference Invention 1 or
The gist of the association means is that the sound information generated based on the input is associated with the first reproduction data in accordance with the input timing that triggered the generation of the sound information by the generation means.
According to this, it is possible to synchronize the input timing during the reproduction of the first reproduction data and the reproduction timing of the sound information, and it becomes easy to set (determine) the reproduction timing (reproduction position) of the sound information.
(4) The information processing system according to Reference Invention 4 is the information processing system according to any one of Reference Invention 1 to Reference Invention 3,
The gist of the present invention is to provide an adjusting means capable of adjusting the reproduction timing of the sound information associated with the first reproduction data.
According to this, since it is possible to adjust the reproduction timing (reproduction position) of the associated sound information, it is possible to optimize the reproduction timing of the sound information.
(5) The information processing system of Reference Invention 5 is the information processing system of any one of Reference Invention 1 to Reference Invention 4 described above,
Comprising storage means for storing a plurality of sound information;
The generation means acquires sound information corresponding to the input recognized by the recognition means from the sound information stored in the storage means, and generates sound information associated with the first reproduction data. Is the gist.
According to this, since the sound information corresponding to the input is acquired and generated from the plurality of pieces of sound information stored in advance, it is possible to diversify the associated sound information.
(6) The information processing system of Reference Invention 6 is the information processing system of Reference Invention 5 described above,
When the sound information stored in the storage means includes a plurality of sound information corresponding to the input recognized by the recognition means, the generation means determines any one of the plurality of sound information as a predetermined condition. The gist is to specify and acquire based on the above.
According to this, even if there is a plurality of sound information corresponding to the input, any one of the sound information is associated with the first reproduction data, so that the selection of the sound information to be associated is made efficient. Is possible.
(7) The information processing system of Reference Invention 7 is the information processing system of Reference Invention 5 or Reference Invention 6 described above,
Sound information stored in the storage means is managed by classification,
A designation unit capable of designating a classification of sound information to be generated by the generation unit among the classifications;
The generating means acquires sound information corresponding to the input recognized by the recognizing means from the sound information of the classification specified by the specifying means among the sound information stored in the storage means. Is the gist.
According to this, by specifying the classification (type) of the sound information to be associated in advance, the sound information corresponding to the specified classification is generated based on the input during the reproduction of the first reproduction data, and Since it is associated with the first reproduction data, it is possible to improve the efficiency of selection of the sound information to be associated.
(8) An information processing system according to Reference Invention 8 is the information processing system according to any one of Reference Invention 5 to Reference Invention 7,
The gist of the present invention is that the generation means can synthesize the sound information stored in the storage means to generate one sound information corresponding to the input recognized by the recognition means.
According to this, when an input is made during the reproduction of the first reproduction data, even if the sound information matching the input is not stored in the storage means, the sound information stored in the storage means is synthesized. Since one piece of sound information corresponding to the input is generated and associated with the first reproduction data, depending on the content of the input, the sound information is not generated and no association with the first reproduction data is performed as much as possible. It becomes possible to eliminate.
(9) An information processing system according to Reference Invention 9 is the information processing system according to any one of Reference Invention 1 to Reference Invention 8,
The gist of the present invention is that the recognizing means is a sound recognizing means for recognizing a voice spoken during reproduction of the first reproduction data.
According to this, sound information is generated based on the voice uttered during the reproduction of the first reproduction data, and the generated sound information and the first reproduction data are associated with each other. Association with reproduction data can be easily performed by voice input (voice recognition).
(10) The information processing apparatus of
An information processing apparatus connectable to a reproduction processing apparatus capable of reproducing reproduction data including image information,
Recognizing means for recognizing input during reproduction of reproduction data by the reproduction processing device;
Generating means for generating sound information based on the input recognized by the recognition means;
Association instruction means for instructing the reproduction processing apparatus to associate the sound information generated by the generation means with the reproduction data;
It is a summary to provide.
According to this, since the sound information is generated and associated with the reproduction data based on the input during reproduction of the reproduction data in the reproduction processing apparatus, it is possible to improve the efficiency of the work related to image production.
(11) The information processing apparatus of Reference Invention 11 is the information processing apparatus of
The gist of the present invention is to provide reproduction instruction means for instructing the reproduction processing device to reproduce reproduction data associated with the sound information.
According to this, reproduction data including sound information (that is, reproduction data including generated sound information and image information) can be reproduced by the reproduction processing device. The confirmation work of the reproduction data including becomes easy.
(12) The information processing apparatus of
The related instructing means instructs the association between the sound information generated based on the input and the reproduction data in accordance with the input timing that triggered the generation of the sound information by the generating means. To do.
According to this, it becomes possible to synchronize the input timing during the reproduction of the reproduction data and the reproduction timing of the sound information, and the setting (determination) of the reproduction timing (reproduction position) of the sound information becomes easy.
(13) An information processing apparatus according to Reference Invention 13 is the information processing apparatus according to any one of
Comprising storage means for storing a plurality of sound information;
The generating means acquires sound information corresponding to the input recognized by the recognizing means from sound information stored in the storage means, and generates sound information associated with the reproduction data. And
According to this, since the sound information corresponding to the input is acquired and generated from the plurality of pieces of sound information stored in advance, it is possible to diversify the associated sound information.
(14) The information processing apparatus of Reference Invention 14 is the information processing apparatus of Reference Invention 13 described above,
When the sound information stored in the storage means includes a plurality of sound information corresponding to the input recognized by the recognition means, the generation means determines any one of the plurality of sound information as a predetermined condition. The gist is to specify and acquire based on the above.
According to this, even if there is a plurality of sound information corresponding to the input, since any sound information is associated with the reproduction data, it is possible to improve the efficiency of selecting the associated sound information. It becomes.
(15) The information processing apparatus of Reference Invention 15 is the information processing apparatus of Reference Invention 13 or Reference Invention 14 described above,
Sound information stored in the storage means is managed by classification,
A designation unit capable of designating a classification of sound information to be generated by the generation unit among the classifications;
The generating means acquires sound information corresponding to the input recognized by the recognizing means from the sound information of the classification specified by the specifying means among the sound information stored in the storage means. Is the gist.
According to this, by specifying the classification (type) of the sound information to be associated in advance, the sound information corresponding to the designated classification is generated based on the input during the reproduction of the reproduction data, and the reproduction data Therefore, it is possible to improve the efficiency of selecting sound information to be associated.
(16) An information processing apparatus according to Reference Invention 16 is the information processing apparatus according to any one of Reference Invention 13 to Reference Invention 15,
The gist of the present invention is that the generation means can synthesize the sound information stored in the storage means to generate one sound information corresponding to the input recognized by the recognition means.
According to this, when input is performed during reproduction of reproduction data, even if sound information that matches the input is not stored in the storage means, the sound information stored in the storage means is synthesized. Since one sound information corresponding to the input is generated and associated with the reproduction data, it is possible to eliminate as much as possible that the sound information is not generated and the association with the reproduction data is not performed depending on the content of the input. Become.
(17) An information processing apparatus according to
The gist of the present invention is that the recognizing means is a voice recognizing means for recognizing a voice uttered during reproduction of reproduction data by the reproduction processing device.
According to this, sound information is generated based on the speech uttered during the reproduction of the reproduction data, and the generated sound information is associated with the reproduction data, so that the association between the sound information and the reproduction data is input by voice ( (Speech recognition) can be easily performed.
10 情報処理システム、20 再生処理装置、21 再生部、22 編集部、23 読込部、30 情報処理装置、31 音声認識部、32 検索部、33 指示部、100 CPU、101 ROM、102 RAM、103 フレームバッファメモリ、104 画像圧縮伸張部、105 補助記憶部、106 表示部、107 操作入力部、108 音声入力部、109 音出力部、200 編集画面、201 動画像タイトル表示領域、202 再生表示領域、203 タイムライン表示領域、204 音編集表示領域、205 音声認識表示領域、210 ジャンル指定画面、TC タイムラインカーソル、HK 波形、MK マーク、IC 音アイコン。
DESCRIPTION OF
Claims (2)
前記再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとを関連付ける関連手段と、
複数の音情報を記憶する記憶手段と、を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成するものであり、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段をさらに備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを特徴とする情報処理システム。 Re co means you play including playback data image information,
And recognition means for recognizing input during playback of the previous SL re-raw data,
Generating means for generating sound information based on the input recognized by the recognition means;
And related means for associating the sound information and the prior SL playback data generated by the generating means,
Storage means for storing a plurality of sound information,
The generation means acquires sound information corresponding to the input recognized by the recognition means from the sound information stored in the storage means, and generates sound information associated with the reproduction data. ,
Sound information stored in the storage means is managed by classification,
A specifying unit capable of specifying a classification of sound information to be generated by the generating unit among the classifications;
The generating means acquires sound information corresponding to the input recognized by the recognizing means from the sound information of the classification specified by the specifying means among the sound information stored in the storage means. An information processing system characterized by
前記再生処理装置による再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
複数の音情報を記憶する記憶手段と、を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成するものであり、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段をさらに備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを特徴とする情報処理装置。 An information processing apparatus connectable to a reproduction processing apparatus capable of reproducing reproduction data including image information,
Recognizing means for recognizing input during reproduction of reproduction data by the reproduction processing device;
Generating means for generating sound information based on the input recognized by the recognition means;
Association instruction means for instructing the reproduction processing apparatus to associate the sound information generated by the generation means with the reproduction data;
Storage means for storing a plurality of sound information,
The generation means acquires sound information corresponding to the input recognized by the recognition means from the sound information stored in the storage means, and generates sound information associated with the reproduction data. ,
Sound information stored in the storage means is managed by classification,
A specifying unit capable of specifying a classification of sound information to be generated by the generating unit among the classifications;
The generating means acquires sound information corresponding to the input recognized by the recognizing means from the sound information of the classification specified by the specifying means among the sound information stored in the storage means. information processing apparatus said.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018097838A JP6442102B1 (en) | 2018-05-22 | 2018-05-22 | Information processing system and information processing apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018097838A JP6442102B1 (en) | 2018-05-22 | 2018-05-22 | Information processing system and information processing apparatus |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018214375A Division JP6554634B1 (en) | 2018-11-15 | 2018-11-15 | Information processing system and information processing apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP6442102B1 true JP6442102B1 (en) | 2018-12-19 |
| JP2019205025A JP2019205025A (en) | 2019-11-28 |
Family
ID=64668514
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018097838A Active JP6442102B1 (en) | 2018-05-22 | 2018-05-22 | Information processing system and information processing apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6442102B1 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022531221A (en) * | 2019-04-30 | 2022-07-06 | 株式会社ソニー・インタラクティブエンタテインメント | Mapping visual tags to sound tags using text similarity |
| US12277501B2 (en) | 2020-04-14 | 2025-04-15 | Sony Interactive Entertainment Inc. | Training a sound effect recommendation network |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005278212A (en) * | 1996-11-15 | 2005-10-06 | Hitachi Kokusai Electric Inc | Image editing method and image editing apparatus |
| US20030133022A1 (en) * | 2002-01-15 | 2003-07-17 | Melton Gerod C. | Digital video editing device and method |
| JP2005094391A (en) * | 2003-09-18 | 2005-04-07 | Pioneer Electronic Corp | Device, method and program for editing and recording data, and recording medium having data editing and recording program recorded thereon |
| JP4272611B2 (en) * | 2004-11-11 | 2009-06-03 | 日本電信電話株式会社 | VIDEO PROCESSING METHOD, VIDEO PROCESSING DEVICE, VIDEO PROCESSING PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE PROGRAM |
| JP2012165313A (en) * | 2011-02-09 | 2012-08-30 | Sony Corp | Editing device, method, and program |
-
2018
- 2018-05-22 JP JP2018097838A patent/JP6442102B1/en active Active
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022531221A (en) * | 2019-04-30 | 2022-07-06 | 株式会社ソニー・インタラクティブエンタテインメント | Mapping visual tags to sound tags using text similarity |
| JP7277611B2 (en) | 2019-04-30 | 2023-05-19 | 株式会社ソニー・インタラクティブエンタテインメント | Mapping visual tags to sound tags using text similarity |
| US12277501B2 (en) | 2020-04-14 | 2025-04-15 | Sony Interactive Entertainment Inc. | Training a sound effect recommendation network |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019205025A (en) | 2019-11-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101989173B (en) | Image editing device and image editing method | |
| CN101803336A (en) | Technique for allowing the modification of the audio characteristics of items appearing in an interactive video using RFID tags | |
| WO2017028686A1 (en) | Information processing method, terminal device and computer storage medium | |
| JP2007295218A (en) | Nonlinear editing apparatus and program thereof | |
| JP2019071009A (en) | Content display program, content display method, and content display device | |
| JP2016102920A (en) | Document record system and document record program | |
| JP6442102B1 (en) | Information processing system and information processing apparatus | |
| JP6865701B2 (en) | Speech recognition error correction support device and its program | |
| JP6554634B1 (en) | Information processing system and information processing apparatus | |
| CN115695680B (en) | Video editing method, device, electronic device and computer readable storage medium | |
| JP2019205158A (en) | Information processing system, information processing apparatus, and program | |
| JP5291031B2 (en) | Karaoke system, karaoke system control method, and karaoke system control program | |
| JP6568351B2 (en) | Karaoke system, program and karaoke audio playback method | |
| JP2008217447A (en) | Content generation apparatus and content generation program | |
| JP2007208651A (en) | Content viewing device | |
| JP7353130B2 (en) | Audio playback systems and programs | |
| WO2014024906A1 (en) | Program image creation method and device | |
| JP4796466B2 (en) | Content management server, content presentation device, content management program, and content presentation program | |
| JP5505662B2 (en) | Karaoke device and karaoke program | |
| HK40081842A (en) | Video editing method, apparatus, electronic device and computer-readable storage medium | |
| JP7634510B2 (en) | Remote control device and remote control program | |
| JP5566512B2 (en) | Karaoke system, central apparatus and content data generation method | |
| JP6574697B2 (en) | Karaoke system | |
| JP2005249872A (en) | Device and method for setting music reproduction parameter | |
| JP2004198959A (en) | Instruction code creation device and instruction code creation processing program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180522 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180522 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20180710 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180717 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180914 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181023 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181122 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6442102 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |