[go: up one dir, main page]

WO2018155353A1 - 生成方法、生成装置、再生方法および再生システム - Google Patents

生成方法、生成装置、再生方法および再生システム Download PDF

Info

Publication number
WO2018155353A1
WO2018155353A1 PCT/JP2018/005615 JP2018005615W WO2018155353A1 WO 2018155353 A1 WO2018155353 A1 WO 2018155353A1 JP 2018005615 W JP2018005615 W JP 2018005615W WO 2018155353 A1 WO2018155353 A1 WO 2018155353A1
Authority
WO
WIPO (PCT)
Prior art keywords
volume
control information
content
sound
sound data
Prior art date
Application number
PCT/JP2018/005615
Other languages
English (en)
French (fr)
Inventor
旭 谷口
敦宏 辻
幸 裕弘
坂井 剛
羊佑 塩田
浩充 森下
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2017189864A external-priority patent/JP2020065096A/ja
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2018155353A1 publication Critical patent/WO2018155353A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present disclosure relates to a generation method and a generation device for generating content, a playback method and a playback system for playing back content.
  • Patent Document 1 discloses a video distribution device and a video reproduction device in VOD (Video On Demand) distribution.
  • the present disclosure provides a generation method and the like that can reduce discomfort given to the user by the playback device.
  • the generation method is a generation method for generating content using a computer, acquiring sound data indicating a predetermined sound, and setting the predetermined sound indicated by the acquired sound data to a playback device Input of control information including maximum volume information indicating the maximum volume of the predetermined sound, which is control information used for prohibiting output by the playback device at a volume exceeding a set volume that is set Content is generated by associating the received and acquired sound data with the control information that has received the input.
  • the method according to the present disclosure can reduce discomfort given to the user by the playback device.
  • FIG. 1 is a schematic diagram of a reproduction system according to an embodiment.
  • FIG. 2 is a block diagram illustrating an example of a hardware configuration of the playback device.
  • FIG. 3 is a block diagram illustrating an example of the hardware configuration of the server.
  • FIG. 4 is a block diagram illustrating an example of a hardware configuration of the generation apparatus.
  • FIG. 5 is a block diagram illustrating an example of a functional configuration of the reproduction system according to the embodiment.
  • FIG. 6 is a diagram illustrating an example of a UI displayed on the display of the generation apparatus according to the embodiment.
  • FIG. 7 is a diagram illustrating an example of a content configuration.
  • FIG. 8 is a diagram showing a temporal change in the playback time of the volume of the content.
  • FIG. 1 is a schematic diagram of a reproduction system according to an embodiment.
  • FIG. 2 is a block diagram illustrating an example of a hardware configuration of the playback device.
  • FIG. 3 is a block diagram illustrating an example of
  • FIG. 9 is a diagram showing a temporal change in the playback time of the playback volume output when the content is played back by the playback device.
  • FIG. 10 is a diagram illustrating a temporal change in the reproduction time of the reproduction volume output when the third reproduction control is performed.
  • FIG. 11 is a diagram illustrating a temporal change in the reproduction time of the reproduction volume output when the fourth reproduction control is performed.
  • FIG. 12 is a flowchart illustrating an example of a generation method by the generation device according to the embodiment.
  • FIG. 13 is a flowchart illustrating an example of a reproduction method by the reproduction apparatus according to the embodiment.
  • FIG. 14 is a flowchart illustrating an example of details of the reproduction processing by the reproduction unit of the reproduction apparatus according to the embodiment.
  • FIG. 15 is a flowchart illustrating another example of the details of the reproduction process performed by the reproduction unit of the reproduction apparatus according to the embodiment.
  • FIG. 1 is a schematic diagram of a reproduction system according to an embodiment.
  • a playback device 100, a server 200, a communication network 300, and a generation device 400 are shown.
  • the playback system 1 includes the playback device 100 and the server 200 among these components.
  • the playback system 1 may further include a generation device 400.
  • a plurality of playback devices 100 may be connected to the communication network 300.
  • a plurality of generation devices 400 may be connected to the communication network 300.
  • the playback system 1 is a system for providing a first user with content configured by a combination of independent video content and sound content from the server 200 to the playback device 100.
  • One playback device 100 may correspond to one first user or a plurality of first users.
  • the reproduction system 1 includes a plurality of reproduction apparatuses 100
  • a plurality of first users may correspond to each of the plurality of reproduction apparatuses 100 in a one-to-one correspondence or a one-to-many correspondence. Also good.
  • the plurality of playback devices 100 may correspond to one first user.
  • one second user may correspond to one generation device 400, or a plurality of second users may correspond to the one generation device 400.
  • each of the plurality of generation devices 400 may correspond to a plurality of second users on a one-to-one basis or on a one-to-many basis. Also good. Further, the plurality of generation devices 400 may correspond to one second user. For example, video content or sound content is provided to the server 200 via the generation device 400 from a second user such as a content creator.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of the playback device.
  • the playback device 100 includes a CPU 101 (Central Processing Unit), a main memory 102, a storage 103, a communication IF (Interface) 104, a display 105, and a speaker 106 as hardware configurations.
  • a CPU 101 Central Processing Unit
  • main memory 102 main memory
  • main memory 102 main memory
  • storage 103 storage
  • communication IF (Interface) 104 communication IF
  • display 105 display
  • speaker 106 speaker
  • the CPU 101 is a processor that executes a control program stored in the storage 103 or the like.
  • the main memory 102 is a volatile storage area used as a work area used when the CPU 101 executes a control program.
  • the storage 103 is a non-volatile storage area that holds a control program, content, and the like.
  • the communication IF 104 is a communication interface that communicates with the server 200 via the communication network 300.
  • the communication IF 104 is, for example, a wired LAN interface.
  • the communication IF 104 may be a wireless LAN interface.
  • the communication IF 104 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
  • the display 105 is a display device that displays a processing result in the CPU 101.
  • the display 105 displays, for example, video obtained by playing video content.
  • the display 105 is, for example, a liquid crystal display or an organic EL display.
  • Speaker 106 outputs the processing result in CPU 101.
  • the speaker 106 outputs, for example, sound or music obtained by playing sound content.
  • the hardware configuration of the server 200 will be described with reference to FIG.
  • FIG. 3 is a block diagram showing an example of the hardware configuration of the server.
  • the server 200 includes a CPU 201 (Central Processing Unit), a main memory 202, a storage 203, and a communication IF (Interface) 204 as hardware configurations.
  • CPU 201 Central Processing Unit
  • main memory 202 main memory
  • storage 203 main memory
  • communication IF Interface
  • the CPU 201 is a processor that executes a control program stored in the storage 203 or the like.
  • the main memory 202 is a volatile storage area used as a work area used when the CPU 201 executes a control program.
  • the storage 203 is a non-volatile storage area that holds a control program, content, and the like.
  • the communication IF 204 is a communication interface that communicates with the playback device 100 or the generation device 400 via the communication network 300.
  • the communication IF 204 is, for example, a wired LAN interface.
  • the communication IF 204 may be a wireless LAN interface.
  • the communication IF 204 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
  • the hardware configuration of the generation device 400 will be described with reference to FIG.
  • FIG. 4 is a block diagram illustrating an example of a hardware configuration of the generation apparatus.
  • the generation apparatus 400 includes a CPU 401 (Central Processing Unit), a main memory 402, a storage 403, a communication IF (Interface) 404, an input IF (Interface) 405, as hardware configurations. And a display 406.
  • a CPU 401 Central Processing Unit
  • main memory 402 main memory
  • storage 403 main memory
  • communication IF (Interface) 404 main memory
  • input IF (Interface) 405 input IF (Interface) 405
  • the CPU 401 is a processor that executes a control program stored in the storage 403 or the like.
  • the main memory 402 is a volatile storage area used as a work area used when the CPU 401 executes a control program.
  • the storage 403 is a non-volatile storage area that holds a control program, content, and the like.
  • the communication IF 404 is a communication interface that communicates with the server 200 via the communication network 300.
  • the communication IF 404 is, for example, a wired LAN interface.
  • the communication IF 404 may be a wireless LAN interface.
  • the communication IF 404 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
  • the input IF 405 is an input device such as a numeric keypad, a keyboard, and a mouse.
  • the display 406 is a display device that displays a processing result in the CPU 401, for example.
  • the display 406 displays, for example, a UI (User Interface) for receiving input from the input IF 405.
  • the display 406 is, for example, a liquid crystal display or an organic EL display.
  • FIG. 5 is a block diagram illustrating an example of a functional configuration of the reproduction system according to the embodiment.
  • the generation apparatus 400 includes a database (DB) 410, an acquisition unit 420, an input reception unit 430, a generation unit 440, and a communication unit 450.
  • DB database
  • the database 410 stores video data that is a source of video content or sound data that is a source of sound content.
  • the database 410 is realized by the storage 403, for example.
  • the acquisition unit 420 acquires sound data indicating a predetermined sound from the database 410 in response to the input by the second user received by the input reception unit 430.
  • the acquisition unit 420 may acquire video data from the database 410 according to the input by the second user received by the input reception unit 430.
  • the acquisition unit 420 is not limited to acquiring sound data or video data from the database 410, but may be acquired from another information processing apparatus via the communication network 300 using the communication unit 450. Alternatively, it may be acquired directly from another information processing apparatus connected by wire or wireless. Other information processing apparatuses in this case are, for example, PCs (Personal Computers), servers, smartphones, tablet terminals, video cameras, digital cameras, IC recorders, and the like.
  • the acquisition unit 420 is realized by the CPU 401, the main memory 402, and the storage 403, for example.
  • the input reception unit 430 receives an input by the second user. Specifically, the input receiving unit 430 receives an input for the second user to generate content from video data or sound data stored in the database 410. The input receiving unit 430 receives input of content control information as input for generating content.
  • the content control information received by the input receiving unit 430 includes, for example, a predetermined sound indicated by the sound data acquired by the acquisition unit 420 at a volume that exceeds a set volume set in the playback apparatus 100. Is used for prohibiting the output of the sound, and includes maximum volume information indicating the maximum volume of a predetermined sound.
  • the content control information received by the input receiving unit 430 may further include, for example, attribute information indicating whether or not the adjustment of the volume of the sound data is permitted.
  • the control information in this case is information that causes the playback device 100 to perform the following playback control when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume.
  • the reproduction control when the attribute information included in the control information indicates that the volume adjustment is permitted, the volume of the predetermined sound of the sound data associated with the control information is reduced to a setting volume or less. This is the second reproduction control for outputting a predetermined sound.
  • the reproduction control when the attribute information included in the control information indicates that the adjustment of the volume is not permitted, the first reproduction that prohibits the reproduction apparatus 100 from reproducing the sound data associated with the control information. Control.
  • the reproduction apparatus 100 reproduces content according to this control information, if the attribute information indicates that the volume adjustment is permitted, the reproduction apparatus 100 performs the second reproduction control, and the attribute information does not permit the volume adjustment.
  • the first reproduction control is performed. In this way, it is possible to cause the playback apparatus 100 to selectively switch between the first playback control and the second playback control according to the attribute information set by the second user.
  • the second reproduction control may include third reproduction control and fourth reproduction control. That is, the third regeneration control may be performed instead of the second regeneration control, or the fourth control may be performed.
  • the content control information received by the input receiving unit 430 includes (i) allowing adjustment of the overall volume of the sound data, (ii) allowing adjustment of the volume of a part of the sound data, and (iii) sound. It may further include attribute information indicating that the adjustment of the volume of the data is not permitted.
  • the control information in this case is information that causes the playback device 100 to perform the following playback control when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume. In this case, when the attribute information included in the control information indicates that the adjustment of the overall volume of the sound data is permitted, the reproduction control is performed at a predetermined sound volume of the sound data associated with the control information.
  • Third reproduction control for outputting a predetermined sound in a state where the average volume indicated by the average volume information included in the information is reduced until the maximum volume indicated by the maximum volume information included in the control information is equal to or lower than the set volume. It is.
  • the reproduction control when the attribute information included in the control information permits the adjustment of the volume of a part of the sound data, the reproduction control is performed on the part of the sound data associated with the control information that exceeds the set volume of the predetermined sound.
  • This is the fourth reproduction control for outputting a predetermined sound in a state where the volume is lowered below the set volume.
  • the attribute information included in the control information indicates that the adjustment of the volume is not permitted, the first reproduction that prohibits the reproduction apparatus 100 from reproducing the sound data associated with the control information. Control.
  • the sound data associated with the control information is received by the playback device 100 when the content reception control information received by the input reception unit 430 exceeds the set volume. It may be information for prohibiting reproduction.
  • the reproduction device 100 performs the first reproduction control not to reproduce the content whose maximum volume exceeds the set volume. For this reason, it can suppress that the predetermined
  • the content control information received by the input receiving unit 430 is, for example, a predetermined volume of sound data associated with the control information when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume.
  • the information may be information for causing the playback device 100 to perform playback control for outputting a predetermined sound in a state where the volume of the sound is lowered below a set volume.
  • the reproducing device 100 performs second reproduction control for reproducing the content by reducing the volume of the content whose maximum volume exceeds the set volume to be equal to or lower than the set volume. For this reason, it can suppress that the predetermined
  • the content control information received by the input receiving unit 430 may further include, for example, average volume information indicating the average volume of a predetermined sound of the sound data.
  • the control information in this case is the control information at a predetermined sound volume of the sound data associated with the control information when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume. Even if it is information for causing the playback apparatus 100 to perform playback control for outputting a predetermined sound in a state where the average volume indicated by the average volume information included in the information is reduced until the maximum volume is lower than or equal to the set volume. Good.
  • the reproducing device 100 When reproducing the content according to the control information, the reproducing device 100 performs third reproduction control for reproducing the content by reducing the average volume of the content until the maximum volume becomes equal to or lower than the set volume. For this reason, it can suppress that the predetermined
  • the content control information received by the input receiving unit 430 is, for example, a predetermined sound of sound data associated with the control information when the maximum volume indicated by the maximum volume information in the control information exceeds the set volume. This is information for causing the playback apparatus 100 to perform playback control for outputting a predetermined sound in a state where the volume of the portion exceeding the set volume in is reduced below the set volume.
  • This control information is information for reproducing the content without adjusting the volume of a portion of the sound data associated with the control information that does not exceed the set volume of the predetermined sound.
  • the reproduction device 100 performs fourth reproduction control for reproducing the content by reducing the volume of the portion of the predetermined sound that exceeds the set volume below the set volume. . For this reason, it can suppress that the predetermined
  • the content control information may include, for example, content metadata (that is, attribute information) in addition to the information described above.
  • content metadata that is, attribute information
  • One set of metadata exists for one content, and includes information on reproduction time, author, ambient level, video ambient level, or sound ambient level, and content genre. Details of the ambient degree, the video ambient degree, and the sound ambient degree will be described later.
  • the playback time is information indicating the length of time when the content is played back.
  • the author is information indicating the author of the content, and includes information including the author's name and contact information.
  • the ambient degree is an ambient degree associated with the content.
  • the video ambient degree is the ambient degree associated with the video part included in the content.
  • the sound ambient degree is an ambient degree associated with a sound part included in the content.
  • the ambient degree of content and the like can be set by metadata.
  • Metadata is created in a predetermined format.
  • the index is obtained by analyzing the metadata according to the metadata format.
  • the index is an index associated with the content, and is an index expressed by a continuous value.
  • An example of the index is an estimated index that indicates the degree of attention the user is directed to the content being played back. More specifically, the index is an index that is an index having a smaller value as the degree of attention directed to the content being played by the user is greater, or the user is directed to the content being played. As the degree of attention directed is greater, an index having a larger value may be employed.
  • the former is also referred to as an ambient level and the latter is also referred to as a conscious level.
  • the degree of attention directed by the user increases, for example, it is more likely to continue watching the screen on which the video is displayed from the beginning to the end of the playback time of the content, and concentrate on viewing the output sound. It can be said that it is suitable.
  • the index may include brightness, saturation, hue, or the like that is an index related to the color of the video included in the content being played back, or volume or frequency distribution that is an index of the sound included in the content being played back Etc. may be included. Further, the index may include an index calculated by a predetermined calculation method from the plurality of indexes.
  • the ambient degree is an index expressed as a continuous value from 0 to 100, for example.
  • the degree of ambient is 0, it means that the degree of attention estimated to be directed by the user is the largest, and when the degree of ambient is 100, the degree of attention estimated to be directed by the user is the smallest. Then.
  • the ambient degree associated with the content can be calculated from the video ambient degree that is the ambient degree associated with the video part of the content and the sound ambient degree that is the ambient degree associated with the sound part of the content.
  • the video ambient degree is an example of a video index.
  • the sound ambient degree is an example of a sound index.
  • the video ambient degree may be calculated based on, for example, the brightness, saturation or hue of the video of the content, or the scene change mode. More specifically, it is calculated as follows.
  • the sound ambient degree may be calculated based on, for example, the volume of the sound of the content, the frequency distribution of the sound, or the change in volume. More specifically, it is calculated as follows.
  • any method can be adopted, but for example, an average or a weighted average can be used.
  • the weighted average weight is in the range from 0 to 1 and the video ambient degree weight is ⁇
  • the ambient degree of the content is expressed as (Equation 1) below.
  • Ambient degree of content ⁇ x (Video ambient degree) + (1- ⁇ ) x (Sound ambient degree) (Formula 1)
  • the weighting of the video ambient degree and the sound ambient is determined as follows, for example.
  • the weight of the video ambient degree is set to sound. It is effective to make it heavier than the weight of the ambient degree, that is, to make ⁇ larger than 0.5.
  • This threshold value can be about 50 inches or 70 inches in the length of the diagonal line of the display 105, for example.
  • may be changed by an input from the operator of the playback system 1, the provider of the content, or the user.
  • the operator of the playback system 1 can flexibly change the weight of the video ambient level and the sound ambient level. As a result, there is an advantage that it is possible to specify more flexible content suitable for the user's sense.
  • the video ambient level and the sound ambient level may be classified into a plurality of ranks according to the magnitude of the ambient level.
  • the plurality of ranges of ambient degrees that define the plurality of ranks of the video ambient degree and the plurality of ranges of ambient degrees that define the plurality of ranks of the sound ambient degree do not have to coincide with each other.
  • the video ambient degree may be classified as rank A in the range of 0 to 20
  • the sound ambient degree may be classified as rank A in the range of 0 to 30. That is, the video ambient degree and the sound ambient degree may be classified into a plurality of ranks within the same rank or different ambient degree ranges.
  • the video ambient degree and the sound ambient degree may be normalized so that the minimum value and the maximum value coincide.
  • content There can be a variety of content, but it is part of the environment, such as paintings on the wall or parts of wallpaper, floor or ceiling that are not often watched by users It may be content. Note that the content may be content that is assumed to be watched in order to acquire information on news or culture or to obtain entertainment.
  • FIG. 6 is a diagram illustrating an example of a UI displayed on the display of the generation apparatus according to the embodiment.
  • the input reception unit 430 displays the UI 431 on the display 406 and receives an input to the UI 431 by the input IF 405.
  • the UI 431 receives a UI 432 for receiving a selection of a sound data file, a UI 433 for receiving a maximum volume setting, a UI 434 for receiving an average volume setting, and input of information indicating whether or not volume adjustment is permitted. It includes a UI 435 for accepting and a UI 436 for accepting input of a character string indicating the author. Note that the input reception unit 430 does not have to display all of the UIs 432 to 436 on the display 406.
  • the input receiving unit 430 may receive input of information indicating a sound data file and maximum volume information indicating the maximum volume without displaying a UI.
  • the second user can select a sound data file stored in the storage 403 of the generation apparatus 400, for example, by pressing a reference button.
  • the file shown in FIG. 6 is an example, and is not limited to a flac file, but may be another audio file such as an aac file, a wav file, or an mp3 file.
  • the maximum volume can be set by moving the slider knob to the left or right. Instead of the UI 433, an input of a numerical value indicating the maximum volume may be accepted.
  • the average volume can be set by moving the slider knob to the left or right.
  • an input of a numerical value indicating the average sound volume may be accepted.
  • UI435 by selecting a radio button (option button), permission or non-permission of volume adjustment can be set.
  • UI 435 is a UI for setting permission or disapproval of volume adjustment, but (i) allows the entire volume of the sound data, (ii) allows a part of the sound data, and ( iii) It is good also as UI which sets one of not permitting volume adjustment.
  • the UI 436 can accept a character string input in a text box as an author. Note that a user name set in advance in the generation device 400 may be automatically input as the author.
  • the input receiving unit 430 is realized by the input IF 405 and the display 406, for example.
  • the generating unit 440 generates content by associating the sound data acquired by the acquiring unit 420 with the control information that has received the input.
  • the generation unit 440 generates content C10 as illustrated in FIG. 7 by receiving an input to the UI 431 illustrated in FIG. 6, for example. That is, the generation unit 440 generates the content C10 by associating the sound data C11 selected by the UI 432 with the control information C12 received by the UI 433 to UI 436.
  • the reproduction time is obtained from, for example, information indicating the reproduction time included in the sound data C11 by analyzing the sound data C11.
  • the ambient degree is calculated by analyzing the sound data C11 by the method described above, for example.
  • the generation unit 440 is realized by, for example, the CPU 401, the main memory 402, and the storage 403.
  • the communication unit 450 transmits the content generated by the generation unit 440 to the server 200 via the communication network 300. Note that the communication unit 450 may transmit the content to the playback device 100 via the communication network 300.
  • the communication unit 450 is realized by, for example, the CPU 401, the main memory 402, the storage 403, and the communication IF 404.
  • the functional configuration of the playback device 100 will be described.
  • the playback apparatus 100 includes a communication unit 110 and a playback unit 130.
  • the playback device 100 may further include a content DB (Database) 120.
  • the communication unit 110 acquires content from the server 200 via the communication network 300.
  • the content is, for example, content including sound data indicating a predetermined sound, and is video content or sound content. That is, the content is content in which sound is output from the speaker 106 of the playback device 100 when played back by the playback device 100.
  • the communication unit 110 may acquire one content from the server 200 or may acquire a plurality of contents.
  • the communication unit 110 is realized by the CPU 101, the main memory 102, the storage 103, and the communication IF 104, for example.
  • the content DB 120 stores content acquired by the communication unit 110.
  • the content DB 120 is realized by the storage 103, for example.
  • the content stored in the content DB 120 is not limited to the content acquired by the communication unit 110 but may be content stored in advance, or stored in advance with the content acquired by the communication unit 110. May be mixed with existing content.
  • the content DB 120 stores content in advance, for example, by storing content generated by the generation device 400 before factory shipment.
  • the playback unit 130 plays back the content acquired by the communication unit 110.
  • the reproduction unit 130 may perform streaming reproduction of the content acquired by the communication unit 110, or may read and reproduce the content from the content DB 120.
  • the reproduction unit 130 reproduces sound data included in the content according to control information included in the content.
  • the playback unit 130 may play sound data together with the video data.
  • the playback unit 130 uses, for example, the maximum volume information included in the control information included in the content acquired by the communication unit 110, and the predetermined sound of the sound data included in the content exceeds the preset volume. Playback control that does not output at volume is performed.
  • the preset volume may be set by the first user or may be set as an initial state at the time of factory shipment or the like.
  • the reproduction unit 130 when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume, the reproduction unit 130 performs the first reproduction control that does not reproduce the sound data associated with the control information. You may go. Further, when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume, the playback unit 130 reduces the volume of the predetermined sound of the sound data associated with the control information to be equal to or lower than the set volume. In this state, the second reproduction control for outputting a predetermined sound may be performed. In addition, when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume, the playback unit 130 indicates that the control information is set at a predetermined sound volume of the sound data associated with the control information.
  • the third reproduction control for outputting a predetermined sound may be performed in a state where the average volume indicated by the included average volume information is lowered until the maximum volume is equal to or lower than the set volume.
  • the playback unit 130 is a part of the sound data associated with the control information that exceeds the set volume in the predetermined sound.
  • the fourth playback control for outputting a predetermined sound may be performed in a state where the volume is lowered to a set volume or less.
  • the playback unit 130 includes attribute information indicating whether or not the control information permits adjustment of the volume of the sound data when the maximum volume indicated by the maximum volume information included in the control information exceeds the set volume. If included, the first reproduction control and the second reproduction control may be selectively performed according to the attribute information. Specifically, when the attribute information included in the control information indicates that the volume adjustment is permitted, the playback unit 130 performs the second playback control, and the attribute information included in the control information permits the volume adjustment. In the case of indicating not, the first reproduction control may be performed.
  • the playback unit 130 allows the control information to (i) adjust the overall volume of the sound data.
  • a first reproduction control according to the attribute information when including attribute information indicating that the adjustment of the volume of a part of the sound data is permitted; and (iii) the adjustment of the volume of the sound data is not permitted.
  • the third reproduction control and the fourth reproduction control may be selectively performed. Specifically, when the attribute information included in the control information indicates that the adjustment of the overall volume of the sound data is permitted, the playback unit 130 performs the third playback control, and the attribute information included in the control information When the adjustment of the volume of a part of the sound data is permitted, the fourth reproduction control is performed. When the attribute information included in the control information indicates that the adjustment of the volume is not permitted, the first reproduction control is performed.
  • FIG. 8 is a diagram showing a temporal change in the playback time of the volume of the content.
  • FIG. 9 is a diagram showing a temporal change in the playback time of the playback volume output when the content is played back by the playback device.
  • FIG. 10 is a diagram illustrating a temporal change in the reproduction time of the reproduction volume output when the third reproduction control is performed.
  • FIG. 11 is a diagram illustrating a temporal change in the reproduction time of the reproduction volume output when the fourth reproduction control is performed. Note that the content shown in FIGS. 8 to 11 is an example, and the volume and playback volume of the content are examples.
  • the volume of the content becomes the maximum volume Vol MAX at time t1. Further, the average volume Vol AVG of the content is indicated by a one-dot chain line in FIG.
  • the playback unit 130 of the playback apparatus 100 has a content with a volume in which the average volume Vol AVG of the content matches the adjusted volume, which is the volume adjusted by the first user using a remote controller or the like. Reproduction control for outputting a predetermined sound included in the sound from the speaker 106 is performed. In this case, if the playback unit 130 does not adjust the volume in the sound data of the content, the playback volume output from the speaker 106 may be larger than the set volume. In other words, when the content is played back so that the average volume Vol AVG of the content matches the adjusted volume, the playback unit 130 may output a sound having a volume higher than the set volume from the speaker 106.
  • the playback unit 130 sets the maximum volume of the output playback volume by lowering the average volume Vol AVG of the content below the adjustment volume as the third playback control. You may perform the reproduction
  • the playback unit 130 performs predetermined playback as the fourth playback control in a state in which the volume of the part where the playback volume of the content exceeds the set volume is reduced below the set volume. Playback control for outputting sound may be performed.
  • the reproduction unit 130 is realized by, for example, the CPU 101, the main memory 102, the storage 103, the display 105, and the speaker 106.
  • the server 200 includes a database 210, a comparison unit 220, a generation unit 230, and a communication unit 240.
  • the database 210 includes a video content DB (Database) 211 and a sound content DB (Database) 212.
  • the video content DB 211 stores a plurality of independent video contents.
  • the video content DB 211 stores control information corresponding to each of the plurality of video contents together with the plurality of video contents.
  • the sound content DB 212 stores a plurality of independent sound contents.
  • the sound content DB 212 stores control information corresponding to each of the plurality of sound contents together with the plurality of sound contents.
  • the video content DB 211 stores video content acquired from the generation apparatus 400 by the communication unit 240 via the communication network 300.
  • the sound content DB 212 stores sound content acquired from the generation device 400 by the communication unit 240 via the communication network 300.
  • Each of the video content DB 211 and the sound content DB 212 is realized by the storage 203, for example.
  • the server 200 may calculate the ambient degree using the above method using at least one of the content stored in the database 210 and the control information.
  • the control information may not include the degree of ambient.
  • the comparison unit 220 compares the video attribute information included in each of the plurality of video contents with the sound attribute information included in each of the plurality of sound contents. For example, when the genre of the video content matches the genre of the sound content, the comparison unit 220 determines that they are similar to each other.
  • the genre may include the author of the content and the date (or month, year) when the content was created.
  • the comparison unit 220 compares the video ambient degree and the sound ambient degree using a predetermined method, and determines whether or not they are similar.
  • the comparison unit 220 calculates the video ambient degree from the metadata included in the video attribute information using the above method, and calculates the sound ambient degree from the metadata included in the sound attribute information using the above method. It may be calculated.
  • the comparison unit 220 is realized by, for example, the CPU 201, the main memory 202, and the storage 203.
  • the generation unit 230 generates a plurality of contents composed of video content and sound content having attribute information similar to each other according to the comparison result by the comparison unit 220. That is, the generation unit 230 generates a plurality of contents composed of combinations of video content and sound content similar to each other.
  • the generation unit 230 is realized by the CPU 201, the main memory 202, and the storage 203, for example.
  • the communication unit 240 transmits two or more contents among the plurality of contents generated by the generation unit 230 to the playback device 100 via the communication network 300.
  • the communication unit 240 may transmit the content corresponding to the acquisition request to the playback device 100.
  • the communication unit 240 is realized by the communication IF 204, for example.
  • the server 200 does not necessarily have the comparison unit 220 and the generation unit 230. That is, the server 200 acquires video content or sound content from the generation device 400 via the communication network 300, stores the video content or sound content in the database 210, and stores the stored video content or sound content via the communication network 300. Any configuration can be used as long as it can be transmitted to.
  • FIG. 12 is a flowchart illustrating an example of a generation method by the generation device according to the embodiment.
  • the acquisition unit 420 acquires sound data indicating a predetermined sound (S11).
  • the input receiving unit 430 receives input of control information (S12). The details of the control information received by the input receiving unit 430 are as described above.
  • the generating unit 440 generates content by associating the sound data acquired by the acquiring unit 420 with the control information received by the input receiving unit 430 (S13).
  • the communication unit 450 transmits the content generated by the generation unit 440 to the server 200 or the playback device 100 via the communication network 300 (S14).
  • FIG. 13 is a flowchart showing an example of a reproduction method by the reproduction apparatus according to the embodiment.
  • the communication unit 110 acquires content from the server 200 or the generation device 400 via the communication network 300 (S21).
  • the reproduction unit 130 reproduces the content acquired by the communication unit 110 according to the control information included in the content (S22). Details of the reproduction process performed by the reproduction unit 130 will be described later.
  • FIG. 14 is a flowchart showing an example of the details of the reproduction processing by the reproduction unit of the reproduction apparatus according to the embodiment.
  • the playback unit 130 determines whether or not the maximum volume indicated by the maximum volume information included in the control information included in the content acquired by the communication unit 110 exceeds the set volume (S31).
  • the reproducing unit 130 determines whether or not the attribute information included in the control information indicates that the adjustment of the volume of the sound data is permitted ( S32).
  • the playback unit 130 performs the second playback control in which the maximum volume of the sound data is reduced below the set volume and played back ( S33).
  • the reproducing unit 130 performs the first reproduction control that does not reproduce the content (S34).
  • the playback unit 130 plays the content as it is without adjusting the volume (S35).
  • steps S32 and S34 may not be performed. That is, when it is determined that the maximum volume exceeds the set volume, the second reproduction control in step S33 may be performed without confirming the attribute information of the control information.
  • the attribute information is information indicating whether or not the adjustment of the volume of the sound data is permitted.
  • the attribute information includes (i) the overall volume of the sound data. It may be information indicating any one of permitting adjustment, (ii) permitting adjustment of the volume of a part of the sound data, and (iii) not permitting adjustment of the volume of the sound data.
  • the reproduction process in this case is, for example, the process shown in FIG.
  • FIG. 15 is a flowchart illustrating another example of the details of the reproduction process performed by the reproduction unit of the reproduction apparatus according to the embodiment.
  • the reproducing unit 130 further indicates that the attribute information only permits the volume adjustment of a part of the sound data, It is determined whether or not the volume adjustment of the entire data is permitted (S36).
  • the playback unit 130 adjusts the volume of the part where the maximum volume exceeds the set volume and plays back the fourth volume.
  • the reproduction control is performed (S37).
  • the playback unit 130 adjusts the average volume of the sound data and decreases until the maximum volume of the sound data becomes equal to or lower than the set volume. Then, the third reproduction control for reproduction is performed (S38).
  • the content is used to prohibit a predetermined sound from being output by the playback apparatus 100 at a volume that exceeds the set volume set in the playback apparatus 100.
  • Control information including maximum volume information indicating the maximum volume of a predetermined sound. For this reason, when the reproducing apparatus 100 reproduces the content, it is possible to reduce the output of the content by the reproducing apparatus 100 at a volume exceeding the set volume. Therefore, when the playback device 100 plays back content, it is possible to reduce discomfort that the playback device 100 gives to the user.
  • the playback device 100 outputs a predetermined sound.
  • the output of the predetermined sound exceeding the set sound volume can be reduced. That is, the playback apparatus 100 can reduce the output of content sound at a large volume that is not suitable for ambient content.
  • the content is attribute information included in the control information, which is attribute information indicating whether or not to allow adjustment of the volume of the sound data, or (i) adjustment of the overall volume of the sound data is permitted.
  • (Ii) includes attribute information indicating that the adjustment of the volume of a part of the sound data is permitted and (iii) the adjustment of the volume of the sound data is not permitted.
  • the present invention is not limited to this.
  • attribute information indicating that the first reproduction control is performed
  • attribute information indicating that the second reproduction control is performed
  • attribute information indicating that the third reproduction control is performed
  • Any one of the attribute information indicating that the fourth reproduction control is performed may be included.
  • the reproduction device 100 reproduces the reproduction control indicated by the attribute information, that is, the first reproduction control, the second reproduction control, the third reproduction control, and the fourth reproduction. Perform any one of the controls.
  • the reproducing apparatus 100 in the above embodiment may display an image related to the ambient degree together with the content.
  • the image may include at least one of an image indicating the ambient degree of the content and an image indicating the range of the ambient degree received by a receiving unit such as a remote controller (not shown).
  • the user By displaying an image related to the ambient degree together with the content on the display 105, the user visually recognizes the image together with the content being reproduced.
  • the user can recognize the ambient level of the currently reproduced content by visually recognizing an image indicating the ambient level. Further, the user can recognize the range of the ambient degree designated by the user by visually recognizing the image indicating the range of the ambient degree. By recognizing these, for example, the user can instruct the playback device 100 to change the specified ambient degree higher or lower than the current degree through the reception unit.
  • a sound relating to the ambient degree may be output by the speaker 106, and the same effect as described above can be obtained.
  • the playback device specifies the index associated with the content within the range of the index, and thereby the content to be played back Can be specified. At that time, the user need not recall the search key. The user can specify the content to be played back by the playback device simply by specifying the rough value of the index associated with the content within the range. In this way, the playback device enables more flexible content specification. Also, since flexible content specification is possible, the problem of increase in processing load and power consumption of the playback device when determination of content reflecting the user's intention fails can be avoided.
  • the playback device enables more flexible content specification by using, as a specific index, an estimated index that indicates the degree of attention that the user directs to the content being played back.
  • the playback device, the server, or the generation device calculates an index associated with the content based on the degree of attention directed by the user to each of the video and the sound included in the content.
  • the content index can be calculated in consideration of the video and sound included in the content.
  • the playback device, server, or generation device calculates an index associated with the content by a weighted average obtained by increasing the weight of the sound index of the video index and the sound index.
  • the playback device, server, or generation device calculates an index associated with the content by a weighted average obtained by increasing the weight of the video index among the video index and the sound index.
  • the index associated with the content the index of the index used for specifying the content is set with respect to the degree of the attention directed by the user by relatively increasing the contribution of the degree of attention directed by the person to the video. It can be an indicator that matches the sense of
  • the playback device, server, or generation device can calculate the video index by specifically using the brightness, saturation, hue, or scene change mode of the video included in the content.
  • the playback device, server, or generation device can calculate the sound index by specifically using the volume, frequency distribution, or volume change mode included in the content.
  • the playback device, server, or generation device can cause the user to recognize the content index by presenting the index associated with the content along with the content being played back to the user. Then, it is possible to cause the user to make a determination as to whether or not the content that the user wants to present on the playback apparatus is compatible with the index range designated by the user.
  • the playback device, the server, or the generation device plays back both video content and sound content
  • the index of the video content and sound content to be played back may be included in the range specified by the user. it can.
  • the user can play both the video content and the sound content that are estimated to have the same level of attention by the playback device.
  • the playback device can cause the content provider to recognize the index associated with the content by presenting the index when the content is stored in the server in advance.
  • the playback device can make the content provider recognize the adjusted content index after adjusting the content.
  • the content provider recognizes the index of the adjusted content, confirms the result of the adjustment made to the content provided by itself, and determines whether to store it in the server based on the result Can take action.
  • each component is realized by executing a software program suitable for each component, but may be configured by dedicated hardware.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the reproduction method of each of the above embodiments is the following program.
  • this program is a generation method for generating content on a computer using a computer, acquires sound data indicating a predetermined sound, and the predetermined sound indicated by the acquired sound data is reproduced by a playback device Control information used for prohibiting output by the playback device at a volume exceeding the set volume set in the control information, including control information including maximum volume information indicating the maximum volume of the predetermined sound.
  • a generation method for generating content by receiving an input and associating the acquired sound data with the control information having received the input is executed.
  • this program is a reproduction method by a reproduction system including a generation device that generates content and a reproduction device that acquires the content generated by the generation device and reproduces the acquired content. Then, the generation device acquires sound data indicating a predetermined sound, and the predetermined sound indicated by the acquired sound data has a volume exceeding a set volume set in the reproduction device. Control information used for prohibiting the output of the sound, and receiving the input of control information including maximum volume information indicating the maximum volume of the predetermined sound, the acquired sound data, and the received control Content is generated by associating with information, and the playback device acquires the content via a communication network. Playback that does not output the predetermined sound of the sound data included in the content at a volume exceeding the preset volume using the maximum volume information included in the control information included in the acquired content Let the method run.
  • the generation method, the generation device, the reproduction method, and the reproduction system according to one or more aspects of the present invention have been described based on the embodiment.
  • the present invention is not limited to this embodiment. Absent. Unless it deviates from the gist of the present invention, one or more of the present invention may be applied to various modifications that can be conceived by those skilled in the art, or forms constructed by combining components in different embodiments. It may be included within the scope of the embodiments.
  • the sound ambient degree is described based on the volume of the sound of the content, the frequency distribution of the sound, or the change of the volume.
  • the present invention is not limited to this.
  • the sound frequency characteristics the approximation with the so-called “1 / f fluctuation” characteristic, the number of overtone components, the regularity of the timbre waveform (frequency of several Hz or less) Area) and the like.
  • the sound ambient level is an index at the research stage compared to the video ambient level, but the mid-range sound around 200 Hz is equivalent to vocals and human speech, and is likely to be heard by humans. I know it. Therefore, it is considered that the degree of attention directed by the user increases, and the degree of consciousness increases (the degree of ambient decreases).
  • the human brain tries to understand what is different from nature by unknowingly complementing it, so when listening to sounds that are different from the natural world, it will use brain resources, increasing the degree of consciousness (the degree of ambient is increased). It is thought that). Therefore, music that is composed to increase the degree of user's attention is not only highly conscious (low ambient), but also sounds that exist in the natural world, such as river buzz, can be recorded in a recording environment (such as a microphone or Depending on the performance of the recording device, the degree of ambient may be reduced.
  • a recording environment such as a microphone or Depending on the performance of the recording device, the degree of ambient may be reduced.
  • the present disclosure can be applied to a generation method that can reduce discomfort given to the user by the playback device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

コンピュータを用いてコンテンツを生成する生成方法であって、所定の音を示す音データを取得し(S11)、取得した音データにより示される所定の音が、再生装置(100)に設定されている設定音量を超えた音量で当該再生装置(100)により出力されるのを禁止するために用いられる制御情報であって、所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付け(S12)、取得した音データと、入力を受け付けた制御情報とを関連付けることによりコンテンツを生成する(S13)。

Description

生成方法、生成装置、再生方法および再生システム
 本開示は、コンテンツを生成する生成方法および生成装置、コンテンツを再生する再生方法および再生システムに関する。
 特許文献1には、VOD(Video On Demand)配信における、映像配信装置および映像再生装置が開示されている。
特開2015-222861号公報
 本開示は、再生装置がユーザに与える不快感を低減することができる生成方法などを提供する。
 本開示における生成方法は、コンピュータを用いてコンテンツを生成する生成方法であって、所定の音を示す音データを取得し、取得した前記音データにより示される前記所定の音が、再生装置に設定されている設定音量を超えた音量で当該再生装置により出力されるのを禁止するために用いられる制御情報であって、前記所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付け、取得した前記音データと、前記入力を受け付けた前記制御情報とを関連付けることによりコンテンツを生成する。
 なお、これらの全般的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示における方法は、再生装置がユーザに与える不快感を低減することができる。
図1は、実施の形態に係る再生システムの概略図である。 図2は、再生装置のハードウェア構成の一例を示すブロック図である。 図3は、サーバのハードウェア構成の一例を示すブロック図である。 図4は、生成装置のハードウェア構成の一例を示すブロック図である。 図5は、実施の形態に係る再生システムの機能構成の一例を示すブロック図である。 図6は、実施の形態における生成装置のディスプレイに表示されるUIの一例を示す図である。 図7は、コンテンツの構成の一例を示す図である。 図8は、コンテンツの音量の再生時間における時間的変化を示す図である。 図9は、コンテンツを再生装置で再生した場合に出力される再生音量の再生時間における時間的変化を示す図である。 図10は、第3の再生制御を行った場合に出力される再生音量の再生時間における時間的変化を示す図である。 図11は、第4の再生制御を行った場合に出力される再生音量の再生時間における時間的変化を示す図である。 図12は、実施の形態に係る生成装置による生成方法の一例を示すフローチャートである。 図13は、実施の形態に係る再生装置による再生方法の一例を示すフローチャートである。 図14は、実施の形態に係る再生装置の再生部による再生処理の詳細の一例を示すフローチャートである。 図15は、実施の形態に係る再生装置の再生部による再生処理の詳細の他の一例を示すフローチャートである。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
 (実施の形態)
 以下、図1~図15を用いて、実施の形態を説明する。
 [1-1.構成]
 図1は、実施の形態に係る再生システムの概略図である。
 具体的には、図1において、再生装置100、サーバ200、通信ネットワーク300、および生成装置400が示されている。例えば、再生システム1は、これらの構成要素のうち、再生装置100およびサーバ200を備える。また、再生システム1は、さらに、生成装置400を備えていてもよい。なお、再生システム1では、複数の再生装置100が通信ネットワーク300に接続されていてもよい。また、再生システム1では、複数の生成装置400が通信ネットワーク300に接続されていてもよい。
 再生システム1は、サーバ200から再生装置100に、互いに独立した映像コンテンツおよび音コンテンツの組合せにより構成されるコンテンツを第1のユーザに提供するためのシステムである。1つの再生装置100には、1人の第1のユーザが対応していてもよいし、複数人の第1のユーザが対応してもよい。再生システム1が複数の再生装置100を含む場合、複数の再生装置100それぞれには、複数人の第1のユーザが1対1で対応していてもよいし、1対多で対応していてもよい。また、複数の再生装置100は、1人の第1のユーザに対応していてもよい。同様に、1つの生成装置400には、1人の第2のユーザが対応していてもよいし、複数人の第2のユーザが対応してもよい。再生システム1が複数の生成装置400を含む場合、複数の生成装置400それぞれには、複数人の第2のユーザが1対1で対応していてもよいし、1対多で対応していてもよい。また、複数の生成装置400は、1人の第2のユーザに対応していてもよい。サーバ200には、例えば、コンテンツの作者などの第2のユーザから生成装置400を介して映像コンテンツまたは音コンテンツが提供されている。
 以下、上記再生処理を行うための再生システム1の構成について具体的に説明する。
 次に、再生装置100のハードウェア構成について図2を用いて説明する。
 図2は、再生装置のハードウェア構成の一例を示すブロック図である。
 図2に示すように、再生装置100は、ハードウェア構成として、CPU101(Central Processing Unit)と、メインメモリ102と、ストレージ103と、通信IF(Interface)104と、ディスプレイ105と、スピーカ106とを備える。
 CPU101は、ストレージ103等に記憶された制御プログラムを実行するプロセッサである。
 メインメモリ102は、CPU101が制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域である。
 ストレージ103は、制御プログラム、コンテンツなどを保持する不揮発性の記憶領域である。
 通信IF104は、通信ネットワーク300を介してサーバ200と通信する通信インタフェースである。通信IF104は、例えば、有線LANインタフェースである。なお、通信IF104は、無線LANインタフェースであってもよい。また、通信IF104は、LANインタフェースに限らずに、通信ネットワーク300との通信接続を確立できる通信インタフェースであれば、どのような通信インタフェースであってもよい。
 ディスプレイ105は、CPU101での処理結果を表示する表示装置である。ディスプレイ105は、例えば、映像コンテンツを再生することで得られる映像を表示する。ディスプレイ105は、例えば、液晶ディスプレイ、有機ELディスプレイである。
 スピーカ106は、CPU101での処理結果を出力する。スピーカ106は、例えば、音コンテンツを再生することで得られる音または音楽を出力する。
 サーバ200のハードウェア構成について図3を用いて説明する。
 図3は、サーバのハードウェア構成の一例を示すブロック図である。
 図3に示すように、サーバ200は、ハードウェア構成として、CPU201(Central Processing Unit)と、メインメモリ202と、ストレージ203と、通信IF(Interface)204とを備える。
 CPU201は、ストレージ203等に記憶された制御プログラムを実行するプロセッサである。
 メインメモリ202は、CPU201が制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域である。
 ストレージ203は、制御プログラム、コンテンツなどを保持する不揮発性の記憶領域である。
 通信IF204は、通信ネットワーク300を介して再生装置100または生成装置400と通信する通信インタフェースである。通信IF204は、例えば、有線LANインタフェースである。なお、通信IF204は、無線LANインタフェースであってもよい。また、通信IF204は、LANインタフェースに限らずに、通信ネットワーク300との通信接続を確立できる通信インタフェースであれば、どのような通信インタフェースであってもよい。
 生成装置400のハードウェア構成について図4を用いて説明する。
 図4は、生成装置のハードウェア構成の一例を示すブロック図である。
 図4に示すように、生成装置400は、ハードウェア構成として、CPU401(Central Processing Unit)と、メインメモリ402と、ストレージ403と、通信IF(Interface)404と、入力IF(Interface)405と、ディスプレイ406とを備える。
 CPU401は、ストレージ403等に記憶された制御プログラムを実行するプロセッサである。
 メインメモリ402は、CPU401が制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域である。
 ストレージ403は、制御プログラム、コンテンツなどを保持する不揮発性の記憶領域である。
 通信IF404は、通信ネットワーク300を介してサーバ200と通信する通信インタフェースである。通信IF404は、例えば、有線LANインタフェースである。なお、通信IF404は、無線LANインタフェースであってもよい。また、通信IF404は、LANインタフェースに限らずに、通信ネットワーク300との通信接続を確立できる通信インタフェースであれば、どのような通信インタフェースであってもよい。
 入力IF405は、例えば、テンキー、キーボード、マウスなどの入力装置である。
 ディスプレイ406は、例えば、CPU401での処理結果を表示する表示装置である。ディスプレイ406は、例えば、入力IF405による入力を受け付けるためのUI(User Interface)を表示する。ディスプレイ406は、例えば、液晶ディスプレイ、有機ELディスプレイである。
 次に、再生システム1の機能構成について図5を用いて説明する。
 図5は、実施の形態に係る再生システムの機能構成の一例を示すブロック図である。
 まず、生成装置400の機能構成について説明する。
 生成装置400は、データベース(DB)410と、取得部420と、入力受付部430と、生成部440と、通信部450とを備える。
 データベース410は、映像コンテンツの元となる映像データ、または、音コンテンツの元となる音データを記憶している。データベース410は、例えば、ストレージ403により実現される。
 取得部420は、入力受付部430に受け付けられた第2のユーザによる入力に応じて、データベース410から所定の音を示す音データを取得する。取得部420は、入力受付部430に受け付けられた第2のユーザによる入力に応じて、データベース410から映像データを取得してもよい。なお、取得部420は、音データまたは映像データを、データベース410から取得することに限らずに、通信部450を用いて、通信ネットワーク300を介して他の情報処理装置から取得してもよいし、有線接続または無線接続された他の情報処理装置から直接取得してもよい。この場合の他の情報処理装置は、例えば、PC(Personal Computer)、サーバ、スマートフォン、タブレット端末、ビデオカメラ、デジタルカメラ、ICレコーダなどである。取得部420は、例えば、CPU401、メインメモリ402、およびストレージ403により実現される。
 入力受付部430は、第2のユーザによる入力を受け付ける。入力受付部430は、具体的には、第2のユーザがデータベース410に記憶されている映像データまたは音データからコンテンツを生成するための入力を受け付ける。入力受付部430は、コンテンツを生成するための入力として、コンテンツの制御情報の入力を受け付ける。
 入力受付部430が受け付けるコンテンツの制御情報は、例えば、取得部420により取得された音データにより示される所定の音が、再生装置100に設定されている設定音量を超えた音量で当該再生装置100により出力されるのを禁止するために用いられ、所定の音の最大音量を示す最大音量情報を含む。
 入力受付部430が受け付けるコンテンツの制御情報は、例えば、音データの音量の調節を許可するか否かを示す属性情報をさらに含んでいてもよい。そして、この場合の制御情報は、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、以下の再生制御を再生装置100に行わせる情報である。この場合の再生制御は、当該制御情報が含む属性情報が音量の調節を許可することを示す場合、当該制御情報と関連付けられた音データの所定の音の音量を設定音量以下に低下させた状態で、所定の音を出力させる第2の再生制御である。また、再生制御は、当該制御情報が含む属性情報が音量の調節を許可しないことを示す場合、当該制御情報と関連付けられた音データが再生装置100により再生されることを禁止する第1の再生制御である。再生装置100は、この制御情報に応じてコンテンツを再生した場合、属性情報が音量の調節を許可することを示す場合、第2の再生制御を行い、属性情報が音量の調節を許可しないことを示す場合、第1の再生制御を行う。このように、第2のユーザにより設定された属性情報に応じて、再生装置100に第1の再生制御および第2の再生制御を選択的に切り替えて行わせることができる。
 なお、第2の再生制御は、第3の再生制御および第4の再生制御を含んでいてもよい。つまり、第2の再生制御の代わりに第3の再生制御が行われてもよいし、第4の制御が行われてもよい。
 また、入力受付部430が受け付けるコンテンツの制御情報は、(i)音データの全体の音量の調節を許可する、(ii)音データの一部の音量の調節を許可する、および(iii)音データの音量の調節を許可しないのいずれかを示す属性情報をさらに含んでいてもよい。そして、この場合の制御情報は、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、以下の再生制御を再生装置100に行わせる情報である。この場合の再生制御は、当該制御情報が含む属性情報が音データの全体の音量の調節を許可することを示す場合、当該制御情報と関連付けられた音データの所定の音の音量において、当該制御情報が含む平均音量情報で示される平均音量を、当該制御情報が含む最大音量情報で示される最大音量が設定音量以下となるまで低下させた状態で、所定の音を出力させる第3の再生制御である。また、再生制御は、当該制御情報が含む属性情報が音データの一部の音量の調節を許可する場合、当該制御情報と関連付けられた音データの所定の音における設定音量を超えている部分の音量を設定音量以下に低下させた状態で、所定の音を出力させる第4の再生制御である。また、再生制御は、当該制御情報が含む属性情報が音量の調節を許可しないことを示す場合、当該制御情報と関連付けられた音データが再生装置100により再生されることを禁止する第1の再生制御である。
 入力受付部430が受け付けるコンテンツの制御情報は、例えば、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データが再生装置100により再生されることを禁止するための情報であってもよい。再生装置100は、この制御情報に応じてコンテンツを再生した場合、最大音量が設定音量を超えているコンテンツの再生を行わない第1の再生制御を行う。このため、コンテンツに含まれる所定の音が、再生装置100に設定されている設定音量を超えた音量で当該再生装置100により出力されるのを抑制できる。
 また、入力受付部430が受け付けるコンテンツの制御情報は、例えば、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データの所定の音の音量を設定音量以下に低下させた状態で、所定の音を出力させる再生制御を再生装置100に行わせるための情報であってもよい。再生装置100は、この制御情報に応じてコンテンツを再生した場合、最大音量が設定音量を超えているコンテンツの音量を設定音量以下に低下させてコンテンツを再生する第2の再生制御を行う。このため、コンテンツに含まれる所定の音が、再生装置100に設定されている設定音量を超えた音量で当該再生装置100により出力されるのを抑制できる。
 また、入力受付部430が受け付けるコンテンツの制御情報は、例えば、音データの所定の音の平均音量を示す平均音量情報をさらに含んでいてもよい。そして、この場合の制御情報は、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データの所定の音の音量において、当該制御情報が含む平均音量情報で示される平均音量を最大音量が設定音量以下となるまで低下させた状態で、所定の音を出力させる再生制御を、再生装置100に行わせるための情報であってもよい。再生装置100は、この制御情報に応じてコンテンツを再生した場合、最大音量が設定音量以下となるまでコンテンツの平均音量を低下させてコンテンツを再生する第3の再生制御を行う。このため、コンテンツに含まれる所定の音が、再生装置100に設定されている設定音量を超えた音量で当該再生装置100により出力されるのを抑制できる。
 また、入力受付部430が受け付けるコンテンツの制御情報は、例えば、当該制御情報が最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データの所定の音における設定音量を超えている部分の音量を設定音量以下に低下させた状態で、所定の音を出力させる再生制御を、再生装置100に行わせるための情報である。なお、この制御情報は、当該制御情報と関連付けられた音データの所定の音における設定音量を超えていない部分については、音量の調節を行わずにコンテンツを再生させるための情報である。再生装置100は、この制御情報に応じてコンテンツを再生した場合、所定の音において、設定音量を超えている部分の音量を設定音量以下に低下させてコンテンツを再生する第4の再生制御を行う。このため、コンテンツに含まれる所定の音が、再生装置100に設定されている設定音量を超えた音量で当該再生装置100により出力されるのを抑制できる。
 なお、コンテンツの制御情報は、上記で説明した情報の他に、例えば、コンテンツのメタデータ(つまり属性情報)を含んでいてもよい。メタデータは、1つのコンテンツに対して1セット存在するものであり、再生時間、作者、アンビエント度、映像アンビエント度、又は、音アンビエント度、コンテンツのジャンルの各情報を含む。アンビエント度、映像アンビエント度、および、音アンビエント度の詳細は後述する。
 再生時間は、当該コンテンツが再生される際の時間長を示す情報である。
 作者は、当該コンテンツの作者を示す情報であり、作者の氏名、連絡先を示す情報などを含む情報である。
 アンビエント度は、当該コンテンツに紐付けられるアンビエント度である。
 映像アンビエント度は、当該コンテンツに含まれる映像部分に紐付けられるアンビエント度である。
 音アンビエント度は、当該コンテンツに含まれる音部分に紐付けられるアンビエント度である。
 このように、コンテンツのアンビエント度等は、メタデータによって設定され得る。
 メタデータは、予め定められたフォーマットで作成されている。指標は、メタデータのフォーマットに従ってメタデータを解析することにより得られる。指標は、コンテンツに紐付けられる指標であって、連続値により表現される指標である。指標の一例は、再生されているコンテンツに対してユーザが向ける注意の度合いを示す推定指標である。より具体的には、上記指標は、再生されているコンテンツに対してユーザが向ける注意の度合いが大きいほど、より小さな値を有する指標である指標、又は、再生されているコンテンツに対してユーザが向ける注意の度合いが大きいほど、より大きな値を有する指標を採用し得る。ここで、前者をアンビエント度(Ambient level)ともいい、後者をコンシャス度(Consious level)ともいう。ユーザが向ける注意の度合いが大きいほど、例えば、そのコンテンツの再生時間の最初から最後まで映像が表示されている画面を注視し続け、かつ、出力されている音を集中して視聴することがより適していると言える。
 なお、指標として、再生されているコンテンツに含まれる映像の色彩に関する指標である明度、彩度若しくは色相などを含んでもよいし、再生されているコンテンツに含まれる音の指標である音量若しくは周波数分布などを含んでもよい。さらに、指標として、これらの複数の指標から所定の算出方法によって算出される指標を含んでいてもよい。
 以降では、指標としてアンビエント度を用いて説明するが、コンシャス度、及び、その他の指標を用いても同様の説明が成立する。また、アンビエント度は、例えば0から100までの連続値に表現される指標であるとする。アンビエント度が0である場合、ユーザが向けると推定される注意の度合いが最も大きいことを意味し、アンビエント度が100である場合、ユーザが向けると推定される注意の度合いが最も小さいことを意味するとする。
 コンテンツに紐付けられるアンビエント度は、コンテンツの映像部分に紐付けられるアンビエント度である映像アンビエント度と、コンテンツの音部分に紐付けられるアンビエント度である音アンビエント度と、から算出され得る。なお、映像アンビエント度は、映像指標の一例である。音アンビエント度は、音指標の一例である。
 映像アンビエント度は、例えば、コンテンツの映像の明度、彩度若しくは色相、又は、シーンチェンジの態様に基づいて算出されてもよい。より具体的には、以下のように算出される。
 ・コンテンツの映像の明度が高いほど、より低いアンビエント度が算出される。
 ・コンテンツの映像の彩度が高いほど、より低いアンビエント度が算出される。
 ・コンテンツの映像の色彩に基づいて、赤、橙又は黄のような暖色の色が多いほど、より高いアンビエントが算出され、青又は紫のような寒色の色が多いほど、より低いアンビエント度が算出される。
 ・映像のシーンチェンジが多いほど、より低いアンビエント度が算出される。
 ・シーンチェンジの際の映像の切り替えの態様として、一のシーンからその次のシーンへの切り替えの際に、フェードアウト、フェードイン又はクロスフェードのように画像が徐々に切り変わることが多いほど、より高いアンビエント度が算出される。一のシーンからその次のシーンへの切り替えの際に、画像が急に切り替えられることが多いほど、より低いアンビエント度が算出される。
 また、音アンビエント度は、例えば、コンテンツの音の音量、音の周波数分布、又は、音量の変化の態様に基づいて音アンビエント度が算出されてもよい。より具体的には、以下のように算出される。
 ・コンテンツの音の音量が大きいほど、より低いアンビエント度が算出される。
 ・コンテンツの音の周波数分布について、高音域(例えば1kHz~20kHz程度)又は低音域(例えば20Hz~200Hz程度)の音が多いほど、より高いアンビエント度が算出され、中音域(例えば200Hz~1kHz程度)が多いほど、より低いアンビエント度が算出される。
 ・音量の変化が急峻であるほど、より低いアンビエント度が算出される。
 なお、映像アンビエント度と音アンビエント度とからコンテンツのアンビエント度を算出する方法は、任意の方法を採用し得るが、例えば、平均又は加重平均を用いることができる。例えば、加重平均の重みを0から1までの範囲とし、映像アンビエント度の重みをαとすると、コンテンツのアンビエント度は、下記(式1)のように表わされる。
 コンテンツのアンビエント度
  =α×(映像アンビエント度)+(1-α)×(音アンビエント度)   (式1)
 ここで、映像アンビエント度と音アンビエントとの重み付けは、例えば、以下のように定められる。
 (1)音アンビエント度の重みを大きくする場合
 一般に人が、再生装置100等が提示する映像に対して意図的に注意を向けないようにするには、目を瞑る、又は、目若しくは身体の向きを変えること等をすればよく、比較的容易である。一方、人が、再生装置100等が提示する音に対して意図的に注意を向けないようにするには、耳を塞ぐなどの方法があり得るが、あまり容易ではなく、また仮に耳を塞いだとしても完全にユーザが感ずる音をなくすことは難しい。従って、ユーザは、コンテンツの映像部分に関しては、映像アンビエント度に無関係に、意図的に注意を背けることができるが、コンテンツの音部分に関しては、注意の度合いが音アンビエント度に近いものにならざるを得ない。
 そこで、音アンビエント度の重みを映像アンビエント度の重みより重くする、つまり、αを0.5より小さい値にすることが有効である。このようにすると、コンテンツに紐付けられるアンビエント度において、音に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツに紐付けられるアンビエント度の振る舞いを、ユーザが向ける注意の度合いについての感覚に近づけることができる。
 (2)映像アンビエント度の重みを大きくする場合
 人間が、再生装置100が提示する映像に対して注意を向けないようにするのは比較的容易であると述べたが、ディスプレイ105の寸法が大きいと、再生装置100が提示する映像から注意を背けることが難しくなる。
 そこで、コンテンツが表示されると想定されるディスプレイ105の寸法が大きいほど、映像アンビエント度の重みを大きくすることが有効である。例えば、コンテンツが表示されると想定されるディスプレイ105の寸法に閾値を設け、その閾値を超える寸法のディスプレイ105によってコンテンツが表示されると想定される場合には、映像アンビエント度の重みを、音アンビエント度の重みより重くする、つまり、αが0.5より大きくすることが有効である。この閾値は、例えば、ディスプレイ105の対角線の長さで50インチ、又は、70インチ程度とすることができる。
 このようにすると、コンテンツに紐付けられる指標において、映像に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツに紐付けられるアンビエント度の振る舞いを、ユーザが向ける注意の度合いについての感覚に近づけることができる。
 なお、αは、再生システム1の運用者、コンテンツの提供者、又は、ユーザによる入力により変動できるようにしてもよい。このようにすることで、再生システム1の運用者等が柔軟に映像アンビエント度と音アンビエント度との重みを変化させることができる。その結果、ユーザの感覚に適合した、より柔軟なコンテンツの指定が可能となる利点がある。
 映像アンビエント度および音アンビエント度は、アンビエント度の大きさに応じて複数段階のランクに分類されていてもよい。この場合、映像アンビエント度の複数のランクを規定するアンビエント度の複数の範囲と、音アンビエント度の複数のランクを規定するアンビエント度の複数の範囲とは、互いに一致していなくてもよい。例えば、映像アンビエント度が0~20の範囲でランクAと分類され、音アンビエント度が0~30の範囲でランクAと分類されてもよい。つまり、映像アンビエント度と、音アンビエント度とは、同じランクであっても、異なるアンビエント度の範囲で複数のランクに分類されていてもよい。
 また、映像アンビエント度と音アンビエント度とは、最小値と最大値とが一致するように正規化されていてもよい。
 なお、コンテンツにはさまざまなコンテンツが有り得るが、ユーザによってあまり注視されることがない、壁に飾られた絵画、又は、壁紙、床若しくは天井の一部のように、環境の一部を形成するコンテンツであってもよい。なお、コンテンツは、ニュース又は教養等に関する情報を取得したり、娯楽を得たりするために注視することが想定されるコンテンツであってもよい。
 次に、図6を用いて、入力受付部430により入力を受け付けるためのUIについて説明する。
 図6は、実施の形態における生成装置のディスプレイに表示されるUIの一例を示す図である。
 入力受付部430は、ディスプレイ406にUI431を表示して、入力IF405によるUI431への入力を受け付ける。UI431は、音データのファイルの選択を受け付けるためのUI432、最大音量の設定を受け付けるためのUI433、平均音量の設定を受け付けるためのUI434、音量の調節を許可するか否かを示す情報の入力を受け付けるためのUI435、作者を示す文字列の入力を受け付けるためのUI436を含む。なお、入力受付部430は、UI432~UI436の全てをディスプレイ406に表示させなくてもよく、少なくともUI432およびUI433を表示することで、音データのファイルを示す情報と、最大音量を示す最大音量情報との入力を受け付ければよい。また、入力受付部430は、UIを表示させずに音データのファイルを示す情報と、最大音量を示す最大音量情報との入力を受け付けてもよい。
 UI432では、第2のユーザは、参照ボタンを押すことで、例えば生成装置400のストレージ403に記憶されている音データのファイルを選択することができる。なお、図6で示すファイルは、一例であり、flacファイルに限らずに、aacファイル、wavファイル、mp3ファイルなどの他の音声ファイルであってもよい。
 UI433では、スライダーのつまみを左右に移動させることで最大音量の設定を行うことができる。なお、UI433の代わりに、最大音量を示す数値の入力を受け付けてもよい。
 UI434では、スライダーのつまみを左右に移動させることで平均音量の設定を行うことができる。なお、UI434の代わりに、平均音量を示す数値の入力を受け付けてもよい。
 UI435では、ラジオボタン(オプションボタン)を選択することで、音量調節の許可または不許可を設定することができる。なお、UI435では、音量調節の許可または不許可を設定するUIであるが、(i)音データの全体の音量を許可する、(ii)音データの一部の音量を許可する、および、(iii)音量の調節を許可しない、のうちの1つを設定するUIとしてもよい。
 UI436では、テキストボックスに入力された文字列を作者として受け付けることができる。なお、生成装置400に予め設定されているユーザ名が作者として自動的に入力されていてもよい。
 なお、入力受付部430は、例えば、入力IF405およびディスプレイ406により実現される。
 生成部440は、取得部420により取得された音データと、入力を受け付けた制御情報とを関連付けることによりコンテンツを生成する。生成部440は、例えば、図6に示したUI431への入力を受け付けることで、図7に示すようなコンテンツC10を生成する。つまり、生成部440は、UI432で選択された音データC11と、UI433~UI436で受け付けられた制御情報C12とを関連付けることでコンテンツC10を生成する。なお、再生時間は、例えば、音データC11を解析するまたは音データC11に予め含まれる再生時間を示す情報から得られる。また、アンビエント度は、例えば、上述した方法により音データC11を解析することにより算出される。生成部440は、例えば、CPU401、メインメモリ402、およびストレージ403により実現される。
 通信部450は、生成部440により生成されたコンテンツを、通信ネットワーク300を介してサーバ200に送信する。なお、通信部450は、当該コンテンツを、通信ネットワーク300を介して再生装置100に送信してもよい。通信部450は、例えば、CPU401、メインメモリ402、ストレージ403、および通信IF404により実現される。
 再生装置100の機能構成について説明する。
 再生装置100は、通信部110と、再生部130とを備える。再生装置100は、さらに、コンテンツDB(Database)120を備えていてもよい。
 通信部110は、通信ネットワーク300を介してサーバ200から、コンテンツを取得する。コンテンツは、例えば、所定の音を示す音データを含むコンテンツであり、映像コンテンツまたは音コンテンツである。つまり、コンテンツは、再生装置100により再生されたときに、再生装置100のスピーカ106から音が出力されるコンテンツである。通信部110は、サーバ200から1つのコンテンツを取得してもよいし、複数のコンテンツを取得してもよい。通信部110は、例えば、CPU101、メインメモリ102、ストレージ103、および通信IF104により実現される。
 コンテンツDB120は、通信部110により取得されたコンテンツを記憶する。コンテンツDB120は、例えば、ストレージ103により実現される。なお、コンテンツDB120が記憶しているコンテンツは、通信部110により取得されたコンテンツに限らずに、予め記憶しているコンテンツであってもよいし、通信部110により取得されたコンテンツと、予め記憶しているコンテンツとが混在していてもよい。なお、コンテンツDB120は、例えば、生成装置400により生成されたコンテンツを工場出荷前に記憶することでコンテンツを予め記憶している。
 再生部130は、通信部110により取得されたコンテンツを再生する。なお、再生部130は、通信部110により取得されたコンテンツを、ストリーミング再生してもよいし、コンテンツDB120からコンテンツを読み出して再生してもよい。再生部130は、コンテンツに含まれる制御情報に応じて、当該コンテンツに含まれる音データを再生する。再生部130は、コンテンツに映像データが含まれる場合には、映像データと共に音データを再生してもよい。
 再生部130は、例えば、通信部110により取得されたコンテンツに含まれる制御情報が含む最大音量情報を用いて、コンテンツに含まれる音データの所定の音を予め設定されている設定音量を超えた音量で出力しない再生制御を行う。なお、予め設定されている設定音量は、第1のユーザにより設定されていてもよいし、工場出荷時などに初期状態として設定されていてもよい。
 再生部130は、具体的には、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データを再生しない第1の再生制御を行ってもよい。また、再生部130は、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データの所定の音の音量を設定音量以下に低下させた状態で、所定の音を出力させる第2の再生制御を行ってもよい。また、再生部130は、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データの所定の音の音量において、当該制御情報が含む平均音量情報で示される平均音量を最大音量が設定音量以下となるまで低下させた状態で、所定の音を出力させる第3の再生制御を行ってもよい。また、再生部130は、当該制御情報が最大音量情報で示される最大音量が設定音量を超えている場合、当該制御情報と関連付けられた音データの所定の音における設定音量を超えている部分の音量を設定音量以下に低下させた状態で、所定の音を出力させる第4の再生制御を行ってもよい。
 また、再生部130は、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合において、制御情報が音データの音量の調節を許可するか否かを示す属性情報を含む場合、属性情報に応じて第1の再生制御および第2の再生制御を選択的に行ってもよい。具体的には、再生部130は、当該制御情報が含む属性情報が音量の調節を許可することを示す場合、第2の再生制御を行い、当該制御情報が含む属性情報が音量の調節を許可しないことを示す場合、第1の再生制御を行ってもよい。
 また、再生部130は、当該制御情報が含む最大音量情報で示される最大音量が設定音量を超えている場合において、制御情報が(i)音データの全体の音量の調節を許可する、(ii)音データの一部の音量の調節を許可する、および(iii)音データの音量の調節を許可しないのいずれかを示す属性情報を含む場合、属性情報に応じて、第1の再生制御、第3の再生制御および第4の再生制御を選択的に行ってもよい。具体的には、再生部130は、当該制御情報が含む属性情報が音データの全体の音量の調節を許可することを示す場合、第3の再生制御を行い、当該制御情報が含む属性情報が音データの一部の音量の調節を許可する場合、第4の再生制御を行い、当該制御情報が含む属性情報が音量の調節を許可しないことを示す場合、第1の再生制御を行う。
 ここで、第3の再生制御および第4の再生制御について、図8~図11を用いて説明する。
 図8は、コンテンツの音量の再生時間における時間的変化を示す図である。図9は、コンテンツを再生装置で再生した場合に出力される再生音量の再生時間における時間的変化を示す図である。図10は、第3の再生制御を行った場合に出力される再生音量の再生時間における時間的変化を示す図である。図11は、第4の再生制御を行った場合に出力される再生音量の再生時間における時間的変化を示す図である。なお、図8~図11で示されるコンテンツは一例であり、コンテンツの音量および再生音量は一例である。
 図8に示すように、コンテンツの音量は、時間t1において最大音量VolMAXとなる。また、コンテンツの平均音量VolAVGは、図8の一点鎖線で示される。
 再生装置100の再生部130は、図9に示すように、コンテンツの平均音量VolAVGが、第1のユーザによりリモコンなどを用いて調節されている音量である調整音量に一致させた音量でコンテンツに含まれる所定の音をスピーカ106から出力する再生制御を行う。この場合、再生部130は、コンテンツの音データにおいて音量の調節を行わないと、スピーカ106から出力される再生音量が設定音量よりも大きくなる場合がある。つまり、再生部130は、コンテンツの平均音量VolAVGが調節音量と一致するようにコンテンツを再生した場合、設定音量よりも大きい音量の音をスピーカ106から出力してしまう場合がある。
 このため、再生部130は、例えば、図10に示すように、第3の再生制御として、コンテンツの平均音量VolAVGを調節音量よりも低下させることで、出力される再生音量の最大音量が設定音量以下となるまで低下させる再生制御を行ってもよい。
 また、再生部130は、例えば、図11に示すように、第4の再生制御として、コンテンツの再生音量が設定音量を超えている部分の音量を設定音量以下に低下させた状態で、所定の音を出力させる再生制御を行ってもよい。
 再生部130は、例えば、CPU101、メインメモリ102、ストレージ103、ディスプレイ105、およびスピーカ106により実現される。
 次に、サーバ200の機能構成について説明する。
 サーバ200は、データベース210と、比較部220と、生成部230と、通信部240とを備える。
 データベース210は、映像コンテンツDB(Database)211と、音コンテンツDB(Database)212とを有する。映像コンテンツDB211は、それぞれが独立した複数の映像コンテンツを記憶している。映像コンテンツDB211は、複数の映像コンテンツと共に、複数の映像コンテンツのそれぞれに対応している制御情報を記憶している。音コンテンツDB212は、それぞれが独立した複数の音コンテンツを記憶している。音コンテンツDB212は、複数の音コンテンツと共に、複数の音コンテンツのそれぞれに対応している制御情報を記憶している。映像コンテンツDB211は、通信部240により通信ネットワーク300を介して生成装置400から取得された映像コンテンツを記憶している。同様に、音コンテンツDB212は、通信部240により通信ネットワーク300を介して生成装置400から取得された音コンテンツを記憶している。映像コンテンツDB211および音コンテンツDB212のそれぞれは、例えば、ストレージ203により実現される。
 なお、サーバ200は、データベース210記憶したコンテンツおよび制御情報の少なくとも一方を用いて、上記の方法を用いて、アンビエント度を算出してもよい。このようにアンビエント度が算出される場合、制御情報には、アンビエント度が含まれていなくてもよい。
 比較部220は、複数の映像コンテンツのそれぞれに含まれる映像属性情報と、複数の音コンテンツのそれぞれに含まれる音属性情報とを比較する。比較部220は、例えば、映像コンテンツのジャンルと、音コンテンツのジャンルとが一致する場合、互いに類似すると判定する。なお、ジャンルには、コンテンツの作者、コンテンツが作成された日(または、月、年)が含まれていてもよい。比較部220は、例えば、映像アンビエント度と、音アンビエント度とが、所定の方法を用いて比較し、類似しているか否かを判定する。比較部220は、アンビエント度の大きさに応じて分類された複数のランクにおいて、映像コンテンツの映像アンビエント度が属するランクと、音コンテンツの音アンビエント度が属するランクとが同じである場合に、当該映像コンテンツおよび当該音コンテンツが互いに類似すると判定する。なお、比較部220は、映像属性情報に含まれるメタデータから映像アンビエント度を上記の方法を利用して算出し、音属性情報に含まれるメタデータから音アンビエント度を上記の方法を利用して算出してもよい。比較部220は、例えば、CPU201、メインメモリ202、およびストレージ203により実現される。
 生成部230は、比較部220による比較の結果に応じて、互いに類似する属性情報を有する映像コンテンツおよび音コンテンツで構成されるコンテンツを複数生成する。つまり、生成部230は、互いに類似する映像コンテンツおよび音コンテンツの組合せで構成されるコンテンツを複数生成する。生成部230は、例えば、CPU201、メインメモリ202、およびストレージ203により実現される。
 通信部240は、生成部230により生成された複数のコンテンツのうちの2以上のコンテンツを、通信ネットワーク300を介して再生装置100に送信する。通信部240は、再生装置100からコンテンツの取得要求を受信した場合に、当該取得要求に応じたコンテンツを再生装置100に送信してもよい。通信部240は、例えば、通信IF204により実現される。
 なお、サーバ200は、比較部220および生成部230を必ずしも有していなくてもよい。つまり、サーバ200は、生成装置400から通信ネットワーク300を介して映像コンテンツまたは音コンテンツを取得して、データベース210に記憶し、記憶した映像コンテンツまたは音コンテンツを、通信ネットワーク300を介して再生装置100に送信できる構成であればよい。
 [1-2.動作]
 次に、再生システム1の動作について説明する。
 図12は、実施の形態に係る生成装置による生成方法の一例を示すフローチャートである。
 取得部420が所定の音を示す音データを取得する(S11)。
 入力受付部430が制御情報の入力を受け付ける(S12)。入力受付部430が受け付ける制御情報の詳細は、上述したとおりである。
 生成部440が取得部420により取得された音データと、入力受付部430により受け付けられた制御情報とを関連付けることによりコンテンツを生成する(S13)。
 通信部450が生成部440により生成されたコンテンツを、通信ネットワーク300を介して、サーバ200または再生装置100に送信する(S14)。
 図13は、実施の形態に係る再生装置による再生方法の一例を示すフローチャートである。
 通信部110が通信ネットワーク300を介してサーバ200または生成装置400からコンテンツを取得する(S21)。
 再生部130が通信部110により取得されたコンテンツを当該コンテンツに含まれる制御情報に応じて再生する(S22)。再生部130により行われる再生処理の詳細は後述する。
 図14は、実施の形態に係る再生装置の再生部による再生処理の詳細の一例を示すフローチャートである。
 再生部130は、通信部110により取得されたコンテンツに含まれる制御情報が含む最大音量情報で示される最大音量が設定音量を超えているか否かを判定する(S31)。
 再生部130は、最大音量が設定音量を超えていると判定した場合(S31でYes)、制御情報が含む属性情報が音データの音量の調節を許可することを示すか否かを判定する(S32)。
 再生部130は、属性情報が音データの音量の調節を許可することを示す場合(S32でYes)、音データの最大音量を設定音量以下に低下させて再生する第2の再生制御を行う(S33)。
 一方、再生部130は、属性情報が音データの音量の調節を許可しないことを示す場合(S32でNo)、当該コンテンツを再生しない第1の再生制御を行う(S34)。
 再生部130は、最大音量が設定音量を超えていない場合(S31でNo)、コンテンツを音量の調節をせずにそのまま再生する(S35)。
 なお、上記の再生処理において、ステップS32およびS34は行われなくてもよい。つまり、最大音量が設定音量を超えていると判定された場合、制御情報の属性情報の確認を行わずに、ステップS33の第2の再生制御を行ってもよい。
 上記の再生処理では、属性情報は、音データの音量の調節を許可するか否かを示す情報であるとしたが、上述したように、属性情報は、(i)音データの全体の音量の調節を許可する、(ii)音データの一部の音量の調節を許可する、および(iii)音データの音量の調節を許可しないのいずれかを示す情報であってもよい。この場合の再生処理は、例えば、図15に示す処理となる。
 図15は、実施の形態に係る再生装置の再生部による再生処理の詳細の他の一例を示すフローチャートである。
 なお、この再生処理では、図14を用いて説明した再生処理においてステップS33の代わりにステップS36~S38を行う点で異なる。このため、ステップS36~S38について説明する。
 再生部130は、属性情報が音データの音量の調節を許可することを示す場合(S32でYes)、さらに、属性情報が音データの一部の音量調節のみを許可することを示すか、音データの全体の音量調節を許可することを示すかを判定する(S36)。
 再生部130は、属性情報が音データの一部の音量調節のみを許可することを示す場合(S36でYes)、最大音量が設定音量を超えている部分の音量を調節して再生する第4の再生制御を行う(S37)。
 再生部130は、属性情報が音データの全体の音量調節を許可することを示す場合(S36でNo)、音データの平均音量を調節して音データの最大音量が設定音量以下となるまで低下して再生する第3の再生制御を行う(S38)。
 [1-3.効果など]
 本実施の形態に係る生成方法によれば、コンテンツは、所定の音が、再生装置100に設定されている設定音量を超えた音量で当該再生装置100により出力されるのを禁止するために用いられる制御情報であって、所定の音の最大音量を示す最大音量情報を含む制御情報を含む。このため、再生装置100が当該コンテンツを再生したときにコンテンツが設定音量を超えた音量で当該再生装置100により出力されることを低減できる。よって、再生装置100がコンテンツを再生したときに、再生装置100がユーザに与える不快感を低減することができる。
 このように、例えば、生成方法では、アンビエント度が高いコンテンツを生成した場合であっても、上記のような制御情報を含んでいるため、再生装置100により所定の音が出力される場合であっても、当該所定の音が設定音量を超えて出力されるのを低減できる。つまり、再生装置100は、アンビエントなコンテンツとしてふさわしくない大きな音量でコンテンツの音が出力されるのを低減することができる。
 [1-4.変形例]
 [1-4-1.変形例1]
 上記実施の形態においてコンテンツは、制御情報に含まれる属性情報として、音データの音量の調節を許可するか否かを示す属性情報、または、(i)音データの全体の音量の調節を許可する、(ii)音データの一部の音量の調節を許可する、および(iii)音データの音量の調節を許可しないのいずれかを示す属性情報を含むとしたが、これに限らない。上記の属性情報の代わりに、第1の再生制御を行わせることを示す属性情報、第2の再生制御を行わせることを示す属性情報、第3の再生制御を行わせることを示す属性情報、第4の再生制御を行わせることを示す属性情報のいずれか1つを含んでいてもよい。再生装置100は、上記の属性情報を含むコンテンツを再生する場合、上記の属性情報が示す再生制御、つまり、第1の再生制御、第2の再生制御、第3の再生制御および第4の再生制御のいずれか1つを行う。
 [1-4-2.変形例2]
 上記実施の形態における再生装置100は、コンテンツを再生する場合、コンテンツとともに、アンビエント度に関する画像を表示してもよい。画像は、コンテンツのアンビエント度を示す画像、及び、図示しないリモコンなどの受付部により受け付けたアンビエント度の範囲を示す画像の少なくとも一方を含んでいてもよい。
 コンテンツとともにアンビエント度に関する画像をディスプレイ105に表示されることで、ユーザは、再生されているコンテンツとともに当該画像を視認する。ユーザは、アンビエント度を示す画像を視認すれば、現在再生されているコンテンツのアンビエント度を認識することができる。また、ユーザは、アンビエント度の範囲を示す画像を視認すれば、自身が指定しているアンビエント度の範囲を認識することができる。これらを認識することで、ユーザは、例えば、指定しているアンビエント度を現在より高く又は低く変更することを受付部を通じて再生装置100に指示することができる。
 なお、アンビエント度に関する画像を提示することに代えて、又は、ともに、アンビエント度に関する音声をスピーカ106により出力してもよく、上記と同様の効果が得られる。
 [1-5.その他の効果]
 また、本実施の形態及び本変形例に示される再生装置の制御方法によれば、再生装置は、コンテンツに紐付けられた指標を、その指標の範囲でもって指定することで、再生させるコンテンツを指定し得る。その際、ユーザは、検索キーを想起する必要はない。ユーザは、コンテンツに紐付けられた指標の大まかな値を、その範囲でもって指定するだけで、再生装置により再生させるコンテンツを指定し得る。このように、再生装置は、より柔軟なコンテンツの指定を可能とする。また、柔軟なコンテンツの指定を可能とするので、ユーザの意図を反映したコンテンツの決定に失敗した場合における再生装置の処理負荷及び消費電力の増大の問題を未然に回避し得る。
 また、再生装置は、再生されているコンテンツに対してユーザが向ける注意の度合いを示す推定指標を、具体的に指標として用いることによって、より柔軟なコンテンツの指定を可能とする。
 また、再生装置、サーバまたは生成装置は、コンテンツに含まれる映像と音とのそれぞれに対してユーザが向ける注意の度合いに基づいて、コンテンツに紐付けられる指標を算出する。これにより、コンテンツに含まれる映像と音とを考慮してコンテンツの指標を算出することができる。
 また、再生装置、サーバまたは生成装置は、映像指標と音指標とのうちの音指標の重みを重くした加重平均により、コンテンツに紐付けられる指標を算出する。一般に人が、再生装置が提示する映像に対して意図的に注意を向けないようにすることは比較的容易であるが、音に対して意図的に注意を向けないようにするのは容易ではない。つまり、再生装置が提示する音から意図的に注意を背けることは難しいという特徴がある。そこで、コンテンツに紐付けられる指標において、音に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツの指定に用いる指標を、ユーザが向ける注意の度合いについての感覚に即した指標にすることができる。
 また、再生装置、サーバまたは生成装置は、映像指標と音指標とのうちの映像指標の重みを重くした加重平均により、コンテンツに紐付けられる指標を算出する。一般に、コンテンツを表示する表示画面の寸法が大きいと、ユーザは、映像から注意を背けることが難しい。このような場合に、コンテンツに紐付けられる指標において、映像に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツの指定に用いる指標を、ユーザが向ける注意の度合いについての感覚に即した指標にすることができる。
 また、再生装置、サーバまたは生成装置は、コンテンツに含まれる映像の明度、彩度、色相、又は、シーンチェンジの態様を具体的に用いて、映像指標を算出し得る。
 また、再生装置、サーバまたは生成装置は、コンテンツに含まれる音量、周波数分布、又は、音量の変化の態様を具体的に用いて、音指標を算出し得る。
 また、再生装置、サーバまたは生成装置は、再生しているコンテンツとともに、当該コンテンツに紐付けられている指標をユーザに提示することで、コンテンツの指標をユーザに認識させることができる。そして、ユーザが再生装置に提示させることを希望するコンテンツと、ユーザが指定した指標の範囲とが適合しているか否かなどについての判断等をユーザにさせることができる。
 また、再生装置、サーバまたは生成装置は、映像コンテンツと音コンテンツとをともに再生する場合に、再生する映像コンテンツと音コンテンツとの指標がともに、ユーザが指定した範囲に含まれるものとすることができる。これにより、ユーザは、再生装置により、同じ程度の注意を向けると推定される映像コンテンツと音コンテンツとをともに再生させることができる。
 また、再生装置は、サーバに予めコンテンツを格納する際に指標を提示することで、コンテンツ提供者に対して、コンテンツに紐付けられた指標を認識させることができる。
 また、再生装置は、コンテンツの調整をしてから調整後のコンテンツの指標をコンテンツ提供者に認識させることができる。コンテンツ提供者は、調整後のコンテンツの指標を認識することで、自身が提供したコンテンツに対してなされた調整の結果を確認し、その結果に基づいてサーバに格納するかどうかの判断をするなどの行動を行うことができる。
 (他の実施の形態)
 なお、上記各実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されるとしたが、専用のハードウェアで構成されてもよい。また、各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の再生方法などを実現するソフトウェアは、次のようなプログラムである。
 すなわち、このプログラムは、コンピュータに、コンピュータを用いてコンテンツを生成する生成方法であって、所定の音を示す音データを取得し、取得した前記音データにより示される前記所定の音が、再生装置に設定されている設定音量を超えた音量で当該再生装置により出力されるのを禁止するために用いられる制御情報であって、前記所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付け、取得した前記音データと、前記入力を受け付けた前記制御情報とを関連付けることによりコンテンツを生成する生成方法を実行させる。
 また、このプログラムは、コンピュータに、コンテンツを生成する生成装置と、前記生成装置により生成された前記コンテンツを取得して、取得した前記コンテンツを再生する再生装置とを備える再生システムによる再生方法であって、前記生成装置では、所定の音を示す音データを取得し、取得した前記音データにより示される前記所定の音が、前記再生装置に設定されている設定音量を超えた音量で当該再生装置により出力されるのを禁止するために用いられる制御情報であって、前記所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付け、取得した前記音データと、受け付けた前記制御情報とを関連付けることによりコンテンツを生成し、前記再生装置では、前記コンテンツを、通信ネットワークを介して取得し、取得した前記コンテンツに含まれる前記制御情報が含む前記最大音量情報を用いて、前記コンテンツに含まれる前記音データの前記所定の音を予め設定されている前記設定音量を超えた音量で出力しない再生方法を実行させる。
 以上、本発明の一つまたは複数の態様に係る生成方法、生成装置、再生方法および再生システムについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つまたは複数の態様の範囲内に含まれてもよい。
 例えば、上記実施の形態では、音アンビエント度は、コンテンツの音の音量、音の周波数分布、又は、音量の変化の態様に基づいて算出する説明をした。しかし、これに限定されるものではなく、音の周波数特性の中でも、いわゆる『1/fゆらぎ』と呼ばれる特性との近似性や倍音成分の多寡、音色の波形の規則性(数Hz以下の周波数領域)などを考慮してもよい。
 なお、音アンビエント度は、映像アンビエント度に比べ、研究段階の指標であるが、200Hz付近の中音域の音は、ボーカルや人の話し声などに相当し、人間にとって耳につきやすい音域であることが分かっている。したがって、ユーザが向ける注意の度合いが大きくなり、コンシャス度が上がる(アンビエント度が下がる)と考えられる。
 人間は自然界に存在する(人工的に加工されていない)広い帯域の音を聞きながら生活しているが、脳は、これらの広い帯域の音を常に無意識に処理している。人間の脳は、倍音構造の変化や微妙な遅れなどを手掛かりとして通常と異なる音を判別し、危険を察知するために注意の度合いが大きくなる。すなわち、コンシャス度が上がる(アンビエント度が下がる)と考えられる。
 また、人間の脳は、自然と異なるものを無意識に補完して理解しようとするため、自然界と異なる音を聞いたときには、脳のリソースを使ってしまうこととなり、コンシャス度が上がる(アンビエント度が下がる)と考えられる。したがって、ユーザの注意の度合いを大きくするために作曲された音楽が、コンシャス度が高い(アンビエント度が低い)だけではなく、川のせせらぎのような自然界に存在する音も、録音環境(マイクや記録装置の性能)によっては、アンビエント度が下がると考えられる。
 本開示は、再生装置がユーザに与える不快感を低減することができる生成方法等に適用可能である。
  1  再生システム
100  再生装置
101  CPU
102  メインメモリ
103  ストレージ
104  通信IF
105  ディスプレイ
106  スピーカ
110  通信部
120  コンテンツDB
130  再生部
200  サーバ
201  CPU
202  メインメモリ
203  ストレージ
204  通信IF
210  データベース
211  映像コンテンツDB
212  音コンテンツDB
220  比較部
230  生成部
240  通信部
300  通信ネットワーク
400  生成装置
401  CPU
402  メインメモリ
403  ストレージ
404  通信IF
405  入力IF
406  ディスプレイ
410  データベース
420  取得部
430  入力受付部
431~436  UI
440  生成部
450  通信部
C10  コンテンツ
C11  音データ
C12  制御情報

Claims (10)

  1.  コンピュータを用いてコンテンツを生成する生成方法であって、
     所定の音を示す音データを取得し、
     取得した前記音データにより示される前記所定の音が、再生装置に設定されている設定音量を超えた音量で当該再生装置により出力されるのを禁止するために用いられる制御情報であって、前記所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付け、
     取得した前記音データと、前記入力を受け付けた前記制御情報とを関連付けることによりコンテンツを生成する
     生成方法。
  2.  前記入力の受け付けでは、前記音データの音量の調節を許可するか否かを示す属性情報をさらに含む制御情報の入力を受け付け、
     前記制御情報は、
     当該制御情報が含む前記最大音量情報で示される前記最大音量が前記設定音量を超えている場合であって、
     (i)当該制御情報が含む前記属性情報が前記音量の調節を許可することを示す場合、当該制御情報と関連付けられた前記音データの前記所定の音の音量を前記設定音量以下に低下させた状態で、前記所定の音を出力させる再生制御を、前記再生装置に行わせ、
     (ii)当該制御情報が含む前記属性情報が前記音量の調節を許可しないことを示す場合、当該制御情報と関連付けられた前記音データが前記再生装置により再生されることを禁止する
     ための情報である
     請求項1に記載の生成方法。
  3.  前記入力の受け付けでは、(i)前記音データの全体の音量の調節を許可する、(ii)前記音データの一部の音量の調節を許可する、および(iii)前記音データの音量の調節を許可しないのいずれかを示す属性情報をさらに含む制御情報の入力と、前記音データの前記所定の音の平均音量を示す平均音量情報をさらに含む制御情報の入力とを受け付け、
     前記制御情報は、
     当該制御情報が含む前記最大音量情報で示される前記最大音量が前記設定音量を超えている場合であって、
     (i)当該制御情報が含む前記属性情報が前記音データの全体の音量の調節を許可することを示す場合、当該制御情報と関連付けられた前記音データの前記所定の音の音量において、当該制御情報が含む前記平均音量情報で示される前記平均音量を、当該制御情報が含む前記最大音量情報で示される前記最大音量が前記設定音量以下となるまで低下させた状態で、前記所定の音を出力させる再生制御を、前記再生装置に行わせ、
     (ii)当該制御情報が含む前記属性情報が前記音データの一部の音量の調節を許可する場合、当該制御情報と関連付けられた前記音データの前記所定の音における前記設定音量を超えている部分の音量を前記設定音量以下に低下させた状態で、前記所定の音を出力させる再生制御を、前記再生装置に行わせ、
     (iii)当該制御情報が含む前記属性情報が前記音量の調節を許可しないことを示す場合、当該制御情報と関連付けられた前記音データが前記再生装置により再生されることを禁止する
     ための情報である
     請求項1に記載の生成方法。
  4.  前記制御情報は、当該制御情報が含む前記最大音量情報で示される前記最大音量が前記設定音量を超えている場合、当該制御情報と関連付けられた前記音データが前記再生装置により再生されることを禁止するための情報である
     請求項1に記載の生成方法。
  5.  前記制御情報は、当該制御情報が含む前記最大音量情報で示される前記最大音量が前記設定音量を超えている場合、当該制御情報と関連付けられた前記音データの前記所定の音の音量を前記設定音量以下に低下させた状態で、前記所定の音を出力させる再生制御を、前記再生装置に行わせるための情報である
     請求項1に記載の生成方法。
  6.  前記入力の受け付けでは、前記音データの前記所定の音の平均音量を示す平均音量情報をさらに含む制御情報の入力を受け付け、
     前記制御情報は、当該制御情報が含む前記最大音量情報で示される前記最大音量が前記設定音量を超えている場合、当該制御情報と関連付けられた前記音データの前記所定の音の音量において、当該制御情報が含む前記平均音量情報で示される前記平均音量を、前記最大音量が前記設定音量以下となるまで低下させた状態で、前記所定の音を出力させる再生制御を、前記再生装置に行わせるための情報である
     請求項5に記載の生成方法。
  7.  前記制御情報は、当該制御情報が含む前記最大音量情報で示される前記最大音量が前記設定音量を超えている場合、当該制御情報と関連付けられた前記音データの前記所定の音における前記設定音量を超えている部分の音量を前記設定音量以下に低下させた状態で、前記所定の音を出力させる再生制御を、前記再生装置に行わせるための情報である
     請求項5に記載の生成方法。
  8.  コンテンツを生成する生成装置であって、
     所定の音を示す音データを取得する取得部と、
     取得部により取得された前記音データにより示される前記所定の音が、再生装置に設定されている設定音量を超えた音量で当該再生装置により出力されるのを禁止するために用いられる制御情報であって、前記所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付ける入力受付部と、
     前記取得部により取得された前記音データと、前記入力受付部により受け付けられた前記制御情報とを関連付けることによりコンテンツを生成する生成部と、を備える
     生成装置。
  9.  コンテンツを生成する生成装置と、前記生成装置により生成された前記コンテンツを取得して、取得した前記コンテンツを再生する再生装置とを備える再生システムによる再生方法であって、
     前記生成装置では、
     所定の音を示す音データを取得し、
     取得した前記音データにより示される前記所定の音が、前記再生装置に設定されている設定音量を超えた音量で当該再生装置により出力されるのを禁止するために用いられる制御情報であって、前記所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付け、
     取得した前記音データと、受け付けた前記制御情報とを関連付けることによりコンテンツを生成し、
     前記再生装置では、
     前記コンテンツを、通信ネットワークを介して取得し、
     取得した前記コンテンツに含まれる前記制御情報が含む前記最大音量情報を用いて、前記コンテンツに含まれる前記音データの前記所定の音を予め設定されている前記設定音量を超えた音量で出力しない
     再生方法。
  10.  コンテンツを生成する生成装置と、前記生成装置により生成された前記コンテンツを取得して、取得した前記コンテンツを再生する再生装置とを備える再生システムであって、
     前記生成装置は、
     所定の音を示す音データを取得する取得部と、
     前記取得部により取得された前記音データにより示される前記所定の音が、前記再生装置に設定されている設定音量を超えた音量で当該再生装置により出力されるのを禁止するために用いられる制御情報であって、前記所定の音の最大音量を示す最大音量情報を含む制御情報の入力を受け付ける入力受付部と、
     前記取得部により取得された前記音データと、前記入力受付部により受け付けられた前記制御情報とを関連付けることによりコンテンツを生成する生成部と、を備え、
     前記再生装置は、
     前記コンテンツを、通信ネットワークを介して取得する取得部と、
     前記取得部により取得された前記コンテンツに含まれる前記制御情報が含む前記最大音量情報を用いて、前記コンテンツに含まれる前記音データの前記所定の音を予め設定されている前記設定音量を超えた音量で出力しない再生部と、を備える
     再生システム。
PCT/JP2018/005615 2017-02-21 2018-02-19 生成方法、生成装置、再生方法および再生システム WO2018155353A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762461359P 2017-02-21 2017-02-21
US62/461359 2017-02-21
JP2017189864A JP2020065096A (ja) 2017-02-21 2017-09-29 生成方法、生成装置、再生方法および再生システム
JP2017-189864 2017-09-29

Publications (1)

Publication Number Publication Date
WO2018155353A1 true WO2018155353A1 (ja) 2018-08-30

Family

ID=63253773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/005615 WO2018155353A1 (ja) 2017-02-21 2018-02-19 生成方法、生成装置、再生方法および再生システム

Country Status (1)

Country Link
WO (1) WO2018155353A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013207323A (ja) * 2012-03-27 2013-10-07 Funai Electric Co Ltd 音声信号出力機器および音声出力システム
JP2016082473A (ja) * 2014-10-20 2016-05-16 三菱電機株式会社 映像再生装置および映像再生方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013207323A (ja) * 2012-03-27 2013-10-07 Funai Electric Co Ltd 音声信号出力機器および音声出力システム
JP2016082473A (ja) * 2014-10-20 2016-05-16 三菱電機株式会社 映像再生装置および映像再生方法

Similar Documents

Publication Publication Date Title
US11075609B2 (en) Transforming audio content for subjective fidelity
US10966044B2 (en) System and method for playing media
KR101251626B1 (ko) 스마트 기기를 이용한 음향기기의 특성에 대한 보상 서비스 제공 방법
US20190018644A1 (en) Soundsharing capabilities application
US20110066438A1 (en) Contextual voiceover
JP2011130279A (ja) コンテンツ提供サーバ、コンテンツ再生装置、コンテンツ提供方法、コンテンツ再生方法、プログラムおよびコンテンツ提供システム
CN110580141B (zh) 移动终端
US10349196B2 (en) Method of editing audio signals using separated objects and associated apparatus
JP2007533191A (ja) 音声レベル制御
US9053710B1 (en) Audio content presentation using a presentation profile in a content header
WO2020108045A1 (zh) 视频播放方法、装置和多媒体数据播放方法
US20110110534A1 (en) Adjustable voice output based on device status
US20200081681A1 (en) Mulitple master music playback
US10656901B2 (en) Automatic audio level adjustment during media item presentation
WO2018155353A1 (ja) 生成方法、生成装置、再生方法および再生システム
CN117319888A (zh) 音效控制方法、装置和系统
WO2018155352A1 (ja) 電子機器の制御方法、電子機器、電子機器の制御システム、及び、プログラム
KR20110008505A (ko) 사용자 개개인의 청력에 맞추어 오디오 기기의 음질을 제어하는 장치 및 방법
WO2018155351A1 (ja) 再生方法、再生システム、および、再生装置
JP2020065096A (ja) 生成方法、生成装置、再生方法および再生システム
US20120117373A1 (en) Method for controlling a second modality based on a first modality
US20090192636A1 (en) Media Modeling
JP2020065099A (ja) 再生方法、再生システム、および、再生装置
JP2020065098A (ja) 電子機器の制御方法、電子機器、電子機器の制御システム、及び、プログラム
US12444397B2 (en) Systems and methods for pre-generated inverse audio canceling

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18756904

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18756904

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP