KR102835608B1 - Method for controlling camera for high quality video self-portrait and apparatus for same - Google Patents
Method for controlling camera for high quality video self-portrait and apparatus for sameInfo
- Publication number
- KR102835608B1 KR102835608B1 KR1020230004166A KR20230004166A KR102835608B1 KR 102835608 B1 KR102835608 B1 KR 102835608B1 KR 1020230004166 A KR1020230004166 A KR 1020230004166A KR 20230004166 A KR20230004166 A KR 20230004166A KR 102835608 B1 KR102835608 B1 KR 102835608B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- camera
- objects
- cameras
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
- H04N23/951—Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Studio Devices (AREA)
Abstract
본 발명의 일 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법은 (a) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 단계, (b) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 단계 및 (c) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 제3 단계를 포함한다. According to one embodiment of the present invention, a method for controlling cameras for autonomous high-quality video shooting includes: (a) a first step of receiving images shot by a plurality of cameras, detecting an object included in the images, and performing at least one of alignment of images shot by the plurality of cameras, analysis of interaction between the objects, and tracking of the object using a result of the object detection; (b) a second step of detecting how much the detected object deviates from the center of a frame-by-frame image included in the received image using a result of the first step, and detecting a degree of inclination of the image to evaluate the aesthetics of the received image; and (c) a third step of individually controlling a plurality of cameras shooting the object using a result of the aesthetics evaluation of the second step.
Description
본 발명은 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법 및 이를 위한 장치에 관한 것이다. 보다 자세하게는 주어진 장면에 대하여 능동적으로 오브젝트를 선택하고, 구도 및 샷의 종류까지 선정하여 촬영을 진행함으로써 고품질 동영상을 촬영할 수 있는 방법 및 이를 위한 장치에 관한 것이다. The present invention relates to a method for controlling a camera for autonomous shooting of high-quality video and a device therefor. More specifically, the present invention relates to a method for shooting high-quality video by actively selecting an object for a given scene, selecting the composition and type of shot, and proceeding with shooting, and a device therefor.
영상과 관련된 다양한 콘텐츠가 기하급수적으로 쏟아져나오는 현 시대 속에서, 보다 고품질의 동영상을 촬영하고자 하는 수요자들의 니즈는 나날이 증가하고 있으며, 관련된 촬영 기술 역시 활발하게 개발되고 있다. In the current era where various video-related contents are being produced exponentially, the needs of consumers who want to shoot higher quality videos are increasing day by day, and related shooting technologies are also being actively developed.
종래에는 고품질 동영상을 제작하기 위해 전문적인 촬영 기술을 보유한 촬영 감독이나 촬영 기사가 현장에 배치되어 스스로의 전문 지식을 활용해 촬영 대상인 오브젝트에 대한 촬영을 진행하였으나, 이들에 대한 인건비가 나날이 증가하고 있으며, 한 장면을 제작하기 위해 복수 개의 카메라로 동시에 촬영을 진행하는 것이 보편적인 촬영 방식이 된 현재의 촬영 현장 내에서 이들 전문가들을 여러명 두는 것은 콘텐츠의 제작비 증가에 치명적인 영향을 준다는 문제점이 있다. In the past, to produce high-quality videos, professional cinematographers or camera operators with specialized filming skills were deployed on-site to film the objects they were filming using their expertise. However, the labor costs for these professionals are increasing day by day, and in today's filming sites where it is common to film with multiple cameras simultaneously to produce a single scene, there is a problem that having multiple of these professionals has a fatal impact on increasing the production costs of content.
이러한 문제점을 해결하기 위해 최근에는 수동적 시각 지능이라 하여 인공지능 기술을 활용해 특정 장치가 전문 촬영 감독이나 촬영 기사가 촬영한 영상을 수동적으로 학습하고, 학습한 결과에 따라 촬영을 담당하는 카메라를 제어하는 방식이 개발되었으며, 이는 인건비 절감에 도움을 주기는 하였으나, 학습 대상이 된 전문가들의 촬영 방식에서 크게 벗어날 수 없으며, 장치 스스로 촬영 대상인 피사체를 선택하거나 피사체를 기준으로 가장 효과적인 구도나 샷의 종류를 선정할 수 없기에 전문가들을 완벽하게 대체할 수 있는 대체재로서 동작하지 못하고 보조자로서의 역할에만 그친다는 문제점이 있다. To solve these problems, passive visual intelligence has recently been developed, in which a specific device passively learns footage shot by a professional cinematographer or camera operator using artificial intelligence technology and controls the camera in charge of filming based on the learned results. Although this helps reduce labor costs, it cannot significantly deviate from the filming methods of the professionals who were learned, and since the device cannot select the subject of the filming on its own or select the most effective composition or type of shot based on the subject, it cannot function as a perfect substitute for professionals and can only play a role as an assistant.
한편, 수동적 시각 지능이 종래에 비하여 인건비 절감에 도움을 주기는 했어도 소규모 제작자(예를 들어, 개인 방송을 진행하거나 개인 단위의 유튜버 등)들의 입장에서는 여전히 전문가들을 활용할 인건비 부담을 느낄 수밖에 없는바, 전문적인 촬영 지식을 보유한 전문가들을 보조하는 역할에서 한 걸음 더 나아가, 이들을 완벽하게 대체할 수 있는 새롭고 진보된 기술의 개발이 요구되는바, 본 발명은 이에 관한 것이며, 본 명세서를 통해 이를 능동적 시각 지능이라 명명하도록 한다. Meanwhile, although passive visual intelligence has helped reduce labor costs compared to the past, small-scale producers (e.g., personal broadcasters or individual YouTubers) still cannot help but feel the burden of labor costs for utilizing experts. Therefore, the development of new and advanced technologies that can go one step further than assisting experts with specialized filming knowledge and completely replace them is required. The present invention relates to this, and this is named active visual intelligence throughout this specification.
본 발명이 해결하고자 하는 기술적 과제는 종래 고품질 동영상 제작을 위해 높은 인건비를 부담해야 하는 전문 촬영 감독이나 촬영 기사를 전혀 고용하지 않고, 장치만을 위한 비교적 적은 비용만으로 고품질 동영상을 제작할 수 있는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법 및 이를 위한 장치를 제공하는 것이다. The technical problem to be solved by the present invention is to provide a method for controlling a camera for autonomous shooting of a high-quality video, which can produce a high-quality video with only a relatively low cost for the device, without hiring a professional cinematographer or camera operator who must bear high labor costs for the production of a high-quality video in the past, and a device therefor.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 수동적 시각 지능과 같이 학습 대상이 된 전문가들의 촬영 방식에서 벗어나 장치가 피사체를 기준으로 가장 효과적인 구도나 샷의 종류를 스스로 선정함으로써 이들 전문가들을 완벽하게 대체하는 대체재로서 동작할 수 있는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법 및 이를 위한 장치를 제공하는 것이다.Another technical problem that the present invention seeks to solve is to provide a method for controlling a camera for autonomous high-quality video shooting, and a device therefor, which can act as a perfect substitute for experts by having the device select the most effective composition or type of shot based on the subject, breaking away from the shooting method of experts who are the subject of learning, such as passive visual intelligence.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 전문가들을 완벽하게 대체하여 이들에 대한 인건비를 절약할 수 있게 됨으로써 소규모 제작자들 역시 고품질 동영상을 부담없이 제작할 수 있도록 이바지하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법 및 이를 위한 장치를 제공하는 것이다. Another technical problem that the present invention seeks to solve is to provide a method for controlling a camera for autonomous shooting of high-quality videos and a device therefor, which can completely replace experts and save labor costs for them, thereby enabling even small-scale producers to produce high-quality videos without burden.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the description below.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법은 (a) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 단계, (b) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 단계 및 (c) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 제3 단계를 포함한다. According to an embodiment of the present invention for achieving the above technical problem, a method for controlling cameras for autonomous high-quality video shooting includes: (a) a first step of receiving images shot by a plurality of cameras, detecting an object included in the images, and performing at least one of alignment of images shot by the plurality of cameras, analysis of interaction between the objects, and tracking of the object using a result of the object detection; (b) a second step of detecting how much the detected object deviates from the center of a frame-by-frame image included in the received image using a result of the first step, and detecting a degree of inclination of the image to evaluate the aesthetics of the received image; and (c) a third step of individually controlling a plurality of cameras shooting the object using a result of the aesthetics evaluation of the second step.
일 실시 예에 따르면, 상기 제1 단계는, 복수 개의 카메라가 촬영한 영상을 수신하는 제1-1 단계, 상기 수신한 영상이 포함하는 프레임 단위의 이미지에 오브젝트 탐지 알고리즘을 적용해 복수 개의 오브젝트를 탐지하는 제1-2 단계, 상기 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트를 기준으로 상기 복수 개의 카메라가 촬영한 영상을 정합하는 제1-3 단계, 상기 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트에 대한 정보 및 상기 복수 개의 카메라가 촬영한 영상의 정합에 대한 정보를 이용하여 상기 복수 개의 오브젝트 간 상호작용을 분석하는 제1-4 단계 및 상기 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트의 위치를 상기 수신한 영상 내에서 추적하는 제1-5 단계 중 어느 하나 이상을 포함할 수 있다. According to one embodiment, the first step may include at least one of a step 1-1 of receiving images captured by a plurality of cameras, a step 1-2 of detecting a plurality of objects by applying an object detection algorithm to frame-by-frame images included in the received images, a step 1-3 of aligning the images captured by the plurality of cameras based on the plurality of objects detected in the frame-by-frame images, a step 1-4 of analyzing interactions between the plurality of objects using information about the plurality of objects detected in the frame-by-frame images and information about alignment of the images captured by the plurality of cameras, and a step 1-5 of tracking the positions of the plurality of objects detected in the frame-by-frame images within the received images.
일 실시 예에 따르면, 상기 제1-2 단계에서의 오브젝트 탐지 알고리즘은, YOLO(You Only Look Once) 알고리즘 및 CenterNet 알고리즘 중 어느 하나일 수 있다. According to one embodiment, the object detection algorithm in steps 1-2 may be either a YOLO (You Only Look Once) algorithm or a CenterNet algorithm.
일 실시 예에 따르면, 상기 제1-2 단계에서의 복수 개의 오브젝트 탐지는, In one embodiment, the detection of multiple objects in the first and second steps is
상기 탐지한 복수 개의 오브젝트 각각이 상기 이미지 내에서 위치하는 영역을 경계 박스(Object Bounding Box)로 출력하는 것일 수 있다.It may be possible to output the area where each of the detected multiple objects is located within the image as a bounding box (Object Bounding Box).
일 실시 예에 따르면, 상기 제1-4 단계에서의 복수 개의 오브젝트 간 상호작용은, 상기 복수 개의 오브젝트가 사람과 사물인 경우, 이들 사이의 상호작용 및 상기 복수 개의 오브젝트가 사람과 사람인 경우, 이들 사이의 상호작용 중 어느 하나 이상을 포함할 수 있다. According to one embodiment, the interaction between the plurality of objects in steps 1-4 may include at least one of the interaction between the plurality of objects, if the plurality of objects are people and things, and the interaction between people, if the plurality of objects are people.
일 실시 예에 따르면, 상기 복수 개의 카메라가 촬영한 영상의 정합에 대한 정보, 상기 복수 개의 오브젝트 간 상호작용에 대한 정보 및 복수 개의 오브젝트의 위치 추적 정보 중 어느 하나 이상을 이용하여 상기 복수 개의 오브젝트 각각에 대한 향후 행동을 예측하는 제1-6 단계를 더 포함할 수 있다. According to one embodiment, the method may further include steps 1-6 of predicting future actions for each of the plurality of objects by using at least one of information about alignment of images captured by the plurality of cameras, information about interactions between the plurality of objects, and location tracking information of the plurality of objects.
일 실시 예에 따르면, 상기 제2 단계는, 상기 탐지한 오브젝트가 상기 이미지 내에서 위치하는 영역을 출력한 경계 박스의 중심이 상기 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하는 제2-1 단계, 상기 이미지 내에서 수평선을 탐지하고, 상기 탐지한 수평선의 기울기를 산출하여 상기 이미지의 기울어진 정도를 탐지하는 제2-2 단계 및 상기 제2-1 단계의 탐지 결과와 제2-2 단계의 탐지 결과를 이용하여 상기 수신한 영상의 심미성을 평가하는 제2-3 단계 중 어느 하나 이상을 포함할 수 있다. According to one embodiment, the second step may include at least one of a step 2-1 of detecting how much a center of a bounding box outputting an area where the detected object is located within the image deviates from the center of the image, a step 2-2 of detecting a horizontal line within the image and calculating a slope of the detected horizontal line to detect a degree of inclination of the image, and a step 2-3 of evaluating the aesthetics of the received image using the detection results of the step 2-1 and the detection results of the step 2-2.
일 실시 예에 따르면, 상기 제2-1 단계 및 제2-2 단계 사이에, 상기 제2-1 단계의 탐지 결과에 따라 상기 이미지를 촬영한 카메라의 상대적인 위치를 산출하는 제2-1 ´단계를 더 포함할 수 있다. According to one embodiment, between the steps 2-1 and 2-2, a step 2-1 ´ of calculating a relative position of a camera that captured the image based on the detection result of the step 2-1 may be further included.
일 실시 예에 따르면, 상기 제2-2 단계에서의 수평선의 탐지는, 상기 이미지 내에서 수평선이 탐지되지 않는 경우, 평행한 두 선을 탐지하고, 탐지한 두 평행선이 만나는 소실점을 산출하여 상기 수평선을 탐지하는 것일 수 있다. According to one embodiment, the detection of the horizon in the step 2-2 may be performed by detecting two parallel lines and calculating a vanishing point where the two detected parallel lines meet, if the horizon is not detected within the image.
일 실시 예에 따르면, 상기 제2-2 단계와 제2-3 단계 사이에, 상기 이미지가 실내 이미지인 경우, 상기 탐지한 오브젝트의 대칭선을 탐지하여 상기 이미지의 기울어진 정도를 탐지하는 제2-2´ 단계를 더 포함할 수 있다. According to one embodiment, between the steps 2-2 and 2-3, if the image is an indoor image, a step 2-2' of detecting a line of symmetry of the detected object to detect a degree of inclination of the image may be further included.
일 실시 예에 따르면, 상기 제2-3 단계에서의 심미성 평가의 결과는, 상기 복수 개의 카메라가 촬영한 영상 각각에 대한 심미성 평가 결과, 상기 복수 개의 카메라가 촬영한 영상 각각에 대한 심미성 평가 결과 중, 가장 높은 영상을 촬영한 카메라에 대한 정보, 상기 제2-1 단계의 탐지 결과에 따른 상기 이미지를 촬영한 카메라의 추천 촬영 위치에 대한 정보 및 상기 제2-2 단계의 탐지 결과에 따른 상기 이미지를 촬영한 카메라의 추천 촬영 각도에 대한 정보 중 어느 하나 이상을 포함할 수 있다. According to one embodiment, the result of the aesthetic evaluation in the step 2-3 may include one or more of the following: an aesthetic evaluation result for each image captured by the plurality of cameras; information about a camera that captured an image with the highest aesthetic evaluation result among the images captured by the plurality of cameras; information about a recommended shooting location of the camera that captured the image according to the detection result of the step 2-1; and information about a recommended shooting angle of the camera that captured the image according to the detection result of the step 2-2.
상기 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치는 하나 이상의 프로세서; 하나 이상의 프로세서, 네트워크 인터페이스, 상기 프로세서에 의해 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리 및 대용량 네트워크 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서에 의해, (A) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 오퍼레이션, (B) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 오퍼레이션, (C) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 오퍼레이션을 실행한다.According to another embodiment of the present invention for achieving the above technical task, a device for controlling a camera for autonomously shooting a high-quality video comprises: one or more processors; one or more processors, a network interface, a memory for loading a computer program executed by the processors, and a storage for storing large-capacity network data and the computer program, wherein the computer program executes, by the one or more processors, (A) a first operation for receiving images shot by a plurality of cameras, detecting an object included in the images, and performing at least one of alignment of images shot by the plurality of cameras, analysis of interaction between the objects, and tracking of the object using the result of the object detection; (B) a second operation for detecting how much the detected object deviates from the center of a frame-by-frame image included in the received image using the result of the first step, and detecting the degree of inclination of the image to evaluate the aesthetics of the received image; and (C) an operation for individually controlling a plurality of cameras shooting the object using the result of the aesthetics evaluation of the second step.
상기 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따른 매체에 저장된 컴퓨터 프로그램은 컴퓨팅 장치와 결합하여, (AA) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 단계, (BB) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 단계 및 (CC) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 단계를 실행한다.According to another embodiment of the present invention for achieving the above technical task, a computer program stored in a medium is combined with a computing device, and executes (AA) a first step of receiving images captured by a plurality of cameras, detecting an object included in the images, and performing at least one of alignment of images captured by the plurality of cameras, analysis of interaction between the objects, and tracking of the object using a result of the object detection, (BB) a second step of detecting how much the detected object deviates from the center of an image in frame units included in the received images using a result of the first step, and detecting a degree of inclination of the image to evaluate the aesthetics of the received images, and (CC) a step of individually controlling a plurality of cameras capturing the object using a result of the aesthetics evaluation of the second step.
상기와 같은 본 발명에 따르면, 고품질 동영상 제작을 위해 높은 인건비를 부담해야 하는 전문 촬영 감독이나 촬영 기사를 전혀 고용하지 않고, 장치에 대한 소정의 비용만을 부담하는 것만으로 고품질 동영상을 손쉽게 제작할 수 있다는 효과가 있다. According to the present invention as described above, there is an effect in that high-quality videos can be easily produced by only paying a certain cost for the equipment, without hiring a professional cinematographer or cameraman who must bear high labor costs for producing high-quality videos.
또한, 수동적 시각 지능과 같이 학습 대상이 된 전문가들의 촬영 방식을 학습하는 것이 아닌 화면의 구도에 초점을 맞춘 카메라 제어가 이루어지기 때문에 장치 스스로 피사체를 기준으로 가장 효과적인 구도나 샷의 종류를 스스로 선정함으로써 이들 전문가들을 완벽하게 대체하는 대체재로서 동작할 수 있다는 효과가 있다.In addition, since the camera control is focused on the composition of the screen rather than learning the shooting style of the experts who are the subjects of learning, such as passive visual intelligence, the device can act as a perfect substitute for these experts by selecting the most effective composition or type of shot based on the subject.
또한, 전문가들을 완벽하게 대체하여 이들에 대한 인건비를 절약할 수 있게 됨으로써 소규모 제작자들 역시 고품질 동영상을 부담없이 제작할 수 있도록 이바지할 수 있다는 효과가 있다. In addition, it has the effect of enabling small-scale producers to produce high-quality videos without burden by completely replacing professionals and saving on their labor costs.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.
도 1은 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치가 포함하는 전체 구성을 예시적으로 도시한 도면이다.
도 2는 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법을 수행하기 위한 구성을 포함하는 전체 환경을 예시적으로 도시한 도면이다.
도 3은 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법의 대표적인 단계를 나타낸 순서도이다.
도 4는 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법에 있어서, 고차원적으로 장면을 인식하는 제1 단계를 구체화한 순서도이다.
도 5는 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법에 있어서, 심미성을 평가하는 제2 단계를 구체화한 순서도이다.
도 6은 복수 개의 오브젝트에 대한 경계 박스와 이를 전부 포함하는 종합 경계 박스 그리고 이들의 중심과 이미지의 중심을 예시적으로 도시한 도면이다.
도 7은 도 6에 도시된 도면을 기준으로 카메라를 제어함으로써 변경된 이미지를 예시적으로 도시한 도면이다.
도 8은 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치를 도 1의 경우와 상이하게 기능적인 구성을 포함하는 형태로 도시한 도면이다. FIG. 1 is a drawing exemplarily illustrating the entire configuration included in a device for controlling a camera for autonomously shooting high-quality video according to a first embodiment of the present invention.
FIG. 2 is a drawing exemplarily illustrating an entire environment including a configuration for performing a method of controlling a camera for autonomous high-quality video recording according to a second embodiment of the present invention.
FIG. 3 is a flowchart showing representative steps of a method for controlling a camera for autonomous high-quality video shooting according to a second embodiment of the present invention.
FIG. 4 is a flowchart illustrating a first step of recognizing a scene in a high dimension in a method for controlling a camera for autonomous high-quality video shooting according to a second embodiment of the present invention.
FIG. 5 is a flowchart illustrating a second step of evaluating aesthetics in a method for controlling a camera for autonomous high-quality video recording according to a second embodiment of the present invention.
Figure 6 is a diagram illustrating bounding boxes for multiple objects, a composite bounding box that includes all of them, and their centers and the center of the image.
Fig. 7 is a drawing exemplarily showing an image changed by controlling the camera based on the drawing illustrated in Fig. 6.
FIG. 8 is a drawing illustrating a device for controlling a camera for autonomous high-quality video recording according to a first embodiment of the present invention, which includes a functional configuration different from that of FIG. 1.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다.The purpose and technical configuration of the present invention and the resulting operational effects will be more clearly understood by the following detailed description based on the drawings attached to the specification of the present invention. The embodiments of the present invention will be described in detail with reference to the attached drawings.
본 명세서에서 개시되는 실시 예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시 예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시 예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시 예들로 한정되는 것을 의도하지 않는다.The embodiments disclosed in this specification should not be construed or used as limiting the scope of the present invention. It will be apparent to those skilled in the art that the description including the embodiments of this specification has various applications. Accordingly, any embodiments described in the detailed description of the present invention are exemplary for better explaining the present invention and are not intended to limit the scope of the present invention to the embodiments.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.The functional blocks shown in the drawings and described below are only examples of possible implementations. In other implementations, other functional blocks may be used without departing from the spirit and scope of the detailed description. Furthermore, although one or more of the functional blocks of the present invention are shown as individual blocks, one or more of the functional blocks of the present invention may be a combination of various hardware and software configurations that perform the same function.
또한, 어떤 구성요소들을 포함한다는 표현은 "개방형"의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.Additionally, the expression “including certain components” is an “open” expression, simply indicating the presence of those components, and should not be construed as excluding additional components.
나아가 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.Furthermore, when a component is referred to as being "connected" or "connected" to another component, it should be understood that while it may be directly connected or connected to that other component, there may also be other components in between.
이하에서는 도면들을 참조하여 본 발명의 세부적인 실시 예들에 대해 살펴보도록 한다. Hereinafter, detailed embodiments of the present invention will be described with reference to the drawings.
도 1은 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)가 포함하는 전체 구성을 예시적으로 도시한 도면이다. FIG. 1 is a drawing exemplarily illustrating the entire configuration included in a device (100) for controlling a camera for autonomous high-quality video recording according to a first embodiment of the present invention.
그러나 이는 본 발명의 목적을 달성하기 위한 바람직한 실시 예일 뿐이며, 필요에 따라 일부 구성이 추가되거나 삭제될 수 있고, 어느 한 구성이 수행하는 역할을 다른 구성이 함께 수행할 수도 있음은 물론이다. However, this is only a preferred embodiment for achieving the purpose of the present invention, and some components may be added or deleted as needed, and the role performed by one component may be performed by another component together.
본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)는 프로세서(10), 네트워크 인터페이스(20), 메모리(30), 스토리지(40) 및 이들을 연결하는 데이터 버스(50)를 포함할 수 있으며, 기타 본 발명의 목적을 달성함에 있어 요구되는 부가적인 구성들을 더 포함할 수 있음은 물론이라 할 것이다. A device (100) for controlling a camera for autonomous high-quality video shooting according to a first embodiment of the present invention may include a processor (10), a network interface (20), a memory (30), storage (40), and a data bus (50) connecting them, and of course may further include additional components required to achieve the purpose of the present invention.
프로세서(10)는 각 구성의 전반적인 동작을 제어한다. 프로세서(10)는 CPU(Central Processing Unit), MPU(Micro Processer Unit), MCU(Micro Controller Unit) 또는 본 발명이 속하는 기술 분야에서 널리 알려져 있는 형태의 프로세서 중 어느 하나일 수 있다. The processor (10) controls the overall operation of each component. The processor (10) may be a CPU (Central Processing Unit), an MPU (Micro Processor Unit), an MCU (Micro Controller Unit), or any of the processors of a type widely known in the technical field to which the present invention belongs.
아울러, 프로세서(10)는 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법을 수행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있으며, 추천 모델이 구현된 인공지능 프로세서일 수 있다. In addition, the processor (10) can perform operations for at least one application or program for performing a method for controlling a camera for autonomous high-quality video shooting according to the second embodiment of the present invention, and can be an artificial intelligence processor in which a recommendation model is implemented.
네트워크 인터페이스(20)는 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)의 유무선 인터넷 통신을 지원하며, 그 밖의 공지의 통신 방식을 지원할 수도 있다. 따라서 네트워크 인터페이스(20)는 그에 따른 통신 모듈을 포함하여 구성될 수 있다.The network interface (20) supports wired and wireless Internet communication of the device (100) controlling the camera for high-quality autonomous video shooting according to the first embodiment of the present invention, and may also support other known communication methods. Accordingly, the network interface (20) may be configured to include a communication module accordingly.
메모리(30)는 각종 정보, 명령 및/또는 정보를 저장하며, 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법을 수행하기 위해 스토리지(40)로부터 하나 이상의 컴퓨터 프로그램(41)을 로드할 수 있다. 도 1에서는 메모리(30)의 하나로 RAM을 도시하였으나 이와 더불어 다양한 저장 매체를 메모리(30)로 이용할 수 있음은 물론이다. The memory (30) stores various information, commands and/or information, and can load one or more computer programs (41) from the storage (40) to perform a method of controlling a camera for autonomous high-quality video shooting according to the second embodiment of the present invention. In Fig. 1, RAM is illustrated as one of the memories (30), but it is of course possible to use various storage media as the memory (30).
스토리지(40)는 하나 이상의 컴퓨터 프로그램(41) 및 대용량 네트워크 정보(42)를 비임시적으로 저장할 수 있다. 이러한 스토리지(40)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 널리 알려져 있는 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체 중 어느 하나일 수 있다. The storage (40) can non-temporarily store one or more computer programs (41) and large-capacity network information (42). The storage (40) can be any one of non-volatile memory such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), a flash memory, a hard disk, a removable disk, or any form of computer-readable recording medium widely known in the art to which the present invention belongs.
컴퓨터 프로그램(41)은 메모리(30)에 로드되어, 하나 이상의 프로세서(10)에 의해, (A) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 오퍼레이션, (B) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 오퍼레이션 및 (C) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 오퍼레이션을 실행할 수 있다.A computer program (41) is loaded into a memory (30) and can be executed by one or more processors (10) to: (A) perform a first operation of receiving images captured by a plurality of cameras, detecting an object included in the images, and performing at least one of alignment of images captured by the plurality of cameras, analysis of interaction between the objects, and tracking of the object using the result of the object detection; (B) perform a second operation of detecting how much the detected object deviates from the center of the frame unit image included in the received images using the result of the first step, detecting the degree of inclination of the image, and evaluating the aesthetics of the received images; and (C) perform an operation of individually controlling a plurality of cameras that capture the object using the result of the aesthetics evaluation of the second step.
이상 간단하게 언급한 컴퓨터 프로그램(41)이 수행하는 오퍼레이션은 컴퓨터 프로그램(41)의 일 기능으로 볼 수 있으며, 보다 자세한 설명은 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법에 대한 설명에서 후술하도록 한다. The operations performed by the computer program (41) briefly mentioned above can be viewed as one function of the computer program (41), and a more detailed description will be provided later in the description of a method for controlling a camera for autonomous high-quality video shooting according to the second embodiment of the present invention.
데이터 버스(50)는 이상 설명한 프로세서(10), 네트워크 인터페이스(20), 메모리(30) 및 스토리지(40) 사이의 명령 및/또는 정보의 이동 경로가 된다. The data bus (50) serves as a path for moving commands and/or information between the processor (10), network interface (20), memory (30), and storage (40) described above.
이상 설명한 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)는 독립된 디바이스의 형태, 예를 들어 전자 기기나 서버(클라우드 포함)의 형태일 수 있으며, 후자의 경우 전용 애플리케이션의 형태로 사용자 단말에 다운로드되어 설치될 수 있을 것이다. The device (100) for controlling a camera for autonomous high-quality video recording according to the first embodiment of the present invention described above may be in the form of an independent device, for example, an electronic device or a server (including a cloud), and in the latter case, may be downloaded and installed on a user terminal in the form of a dedicated application.
아울러, 여기서 전자 기기는 스마트폰, 태블릿 PC, 노트북 PC, PDA, PMP 등과 같이 휴대가 용이한 포터블 기기 뿐만 아니라 한 장소에 고정 설치되어 사용하는 데스크톱 PC 등이라도 무방하며, 네트워크 기능만 보유하고 있다면 전자 기기는 어떠한 것이라도 무방하다 할 것이다. In addition, the electronic device here may be a portable device that is easy to carry, such as a smartphone, tablet PC, laptop PC, PDA, PMP, etc., or a desktop PC that is installed in a fixed location and used. As long as it has a network function, the electronic device may be any type.
이하, 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)가 독립된 디바이스 형태인 서버임을 전제로 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법에 대하여 도 2내지 도 7을 참조하여 설명하도록 한다. Hereinafter, assuming that the device (100) for controlling a camera for autonomous high-quality video shooting according to the first embodiment of the present invention is a server in the form of an independent device, a method for controlling a camera for autonomous high-quality video shooting according to the second embodiment of the present invention will be described with reference to FIGS. 2 to 7.
도 2는 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법을 수행하기 위한 구성을 포함하는 전체 환경을 예시적으로 도시한 도면이다. FIG. 2 is a drawing exemplarily illustrating an entire environment including a configuration for performing a method of controlling a camera for autonomous high-quality video recording according to a second embodiment of the present invention.
본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법은 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)가 복수 개의 카메라(200)와 네트워크(N)를 통해 연결되어 있으며, 복수 개의 카메라(200)는 서로 상이한 위치 및 각도에서 동일한 현장을 촬영할 수 있다. A method for controlling a camera for autonomous high-quality video recording according to a second embodiment of the present invention comprises: a device (100) for controlling a camera for autonomous high-quality video recording according to the first embodiment of the present invention is connected to a plurality of cameras (200) through a network (N), and the plurality of cameras (200) can record the same scene from different positions and angles.
여기서 동일한 현장이라 함은 복수 개의 카메라(200)를 통해 동영상에 담고자 하는 하나의 촬영 현장을 의미하는 것이며, 촬영 현장에는 오브젝트인 복수 개의 피사체(300)가 존재할 수 있는바, 여기서 오브젝트 또는 피사체(300)는 사람과 사물을 가리지 않는 최광의의 개념이라 할 것이고, 복수 개의 카메라(200)가 동일한 촬영 현장을 촬영한다고 하여 이들 카메라 모두가 동일한 오브젝트 또는 피사체(300)를 촬영하는 것은 아니라 할 것이다. Here, the same scene means a single shooting scene that is to be captured in a video using multiple cameras (200), and multiple subjects (300) that are objects may exist at the shooting scene. Here, the object or subject (300) is the broadest concept that does not distinguish between people and objects, and even if multiple cameras (200) shoot the same shooting scene, it does not mean that all of these cameras shoot the same object or subject (300).
한편, 복수 개의 카메라(200)는 명칭을 카메라로 하였을 뿐, 촬영 기능을 보유한 디바이스라면 어떠한 것이라도 카메라가 될 수 있는바, 예를 들어, 촬영용 드론, 카메라 로봇, 팬틸트 줌 카메라, 스마트폰 등과 같이 촬영 기능을 보유한 디바이스가 모두 카메라(200)가 될 수 있으며, 복수 개의 카메라(200) 각각은 서로 동일한 종류일 필요는 없으며, 성능 역시 상이할 수도 있음은 물론이라 할 것이다. Meanwhile, the plurality of cameras (200) are named as cameras, but any device with a photographing function can be a camera. For example, devices with a photographing function such as a photographing drone, a camera robot, a pan-tilt zoom camera, a smartphone, etc. can all be cameras (200). It should be noted that each of the plurality of cameras (200) need not be of the same type, and their performances may also be different.
도 3은 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법의 대표적인 단계를 나타낸 순서도이다. FIG. 3 is a flowchart showing representative steps of a method for controlling a camera for autonomous high-quality video shooting according to a second embodiment of the present invention.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다. However, this is only a preferred embodiment for achieving the purpose of the present invention, and some steps may be added or deleted as needed, and one step may be included in another step and performed.
한편, 각 단계는 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)를 통해 이루어지는 것을 전제로 하며, 설명의 편의를 위해 "장치(100)"로 명명하도록 함을 미리 밝혀두는 바이다. Meanwhile, it is assumed that each step is performed through a device (100) that controls a camera for autonomous high-quality video shooting according to the first embodiment of the present invention, and it is stated in advance that it is named as “device (100)” for convenience of explanation.
또한, 이하의 설명에서 사용할 단어인 "동영상", "영상"과 "이미지"는 사전적인 의미는 상이하나, "동영상" 또는 "영상"은 프레임 단위의 "이미지" 복수 개가 연속적으로 취합하여 이루어지는 것이기 때문에 이하의 "이미지"는 "동영상" 또는 "영상"의 특정 프레임에서의 정지 화면을 의미한다 할 것이며, 광의의 개념으로 해석하여 "동영상", "영상", "이미지"는 큰 구별없이 혼용되어 사용될 수 있다 할 것이다. In addition, the words "video", "movie" and "image" to be used in the following explanation have different dictionary meanings, but since "video" or "movie" is made by continuously compiling multiple "images" in frame units, the "image" below will mean a still image from a specific frame of "video" or "movie", and when interpreted in a broad sense, "video", "movie" and "image" can be used interchangeably without much distinction.
우선, 장치(100)가 복수 개의 카메라(200)가 촬영한 영상을 수신하여 해당 영상이 포함하는 오브젝트(300)를 탐지하고, 오브젝트(300) 탐지 결과를 이용하여 복수 개의 카메라(200)가 촬영한 영상의 정합, 오브젝트(300) 간 상호작용의 분석 및 오브젝트(300)의 추적 중 어느 하나 이상을 수행한다(S310). First, the device (100) receives images captured by multiple cameras (200), detects an object (300) included in the images, and uses the result of the object (300) detection to perform at least one of alignment of images captured by multiple cameras (200), analysis of interaction between objects (300), and tracking of the object (300) (S310).
이와 같은 S310 단계를 제1 단계라고 하는바, 보다 구체적으로 제1 단계는 촬영 현장을 고차원적으로 탐지하여 장면을 인식하는 단계로 볼 수 있으며, 이하, 도 4를 참조하여 설명하도록 한다. This S310 step is called the first step, and more specifically, the first step can be viewed as a step of detecting the shooting scene in a high dimension and recognizing the scene, and will be explained below with reference to FIG. 4.
도 4는 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법에 있어서, 고차원적으로 장면을 인식하는 제1 단계를 구체화한 순서도이다. FIG. 4 is a flowchart illustrating a first step of recognizing a scene in a high dimension in a method for controlling a camera for autonomous high-quality video shooting according to a second embodiment of the present invention.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다. However, this is only a preferred embodiment for achieving the purpose of the present invention, and some steps may be added or deleted as needed, and one step may be included in another step and performed.
우선, 장치(100)가 복수 개의 카메라(200)가 촬영한 영상을 수신한다(S310-1). First, the device (100) receives images captured by multiple cameras (200) (S310-1).
이와 같은 S310-1 단계를 제1-1 단계라 하며, 여기서 복수 개의 카메라(200)는 앞서 도 2에 대한 설명에서 언급한 카메라(200)를 의미하고, 장치(100)는 복수 개의 카메라(200) 각각으로부터 각각의 카메라가 촬영한 영상을 개별적으로 수신할 수 있는바, 이하 설명할 단계들은 개별적인 카메라로부터 수신한 영상 각각에 대하여 수행될 수 있다 할 것이다. This S310-1 step is referred to as step 1-1, and here, the plurality of cameras (200) refer to the cameras (200) mentioned in the description of FIG. 2 above, and the device (100) can individually receive images captured by each camera from each of the plurality of cameras (200), and the steps to be described below can be performed for each image received from each individual camera.
이후, 장치(100)가 수신한 영상이 포함하는 프레임 단위의 이미지에 오브젝트 탐지 알고리즘을 적용해 복수 개의 오브젝트(300)를 탐지한다(S310-2). Thereafter, the device (100) applies an object detection algorithm to the image in each frame included in the received image to detect multiple objects (300) (S310-2).
이와 같은 S310-2 단계를 제1-2 단계라 하며, 영상은 복수 개의 이미지가 연속적으로 연결되어 형성된 것이기 때문에 제1-2 단계에서는 복수 개의 카메라(200)로부터 수신한 영상 각각에 대하여, 해당 영상이 포함하고 있는 프레임 단위의 모든 이미지에서 복수 개의 오브젝트(300)를 탐지할 수 있다. This S310-2 step is called step 1-2, and since an image is formed by sequentially connecting multiple images, in step 1-2, multiple objects (300) can be detected in all images of each frame unit included in each image received from multiple cameras (200).
여기서 복수 개의 오브젝트(300)는 사람과 사물을 모두 포함하는 최광의의 개념임은 앞서 언급하였으며, 오브젝트 탐지는 YOLO(You Only Look Once) 알고리즘 및 CenterNet 알고리즘 중 어느 하나를, 더 나아가 이상의 알고리즘 외에 공지된 오브젝트 탐지 알고리즘 중 어느 하나라면 어떠한 것이라도 이용할 수 있다 할 것이다. As mentioned above, the multiple objects (300) here are the broadest concept that includes both people and objects, and object detection can be performed using either the YOLO (You Only Look Once) algorithm or the CenterNet algorithm, or further, any of the object detection algorithms known in addition to the above algorithms.
한편, 장치(100)는 복수 개의 오브젝트(300)를 탐지한 경우, 탐지한 복수 개의 오브젝트(300) 각각이 이미지 내에서 위치하는 영역을 경계 박스(Object Bounding Box)로 출력할 수 있는바, 여기서 경계 박스는 탐지한 오브젝트(300)의 개수만큼 출력될 수 있으며, 경계 박스 내에는 탐지한 오브젝트(300) 각각이 전부 포함될 수 있다. Meanwhile, when the device (100) detects multiple objects (300), it can output the area where each of the detected multiple objects (300) is located within the image as a bounding box (Object Bounding Box). Here, the number of bounding boxes can be output equal to the number of detected objects (300), and each of the detected objects (300) can be included within the bounding box.
예를 들어, 장치(100)가 하나의 이미지에서 한 명의 사람과 한 개의 공을 탐지한 경우, 경계 박스는 한 명의 사람을 내부에 전부 포함하는 경계 박스와 한 개의 공을 내부에 전부 포함하는 경계 박스 총 두 개가 출력될 수 있을 것이며, 장치(100)는 각각의 경계 박스에 대하여 하나의 이미지에서 동일한 색상 또는 상이한 색상으로도 출력할 수 있을 것이나, 서로 상이한 이미지에서 인식한 동일한 오브젝트에 대해서는 동일한 색상으로 경계 박스를 출력할 수 있을 것이다. For example, if the device (100) detects a person and a ball in one image, two bounding boxes may be output, one containing the person entirely inside and one containing the ball entirely inside. The device (100) may output each bounding box in the same color or different colors in one image, but may output bounding boxes in the same color for the same object recognized in different images.
이미지에서 복수 개의 오브젝트(300)를 탐지했다면, 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트(300)를 기준으로 복수 개의 카메라(200)가 촬영한 영상을 정합한다(S310-3). If multiple objects (300) are detected in the image, images captured by multiple cameras (200) are aligned based on the multiple objects (300) detected in the image in frame units (S310-3).
이와 같은 S310-3 단계를 제1-3 단계라 하며, 제1-3 단계를 통해 서로 상이한 카메라(200)로부터 수신한 영상들을 서로 정합할 수 있다. This S310-3 step is called step 1-3, and through step 1-3, images received from different cameras (200) can be aligned with each other.
예를 들어, 제1 카메라(미도시)로부터 수신한 영상에서 탐지된 한 개의 공이, 제2 카메라(미도시)로부터 수신한 영상에서도 탐지된 경우, 두 개의 영상에서 모두 탐지된 공이라는 오브젝트를 기준으로 제1 카메라(미도시)로부터 수신한 영상과 제2 카메라(미도시)로부터 수신한 영상을 정합할 수 있으며, 영상의 정합은 특정 영상에서 오브젝트의 형상 전체가 탐지된 경우뿐만 아니라 오브젝트의 일 부분만 탐지된 경우에도 가능하다 할 것이나, 최소한 오브젝트로 탐지되어 경계 박스 내에 포함될 정도의 일 부분은 탐지되어야 할 것이다. For example, if a ball detected in an image received from a first camera (not shown) is also detected in an image received from a second camera (not shown), the image received from the first camera (not shown) and the image received from the second camera (not shown) can be aligned based on the object, the ball, detected in both images. Alignment of the images is possible not only when the entire shape of the object is detected in a specific image but also when only a portion of the object is detected. However, at least a portion that is detected as an object and included in a bounding box must be detected.
또 다른 예를 들어, 제1 카메라(미도시)로부터 수신한 영상에서 탐지된 한 명의 사람이, 제3 카메라(미도시)로부터 수신한 영상에서도 탐지된 경우, 두 개의 영상에서 모두 탐지된 동일한 사람이라는 오브젝트를 기준으로 제1 카메라(미도시)로부터 수신한 영상과 제3 카메라(미도시)로부터 수신한 영상을 정합할 수 있으며, 앞서 한 개의 공이라는 오브젝트를 기준으로 제1 카메라(미도시)로부터 수신한 영상과 제2 카메라(미도시)로부터 수신한 영상을 정합할 수 있다 하였으므로, 장치(100)는 제1 카메라(미도시)로부터 수신한 영상 내지 제3 카메라(미도시)로부터 수신한 영상 전부를 자연스럽게 정합할 수 있을 것이다. As another example, if a person detected in an image received from a first camera (not shown) is also detected in an image received from a third camera (not shown), the image received from the first camera (not shown) and the image received from the third camera (not shown) can be aligned based on the object that is the same person detected in both images, and since it was previously stated that the image received from the first camera (not shown) and the image received from the second camera (not shown) can be aligned based on the object called a ball, the device (100) will be able to naturally align all of the images received from the first camera (not shown) and the third camera (not shown).
영상까지 정합했다면, 장치(100)가 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트(300)에 대한 정보 및 복수 개의 카메라(200)가 촬영한 영상의 정합에 대한 정보를 이용하여 복수 개의 오브젝트(300) 간 상호작용을 분석한다(S310-4). If the images are aligned, the device (100) analyzes the interaction between the multiple objects (300) using information about the multiple objects (300) detected in the images in each frame and information about the alignment of the images captured by the multiple cameras (200) (S310-4).
이와 같은 S310-4 단계를 제1-4 단계라 하며, 제1-4 단계에서의 복수 개의 오브젝트(300) 간 상호작용은 복수 개의 오브젝트(300)가 사람과 사물인 경우, 이들 사이의 상호작용 및 복수 개의 오브젝트(300)가 사람과 사람인 경우, 이들 사이의 상호작용 중 어느 하나 이상을 포함할 수 있으며, 모두 포함하는 것이 가장 바람직하다 할 것이다. This S310-4 step is called step 1-4, and the interaction between multiple objects (300) in step 1-4 may include at least one of the interaction between the multiple objects (300) if they are people and objects, and the interaction between the multiple objects (300) if they are people and people, and it is most desirable to include all of them.
한편, 여기서 상호작용은 복수 개의 오브젝트(300) 간의 관계, 보다 구체적으로 각각의 오브젝트가 서로에게 어떤 영향을 주고 있는지에 관한 것인바, 복수 개의 오브젝트(300)가 한 명의 사람과 한 개의 공인 경우, 이들 사이의 상호작용은 예를 들어, 사람이 공을 발로 찬다(공이 사람에게 발로 차인다), 사람이 공을 손으로 던진다(공이 사람에게 손으로 던져진다), 사람이 공을 헤딩한다(공이 사람에게 헤딩당한다) 등일 수 있으며, 오브젝트 간 상호작용을 분석하기 위해서는 어느 한 오브젝트가 다른 오브젝트에게 어떻게 작용할 수 있는지를 반드시 확인해야 하는바, 그에 따라 장치(100)가 상호작용을 분석하기 위해서는 앞서 제1-2 단계에서 탐지한 복수 개의 오브젝트(300)에 대한 정보가 요구되는 것이며(오브젝트가 무엇인지), 장치(100)는 다양한 오브젝트 사이에서 작용할 수 있는 모든 예시에 대한 데이터베이스(미도시)를 포함할 수 있다. Meanwhile, the interaction here refers to the relationship between multiple objects (300), more specifically, how each object influences each other. If the multiple objects (300) are one person and one ball, the interaction between them may be, for example, the person kicking the ball with his/her foot (the ball is kicked by the person), the person throwing the ball with his/her hand (the ball is thrown by his/her hand by the person), the person heading the ball (the ball is headed by the person), etc. In order to analyze the interaction between objects, it is necessary to confirm how one object can act on another object. Accordingly, in order for the device (100) to analyze the interaction, information on the multiple objects (300) detected in the first and second steps is required (what the objects are), and the device (100) may include a database (not shown) for all examples of interactions between various objects.
예를 들어, 오브젝트가 공인 경우, 다른 오브젝트인 사람에 대하여 발로 차이는 작용, 손으로 던져지는 작용, 머리로 헤딩당하는 작용 등이 데이터베이스(미도시)에 저장되어 있을 수 있으며, 다른 오브젝트가 방망이인 경우, 방망이로 쳐지는 작용이 데이터베이스(미도시)에 저장되어 있을 수 있다.For example, if the object is a ball, actions such as being kicked by a person, being thrown by a hand, being headed by a person, etc., may be stored in a database (not shown), and if the other object is a bat, an action of being hit by a bat may be stored in a database (not shown).
더 나아가, 장치(100)는 앞서 제1-3 단계에서 복수 개의 카메라(200)가 촬영한 영상의 정합에 대한 정보까지 상호작용의 분석에 이용할 수 있는바, 영상의 정합에 대한 정보를 통해 다양한 시각 정보를 확인할 수 있기 때문이다. 앞선 예에서 복수 개의 오브젝트(300)가 한 명의 사람과 한 개의 공인 경우, 이들 사이의 상호작용이 사람이 공을 발로 찬다(공이 사람에게 발로 차인다), 사람이 공을 손으로 던진다(공이 사람에게 손으로 던져진다), 사람이 공을 헤딩한다(공이 사람에게 헤딩당한다) 등일 수 있다고 했던바, 장치(100)가 복수 개의 오브젝트(300)에 대한 정보만을 이용한다면 사람과 공의 상호작용이 발로 차는 것인지, 손으로 던지는 것인지, 헤딩하는 것인지 정확하게 파악하기가 어려울 것이나, 영상의 정합에 대한 정보를 통해 사람과 공에 대한 다양한 시각 정보를 확인함으로써 사람과 공의 상호 작용을 정확하게 구분할 수 있는 것이다. Furthermore, the device (100) can utilize information about the alignment of images captured by the multiple cameras (200) in the previous steps 1-3 for the analysis of interaction, because various visual information can be confirmed through the information about the alignment of images. In the previous example, if the multiple objects (300) are one person and one ball, the interaction between them can be the person kicking the ball with his foot (the ball is kicked by the person), the person throwing the ball with his hand (the ball is thrown by his hand by the person), the person heading the ball (the ball is headed by the person), etc. If the device (100) only uses information about the multiple objects (300), it would be difficult to accurately determine whether the interaction between the person and the ball is kicking with his foot, throwing with his hand, or heading. However, by confirming various visual information about the person and the ball through the information about the alignment of images, the interaction between the person and the ball can be accurately distinguished.
예를 들어, 영상의 정합에 대한 정보를 통해 사람의 발과 공이 가까이 위치해있다면, 상호작용은 사람이 공을 발로 찬다가 될 것이며, 사람이 공을 손에 쥐고 있으면, 상호작용은 사람이 공을 손으로 던진다가 될 것이고, 공이 사람의 머리 부근에 위치해있다면, 상호작용은 사람이 공을 헤딩한다가 될 것인바, 이들 모두 하나의 영상을 통해서만은 확인이 어려울 것이기에 영상의 정합에 대한 정보를 함께 이용하는 것이다. For example, if the information about the alignment of the images shows that a person's feet are close to the ball, the interaction would be that the person is kicking the ball. If the person is holding the ball in his hand, the interaction would be that the person is throwing the ball with his hand. If the ball is located near the person's head, the interaction would be that the person is heading the ball. Since it would be difficult to confirm all of these through a single image, the information about the alignment of the images is used together.
복수 개의 오브젝트(300) 간 상호작용을 분석했다면, 장치(100)가 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트(300)의 위치를 수신한 영상 내에서 추적하며 (S310-5), 복수 개의 카메라(200)가 촬영한 영상의 정합에 대한 정보, 복수 개의 오브젝트(300) 간 상호작용에 대한 정보 및 복수 개의 오브젝트(300)의 위치 추적 정보 중 어느 하나 이상을 이용하여 복수 개의 오브젝트(300) 각각에 대한 향후 행동을 예측한다(S310-6). If the interaction between multiple objects (300) is analyzed, the device (100) tracks the positions of the multiple objects (300) detected in the frame-by-frame image within the received image (S310-5), and predicts future actions for each of the multiple objects (300) by using at least one of information on the alignment of the images captured by the multiple cameras (200), information on the interaction between the multiple objects (300), and position tracking information of the multiple objects (300) (S310-6).
여기서 전자에 해당하는 S310-5 단계를 제1-5 단계라 하며, 후자에 해당하는 S310-6 단계를 제1-6 단계라 하는바, 이들 단계를 통해 복수 개의 카메라(200)가 촬영한 다수의 영상으로부터 오브젝트를 실시간으로 추척할 수 있으며, 전체 영상 내에서 등장한 사람의 수를 파악할 수 있고, 원하는 사람이 등장한 영상까지 파악할 수 있다. Here, the S310-5 step corresponding to the former is referred to as the 1-5 step, and the S310-6 step corresponding to the latter is referred to as the 1-6 step. Through these steps, an object can be tracked in real time from a number of images captured by multiple cameras (200), the number of people appearing in the entire image can be identified, and even an image in which a desired person appears can be identified.
더 나아가, 복수 개의 오브젝트(300) 각각에 대한 향후 행동 예측 결과를 이용하여 오브젝트를 촬영하는 복수 개의 카메라(200)를 개별적으로 제어할 수도 있는바, 예를 들어 공이라는 오브젝트에 대한 장치(100)의 향후 행동 예측 결과가 운동장의 사이드 라인을 벗어나는 것일 경우에, 공을 촬영하는 카메라를 운동장의 사이드 라인 방향으로 이동하도록 제어함으로써 공을 화면에서 놓치지 않고 사이드 라인을 벗어나는 모습을 실시간으로 생동감 있게 제공할 수 있을 것이며, 이는 복수 개의 카메라(200)를 개별적으로 제어하는 제3 단계에 관한 설명인바, 뒤에서 자세히 설명하도록 한다. Furthermore, by using the future action prediction results for each of the plurality of objects (300), it is possible to individually control the plurality of cameras (200) that film the objects. For example, if the future action prediction result of the device (100) for the object called a ball is that it goes beyond the sideline of the playground, by controlling the camera that films the ball to move toward the sideline of the playground, it is possible to provide a vivid real-time image of the ball going beyond the sideline without losing it on the screen. This is a description of the third step of individually controlling the plurality of cameras (200), which will be described in detail later.
다시 도 3에 대한 설명으로 돌아가도록 한다. Let's go back to the description of Figure 3.
제1 단계를 수행했다면, 장치(100)가 제1 단계의 수행 결과를 이용하여 탐지한 오브젝트가 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 이미지의 기울어진 정도를 탐지하여 수신한 영상의 심미성을 평가한다(S320). If the first step is performed, the device (100) detects how much the detected object deviates from the center of the image of the frame unit included in the received image using the result of the first step, and detects the degree of tilt of the image to evaluate the aesthetics of the received image (S320).
이와 같은 S320 단계를 제2 단계라고 하는바, 보다 구체적으로 제1 단계에서 인식한 장면의 심미성을 평가하는 단계로 볼 수 있으며, 이하, 도 5를 참조하여 설명하도록 한다. This S320 step is called the second step, and more specifically, it can be viewed as a step for evaluating the aesthetics of the scene recognized in the first step, and will be explained below with reference to Fig. 5.
도 5는 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법에 있어서, 심미성을 평가하는 제2 단계를 구체화한 순서도이다. FIG. 5 is a flowchart illustrating a second step of evaluating aesthetics in a method for controlling a camera for autonomous high-quality video recording according to a second embodiment of the present invention.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다. However, this is only a preferred embodiment for achieving the purpose of the present invention, and some steps may be added or deleted as needed, and one step may be included in another step and performed.
우선, 장치(100)가 탐지한 오브젝트가 이미지 내에서 위치하는 영역을 출력한 경계 박스의 중심이 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지한다(S320-1). First, the device (100) detects how far the center of the bounding box outputting the area where the object detected is located within the image deviates from the center of the image (S320-1).
이와 같은 S320-1 단계를 제2-1 단계라 하며, 제2-1 단계는 영상에 대한 심미성 평가 항목 중, 촬영하고자 하는 피사체의 중심을 화면의 중심에 두어야하는 항목을 구현한 것이다. This S320-1 step is called step 2-1, and step 2-1 implements the item among the aesthetic evaluation items for images that the center of the subject to be photographed must be placed at the center of the screen.
앞서 제1-2 단계에 대한 설명에서 장치(100)가 탐지한 복수 개의 오브젝트(300) 각각이 이미지 내에서 위치하는 영역을 경계 박스로 출력한다고 했던바, 오브젝트는 경계 박스 내부에 전부 포함되므로 경계 박스의 중심이 해당 오브젝트의 중심으로 볼 수 있으며, 장치(100)는 경계 박스의 중심이 이미지의 중심으로부터 얼마나 벗어나 있는지를 탐지할 수 있다. As mentioned in the description of steps 1 and 2 above, the area where each of the multiple objects (300) detected by the device (100) is located within the image is output as a bounding box. Since the object is entirely contained within the bounding box, the center of the bounding box can be regarded as the center of the object, and the device (100) can detect how far the center of the bounding box deviates from the center of the image.
한편, 앞서 제1-2 단계에 대한 설명에서 오브젝트가 복수 개인 경우, 각각의 오브젝트에 대하여 경계 박스가 개별적으로 출력된다고 했던바, 이러한 경우에는 경계 박스의 중심 역시 복수개가 되므로 어떠한 경계 박스의 중심을 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지해야 함이 문제될 수 있다. 이러한 경우 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법은 탐지한 오브젝트가 복수 개임으로 인해 출력한 경계 박스 역시 복수 개가 되는 경우, 해당 복수 개의 경계 박스 전부를 내부에 포함할 수 있는 새로운 경계 박스를 생성하여 출력할 수 있으며, 이를 종합 경계 박스(Union Box)라 한다. Meanwhile, as described in the explanation of steps 1 and 2 above, if there are multiple objects, a bounding box is output individually for each object. In this case, since the centers of the bounding boxes also become multiple, it may be a problem to detect how much the center of a certain bounding box deviates from the center of the image. In this case, in the method for controlling the camera for high-quality autonomous video shooting according to the second embodiment of the present invention, if there are multiple detected objects and thus multiple output bounding boxes, a new bounding box that can include all of the multiple bounding boxes inside can be generated and output, and this is called a union box.
종합 경계 박스는 그 내부에 복수 개의 오브젝트(300) 각각을 내부에 포함하는 복수 개의 경계 박스를 전부 포함하고 있는바, 종합 경계 박스의 중심은 각각의 경계 박스의 중심으로부터 벗어나 있을 수 있으나, 전체적으로 본다면 종합 경계 박스의 중심이 해당 이미지의 중심과 일치하는 경우, 피사체의 전체적인 중심이 화면의 중심에 놓여진 것으로 볼 수 있기 때문이다. The comprehensive bounding box includes a plurality of bounding boxes each containing a plurality of objects (300) inside it. The center of the comprehensive bounding box may be off from the center of each bounding box, but when viewed as a whole, if the center of the comprehensive bounding box coincides with the center of the image, the overall center of the subject can be considered to be located at the center of the screen.
도 6에 이를 예시적으로 도시한바, 도 6을 참조하면, 이미지 내에 두 개의 공이 존재하며, 각각의 공을 내부에 전부 포함하는 경계 박스가 두 개 출력되고 있음을 확인할 수 있으며, 두 개의 경계 박스를 내부에 전부 포함하는 종합 경계 박스의 중심(p)이 이미지의 중심(P)으로부터 얼마나 벗어나 있는지 탐지하는 모습을 확인할 수 있다. This is illustrated as an example in Fig. 6. Referring to Fig. 6, it can be confirmed that there are two balls in the image, and two bounding boxes that completely include each ball are output, and it can be confirmed that the center (p) of the comprehensive bounding box that completely includes the two bounding boxes is detected to be deviated from the center (P) of the image.
장치(100)는 종합 경계 박스의 중심이 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하여 탐지 결과에 따라 이미지를 촬영한 카메라의 상대적인 위치를 산출할 수 있는바(S320-1′), 이를 제2-1′ 단계라 하며, 후술할 제3 단계에서 활용될 수 있다. The device (100) can detect how much the center of the comprehensive bounding box deviates from the center of the image and calculate the relative position of the camera that captured the image based on the detection result (S320-1′). This is called step 2-1′ and can be utilized in step 3, which will be described later.
이후, 장치(100)가 이미지 내에서 수평선을 탐지하고, 탐지한 수평선의 기울기를 산출하여 이미지의 기울어진 정도를 탐지한다(S320-2). Thereafter, the device (100) detects a horizontal line within the image and calculates the inclination of the detected horizontal line to detect the degree of inclination of the image (S320-2).
이와 같은 S320-2 단계를 제2-2 단계라 하며, 제2-2 단계는 영상에 대한 심미성 평가 항목 중, 수평 구도에 관한 것으로써 화면의 전체적인 수평이 균형감있게 맞춰져야 하는 항목을 구현한 것이다. This S320-2 step is called step 2-2, and step 2-2 is one of the aesthetic evaluation items for the image, which is related to horizontal composition, and implements the item that the entire horizontal of the screen must be balanced.
장치(100)는 이미지 내에서 주된 수평선을 탐지하고, 탐지한 수평선의 기울기를 산출하여 이미지의 기울어진 정도를 탐지해 후술할 제3 단계에서 활용할 수 있으며, 여기서 수평선은 특정 오브젝트에 의한 것일 수 있고, 특정 오브젝트가 아닌 오브젝트의 뒤에 위치한 배경에 의한 것일 수도 있는바, 어느 것이든 이미지 내에서 주된 수평선으로 인식될 수 있는 것이어야 할 것이다. The device (100) detects a main horizontal line within an image, calculates the inclination of the detected horizontal line, and detects the degree of inclination of the image, which can be utilized in the third step described below. Here, the horizontal line may be due to a specific object, or may be due to a background located behind an object other than a specific object. Either one must be recognizable as the main horizontal line within the image.
한편, 이미지에 따라 수평선이 직접적으로 드러나지 않는 경우도 존재할 수있을 것인바, 이 경우, 장치(100)는 이미지 내에서 평행한 두 선을 탐지하고, 탐지한 두 평행선이 만나는 소실점을 산출함으로써 수평선을 탐지할 수 있으며, 이에 대한 기울기를 산출하여 이미지의 기울어진 정도를 탐지할 수도 있다. Meanwhile, there may be cases where the horizontal line is not directly visible depending on the image. In this case, the device (100) can detect the horizontal line by detecting two parallel lines in the image and calculating the vanishing point where the two detected parallel lines meet, and can also detect the degree of tilt of the image by calculating the inclination thereof.
더 나아가, 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법은 이미지가 실내 이미지인 경우, 제2-2 단계 이후에 탐지한 오브젝트의 대칭선을 탐지하여 이미지의 기울어진 정도를 탐지할 수 있는바(S320-2′), 이를 제2-2 ′단계라 하며, 탐지 결과를 제2-2 단계와 함께 후술할 제3 단계에서 활용할 수 있다. Furthermore, in a method for controlling a camera for autonomous high-quality video shooting according to a second embodiment of the present invention, if the image is an indoor image, the degree of inclination of the image can be detected by detecting a line of symmetry of an object detected after step 2-2 (S320-2′), which is referred to as step 2-2′, and the detection result can be utilized in step 3, which will be described later, together with step 2-2.
이미지의 기울어진 정도까지 탐지했다면, 장치(100)가 제2-1 단계의 탐지 결과와 제2-2 단계의 탐지 결과를 이용하여 상기 수신한 영상의 심미성을 평가한다(S320-3). If the degree of tilt of the image is detected, the device (100) evaluates the aesthetics of the received image using the detection results of step 2-1 and step 2-2 (S320-3).
여기서 제2-1 단계의 탐지 결과는 촬영하고자 하는 피사체의 중심을 화면의 중심에 두어야하는 항목에 관한 것이며, 제2-2 단계의 탐지 결과는 화면의 전체적인 수평이 균형감있게 맞춰져야 하는 항목에 관한 것이라고 했던바, 장치(100)는 이를 이용하여 영상의 심미성을 평가할 수 있다. Here, the detection result of step 2-1 is about the item that the center of the subject to be photographed must be placed at the center of the screen, and the detection result of step 2-2 is about the item that the entire horizontal line of the screen must be balanced. The device (100) can use this to evaluate the aesthetics of the image.
여기서 심미성의 평가는 복수 개의 카메라(200)가 촬영한 영상 각각에 대하여 개별적으로 이루어지는 것이며, 제2-1 탐지 결과 및 제2-2 탐지 결과를 이용한다 함은 영상의 심미성 평가에 있어서 화면의 구도를 평가한다는 의미이며, 장치(100)는 화면의 구도뿐만 아니라 기타 고품질 동영상이라고 평가하는데 활용될 수 있는 항목에 대한 평가, 예를 들어 영상의 화질에 대한 항목, 영상의 색감에 대한 항목, 영상의 역동성에 대한 항목 등과 같은 항목을 심미성 평가에 추가적으로 활용할 수 있다 할 것이다. Here, the evaluation of aesthetics is performed individually for each image captured by multiple cameras (200), and using the 2-1 detection result and the 2-2 detection result means that the composition of the screen is evaluated in evaluating the aesthetics of the image, and the device (100) can additionally utilize items that can be used to evaluate not only the composition of the screen but also other high-quality moving images, such as items on the image quality, items on the color tone of the image, and items on the dynamics of the image, in the aesthetics evaluation.
한편, 심미성 평가는 평가 결과가 일정한 수치로 산출될 수 있으며, 수치가 아니라 복수 개의 카메라(200)가 촬영한 영상 중, 심미성이 높은 순서만 평가 결과로 산출될 수도 있을 것이며, 이와 더불어 복수 개의 카메라(200)가 촬영한 영상 각각에 대한 심미성 평가 결과 중, 가장 높은 영상을 촬영한 카메라에 대한 정보, 제2-1 단계의 탐지 결과에 따른 이미지를 촬영한 카메라의 추천 촬영 위치에 대한 정보 및 제2-2 단계의 탐지 결과에 따른 이미지를 촬영한 카메라의 추천 촬영 각도에 대한 정보 중 어느 하나 이상을 포함할 수 있다. Meanwhile, the aesthetic evaluation may be calculated as a fixed numerical value as an evaluation result, and instead of a numerical value, only the order of high aesthetics among the images captured by the plurality of cameras (200) may be calculated as an evaluation result, and in addition, among the aesthetic evaluation results for each image captured by the plurality of cameras (200), information about the camera that captured the image with the highest aesthetic value, information about the recommended shooting position of the camera that captured the image according to the detection result of the 2-1 step, and information about the recommended shooting angle of the camera that captured the image according to the detection result of the 2-2 step may be included at least one of the following.
영상의 심미성까지 평가했다면, 마지막으로 장치(100)가 제2 단계의 심미성 평과 결과를 이용하여 오브젝트를 촬영하는 복수 개의 카메라(200)를 개별적으로 제어한다(S330). If the aesthetics of the image have been evaluated, the device (100) finally individually controls multiple cameras (200) that photograph the object using the aesthetic evaluation results of the second stage (S330).
복수 개의 카메라(200)에 대한 개별적인 제어는 제2 단계의 심미성 평가 결과를 이용하는 것이 우선적이며, 보다 구체적으로, 제2-1 단계의 탐지 결과에 따른 이미지를 촬영한 카메라의 추천 촬영 위치에 대한 정보 및 제2-2 단계의 탐지 결과에 따른 이미지를 촬영한 카메라의 추천 촬영 각도에 대한 정보를 모두 이용하는 것이 가장 바람직하다 할 것이고, 더 나아가, 제2-1′ 단계에서 산출한 카메라의 상대적인 위치에 대한 정보와 제2-2′ 단계에서 탐지한 대칭선에 따른 이미지의 기울어진 정도를 추가적으로 반영함으로써 카메라 제어에 정확도를 향상시킬 수도 있다 할 것이다. It is preferable to use the aesthetic evaluation results of the second stage for individual control of multiple cameras (200), and more specifically, it is most desirable to use both the information on the recommended shooting position of the camera that took the image according to the detection results of the second stage and the information on the recommended shooting angle of the camera that took the image according to the detection results of the second stage. Furthermore, it is possible to improve the accuracy of camera control by additionally reflecting the information on the relative positions of the cameras calculated in the second stage and the degree of inclination of the image according to the line of symmetry detected in the second stage.
이를 도 7에 예시적으로 도시한바, 카메라의 추천 촬영 위치에 대한 정보를 이용하여 해당 카메라의 촬영 위치를 변경함으로써 도 6에 예시적으로 도시한 종합 경계 박스의 중심이 이미지의 중심과 일치하게 됨을 확인할 수 있다. As illustrated in Fig. 7, by changing the shooting position of the camera using information about the recommended shooting position of the camera, it can be confirmed that the center of the comprehensive bounding box illustrated in Fig. 6 matches the center of the image.
한편, 장치(100)는 복수 개의 카메라(200)를 개별적으로 제어하기에 앞서 제2-1 단계의 탐지 결과에 따른 이미지를 촬영한 카메라의 추천 촬영 위치에 대한 정보에 따른 추천 경계 박스, 제2-2 단계의 탐지 결과에 따른 이미지를 촬영한 카메라의 추천 촬영 각도에 대한 정보에 따른 추천 수평선을 현재 상태의 경계 박스와 수평선과 구별하여 출력할 수 있으며, 카메라의 제어에 따라 현재의 경계 박스 및 수평선이 추천 경계 박스 및 추천 수평선과 일치하게 되는 경우 장치(100)의 사용자에게 최적의 고품질 동영상을 촬영하고 있다는 알림을 발송할 수 있다 할 것이다. Meanwhile, the device (100) can output a recommended bounding box based on information about a recommended shooting location of a camera that captured an image based on the detection result of step 2-1 before individually controlling a plurality of cameras (200), a recommended horizon based on information about a recommended shooting angle of a camera that captured an image based on the detection result of step 2-2, and can output the recommended horizon by distinguishing them from the current bounding box and horizon, and when the current bounding box and horizon coincide with the recommended bounding box and horizon according to the control of the camera, a notification can be sent to the user of the device (100) that an optimal high-quality video is being captured.
이와 별개로 장치(100)는 제3 단계에 따른 카메라 제어 결과, 보다 구체적으로 특정 오브젝트, 오브젝트간 상호작용 그리고 심미성 평가 결과에 따른 카메라 제어 결과를 지속적으로 학습하여 추후 동일하거나 유사한 오브젝트, 오브젝트간 상호작용, 심미성 평가 결과에 따른 카메라의 제어에 활용할 수 있을 것인바, 장치(100)의 사용에 따라 그 성능이 지속적으로 향상될 수 있을 것이다. Separately from this, the device (100) can continuously learn the camera control results according to the third step, more specifically, the camera control results according to specific objects, object-to-object interactions, and aesthetic evaluation results, and can utilize them for camera control according to the same or similar objects, object-to-object interactions, and aesthetic evaluation results in the future, so that the performance of the device (100) can continuously be improved depending on the use of the device (100).
지금까지 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법에 대하여 설명하였다. 본 발명에 따르면, 고품질 동영상 제작을 위해 높은 인건비를 부담해야 하는 전문 촬영 감독이나 촬영 기사를 전혀 고용하지 않고, 장치(100)에 대한 소정의 비용만을 부담하는 것만으로 고품질 동영상을 손쉽게 제작할 수 있다. 또한, 수동적 시각 지능과 같이 학습 대상이 된 전문가들의 촬영 방식을 학습하는 것이 아닌 화면의 구도에 초점을 맞춘 카메라 제어가 이루어지기 때문에 장치(100) 스스로 피사체를 기준으로 가장 효과적인 구도나 샷의 종류를 스스로 선정함으로써 이들 전문가들을 완벽하게 대체하는 대체재로서 동작할 수 있다. 더 나아가, 전문가들을 완벽하게 대체하여 이들에 대한 인건비를 절약할 수 있게 됨으로써 소규모 제작자들 역시 고품질 동영상을 부담없이 제작할 수 있도록 이바지할 수 있다. So far, a method for controlling a camera for autonomous high-quality video shooting according to the second embodiment of the present invention has been described. According to the present invention, high-quality videos can be easily produced by only paying a certain cost for the device (100) without hiring a professional cinematographer or cameraman who must bear high labor costs for high-quality video production. In addition, since the camera control is focused on the composition of the screen rather than learning the shooting methods of experts who are the subjects of learning, such as passive visual intelligence, the device (100) can act as a perfect substitute for these experts by selecting the most effective composition or type of shot based on the subject. Furthermore, since it is possible to save labor costs for experts by completely replacing them, it can contribute to small-scale producers being able to produce high-quality videos without burden.
한편, 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100)는 도 1과 같은 모습뿐만 아니라 도 8에 예시적으로 도시한 바와 같이 각각의 기능을 수행하는 기능적인 구성을 포함하는 장치(1000)로 나타낼 수도 있으며, 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100) 및 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법은 모든 기술적 특징을 동일하게 포함하는 본 발명의 제3 실시 예에 따른 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램으로 구현할 수도 있는바, 이 경우 컴퓨팅 장치와 결합하여, (AA) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 단계, (BB) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 단계 및 (CC) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 단계를 실행할 수 있을 것이며, 중복 서술을 위해 자세히 기재하지는 않았지만 본 발명의 제1 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치(100) 및 본 발명의 제2 실시 예에 따른 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법 에 적용된 모든 기술적 특징은 본 발명의 제3 실시 예에 따른 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램에 모두 동일하게 적용될 수 있음은 물론이라 할 것이다. Meanwhile, the device (100) for controlling a camera for autonomous high-quality video recording according to the first embodiment of the present invention may be represented as a device (1000) including a functional configuration that performs each function as exemplarily illustrated in FIG. 8 as well as the appearance as shown in FIG. 1, and the device (100) for controlling a camera for autonomous high-quality video recording according to the first embodiment of the present invention and the method for controlling a camera for autonomous high-quality video recording according to the second embodiment of the present invention may be implemented as a computer program stored on a computer-readable medium according to the third embodiment of the present invention that includes all the technical features equally, in this case, combined with a computing device, (AA) a first step of receiving images captured by a plurality of cameras, detecting an object included in the images, and performing at least one of alignment of images captured by the plurality of cameras, analysis of interaction between the objects, and tracking of the objects using the result of the object detection, (BB) detecting how much the detected object deviates from the center of the image in the frame unit included in the received image using the result of the first step, and calculating the tilt of the image. A second step of detecting the degree and evaluating the aesthetics of the received image, and (CC) a step of individually controlling a plurality of cameras that photograph the object using the aesthetics evaluation result of the second step, can be executed, and although not described in detail for the sake of redundancy, it should be understood that all technical features applied to the device (100) for controlling a camera for high-quality autonomous video shooting according to the first embodiment of the present invention and the method for controlling a camera for high-quality autonomous video shooting according to the second embodiment of the present invention can be equally applied to a computer program stored on a computer-readable medium according to the third embodiment of the present invention.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.Although the embodiments of the present invention have been described with reference to the attached drawings, those skilled in the art will understand that the present invention can be implemented in other specific forms without changing the technical idea or essential features thereof. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive.
10: 프로세서
20: 네트워크 인터페이스
30: 메모리
40: 스토리지
41: 컴퓨터 프로그램
50: 정보 버스
100: 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치
200: 카메라
300: 피사체, 오브젝트
N: 네트워크10: Processor
20: Network Interface
30: Memory
40: Storage
41: Computer Program
50: Information Bus
100: Device for controlling a camera for autonomous shooting of high-quality video
200: Camera
300: Subject, Object
N: Network
Claims (13)
(a) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 단계;
(b) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 단계; 및
(c) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 제3 단계;
를 포함하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.A method for controlling a camera for autonomous high-quality video shooting by a device including a processor and a memory,
(a) a first step of receiving images captured by a plurality of cameras, detecting an object included in the images, and using the object detection result, performing at least one of alignment of images captured by the plurality of cameras, analysis of interaction between the objects, and tracking of the objects;
(b) a second step of detecting how much the detected object deviates from the center of the frame unit image included in the received image using the result of the first step and detecting the degree of tilt of the image to evaluate the aesthetics of the received image; and
(c) a third step of individually controlling multiple cameras that photograph the object using the aesthetic evaluation results of the second step;
A method of controlling a camera for autonomous shooting of high-quality video, including:
상기 제1 단계는,
복수 개의 카메라가 촬영한 영상을 수신하는 제1-1 단계;
상기 수신한 영상이 포함하는 프레임 단위의 이미지에 오브젝트 탐지 알고리즘을 적용해 복수 개의 오브젝트를 탐지하는 제1-2 단계;
상기 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트를 기준으로 상기 복수 개의 카메라가 촬영한 영상을 정합하는 제1-3 단계;
상기 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트에 대한 정보 및 상기 복수 개의 카메라가 촬영한 영상의 정합에 대한 정보를 이용하여 상기 복수 개의 오브젝트 간 상호작용을 분석하는 제1-4 단계; 및
상기 프레임 단위의 이미지에서 탐지한 복수 개의 오브젝트의 위치를 상기 수신한 영상 내에서 추적하는 제1-5 단계;
중 어느 하나 이상을 포함하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In the first paragraph,
The above first step is,
Step 1-1: Receiving images captured by multiple cameras;
Step 1-2 of detecting multiple objects by applying an object detection algorithm to the frame unit images included in the received video;
Steps 1-3 of aligning images captured by the plurality of cameras based on the plurality of objects detected in the images of the above frame units;
Steps 1-4 of analyzing the interaction between the plurality of objects by using information about the plurality of objects detected in the image of the frame unit and information about the alignment of the images captured by the plurality of cameras; and
Steps 1-5 of tracking the positions of multiple objects detected in the image of the above frame unit within the received image;
A method of controlling a camera for autonomous high-quality video recording comprising one or more of:
상기 제1-2 단계에서의 오브젝트 탐지 알고리즘은,
YOLO(You Only Look Once) 알고리즘 및 CenterNet 알고리즘 중 어느 하나인,
고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In the second paragraph,
The object detection algorithm in steps 1 and 2 above is
Either YOLO (You Only Look Once) algorithm or CenterNet algorithm,
How to control the camera for high-quality autonomous video recording.
상기 제1-2 단계에서의 복수 개의 오브젝트 탐지는,
상기 탐지한 복수 개의 오브젝트 각각이 상기 이미지 내에서 위치하는 영역을 경계 박스(Object Bounding Box)로 출력하는 것인,
고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In the second paragraph,
Detection of multiple objects in the above steps 1-2 is
The area where each of the detected multiple objects is located within the image is output as a bounding box (Object Bounding Box).
How to control the camera for high-quality autonomous video recording.
상기 제1-4 단계에서의 복수 개의 오브젝트 간 상호작용은,
상기 복수 개의 오브젝트가 사람과 사물인 경우, 이들 사이의 상호작용 및 상기 복수 개의 오브젝트가 사람과 사람인 경우, 이들 사이의 상호작용 중 어느 하나 이상을 포함하는,
고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In the second paragraph,
The interaction between multiple objects in steps 1-4 above is
If the plurality of objects are people and things, at least one of the interactions between them and if the plurality of objects are people and people, the interactions between them are included.
How to control the camera for high-quality autonomous video recording.
상기 복수 개의 카메라가 촬영한 영상의 정합에 대한 정보, 상기 복수 개의 오브젝트 간 상호작용에 대한 정보 및 복수 개의 오브젝트의 위치 추적 정보 중 어느 하나 이상을 이용하여 상기 복수 개의 오브젝트 각각에 대한 향후 행동을 예측하는 제1-6 단계;
를 더 포함하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In the second paragraph,
Steps 1-6 of predicting future actions for each of the plurality of objects by using at least one of information on alignment of images captured by the plurality of cameras, information on interaction between the plurality of objects, and location tracking information of the plurality of objects;
A method of controlling a camera for autonomous shooting of high-quality video, including:
상기 제2 단계는,
상기 탐지한 오브젝트가 상기 이미지 내에서 위치하는 영역을 출력한 경계 박스의 중심이 상기 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하는 제2-1 단계;
상기 이미지 내에서 수평선을 탐지하고, 상기 탐지한 수평선의 기울기를 산출하여 상기 이미지의 기울어진 정도를 탐지하는 제2-2 단계; 및
상기 제2-1 단계의 탐지 결과와 제2-2 단계의 탐지 결과를 이용하여 상기 수신한 영상의 심미성을 평가하는 제2-3 단계;
중 어느 하나 이상을 포함하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In the first paragraph,
The second step above is,
Step 2-1 of detecting how much the center of the bounding box outputting the area where the detected object is located within the image deviates from the center of the image;
Step 2-2 of detecting a horizontal line within the image and calculating the inclination of the detected horizontal line to detect the degree of inclination of the image; and
Step 2-3 of evaluating the aesthetics of the received image using the detection results of Step 2-1 and Step 2-2;
A method of controlling a camera for autonomous high-quality video recording comprising one or more of:
상기 제2-1 단계 및 제2-2 단계 사이에,
상기 제2-1 단계의 탐지 결과에 따라 상기 이미지를 촬영한 카메라의 상대적인 위치를 산출하는 제2-1 ´단계;
를 더 포함하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In Article 7,
Between the above steps 2-1 and 2-2,
Step 2-1 ´ of calculating the relative position of the camera that captured the image based on the detection result of the above step 2-1;
A method of controlling a camera for autonomous shooting of high-quality video, including:
상기 제2-2 단계에서의 수평선의 탐지는,
상기 이미지 내에서 수평선이 탐지되지 않는 경우, 평행한 두 선을 탐지하고, 탐지한 두 평행선이 만나는 소실점을 산출하여 상기 수평선을 탐지하는 ,
고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In Article 7,
Detection of the horizon in the above step 2-2 is
If a horizontal line is not detected within the image above, two parallel lines are detected, and the vanishing point where the two detected parallel lines meet is calculated to detect the horizontal line.
How to control the camera for high-quality autonomous video recording.
상기 제2-2 단계와 제2-3 단계 사이에,
상기 이미지가 실내 이미지인 경우, 상기 탐지한 오브젝트의 대칭선을 탐지하여 상기 이미지의 기울어진 정도를 탐지하는 제2-2´ 단계;
를 더 포함하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법.In Article 7,
Between steps 2-2 and 2-3 above,
If the image above is an indoor image, a 2-2´ step of detecting the degree of tilt of the image by detecting the line of symmetry of the detected object;
A method of controlling a camera for autonomous shooting of high-quality video, including:
상기 제2-3 단계에서의 심미성 평가의 결과는,
상기 복수 개의 카메라가 촬영한 영상 각각에 대한 심미성 평가 결과, 상기 복수 개의 카메라가 촬영한 영상 각각에 대한 심미성 평가 결과 중, 가장 높은 영상을 촬영한 카메라에 대한 정보, 상기 제2-1 단계의 탐지 결과에 따른 상기 이미지를 촬영한 카메라의 추천 촬영 위치에 대한 정보 및 상기 제2-2 단계의 탐지 결과에 따른 상기 이미지를 촬영한 카메라의 추천 촬영 각도에 대한 정보 중 어느 하나 이상을 포함하는,
고품질 동영상 자율 촬영을 위해 카메라를 제어하는 방법. In Article 7,
The results of the aesthetic evaluation in steps 2-3 above are as follows:
Including at least one of the following: an aesthetic evaluation result for each image captured by the plurality of cameras, information about a camera that captured the image with the highest aesthetic evaluation result for each image captured by the plurality of cameras, information about a recommended shooting position of the camera that captured the image according to the detection result of the second step, and information about a recommended shooting angle of the camera that captured the image according to the detection result of the second step.
How to control the camera for high-quality autonomous video recording.
네트워크 인터페이스;
상기 프로세서에 의해 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리; 및
대용량 네트워크 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서에 의해,
(A) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 오퍼레이션;
(B) 상기 제1 오퍼레이션의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 오퍼레이션; 및
(C) 상기 제2 오퍼레이션의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 오퍼레이션;
을 실행하는 고품질 동영상 자율 촬영을 위해 카메라를 제어하는 장치. One or more processors;
network interface;
A memory that loads a computer program to be executed by the processor; and
Including storage for storing large amounts of network data and the computer program,
The above computer program is executed by one or more processors,
(A) A first operation of receiving images captured by a plurality of cameras, detecting an object included in the images, and using the object detection result, performing at least one of matching images captured by the plurality of cameras, analyzing interaction between the objects, and tracking the objects;
(B) a second operation that detects how much the detected object deviates from the center of the frame unit image included in the received image by using the result of the first operation and detects the degree of tilt of the image to evaluate the aesthetics of the received image; and
(C) An operation for individually controlling multiple cameras that photograph the object using the aesthetic evaluation results of the second operation;
A device that controls a camera for autonomous shooting of high-quality videos.
(AA) 복수 개의 카메라가 촬영한 영상을 수신하여 상기 영상이 포함하는 오브젝트(Object)를 탐지하고, 상기 오브젝트 탐지 결과를 이용하여 상기 복수 개의 카메라가 촬영한 영상의 정합, 상기 오브젝트 간 상호작용의 분석 및 상기 오브젝트의 추적 중 어느 하나 이상을 수행하는 제1 단계;
(BB) 상기 제1 단계의 수행 결과를 이용하여 상기 탐지한 오브젝트가 상기 수신한 영상이 포함하는 프레임 단위의 이미지의 중심으로부터 얼마나 벗어나 있는지 탐지하고, 상기 이미지의 기울어진 정도를 탐지하여 상기 수신한 영상의 심미성을 평가하는 제2 단계; 및
(CC) 상기 제2 단계의 심미성 평과 결과를 이용하여 상기 오브젝트를 촬영하는 복수 개의 카메라를 개별적으로 제어하는 단계;
를 실행하는 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램. In combination with a computing device,
(AA) A first step of receiving images captured by a plurality of cameras, detecting an object included in the images, and using the object detection result, performing at least one of alignment of images captured by the plurality of cameras, analysis of interaction between the objects, and tracking of the objects;
(BB) A second step of detecting how much the detected object deviates from the center of the image of the frame unit included in the received image by using the result of the execution of the first step, and detecting the degree of tilt of the image to evaluate the aesthetics of the received image; and
(CC) A step of individually controlling multiple cameras that photograph the object using the aesthetic evaluation results of the second step;
A computer program stored on a computer-readable medium that executes the program.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR20220004578 | 2022-01-12 | ||
| KR1020220004578 | 2022-01-12 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20230109113A KR20230109113A (en) | 2023-07-19 |
| KR102835608B1 true KR102835608B1 (en) | 2025-07-22 |
Family
ID=87425740
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020230004166A Active KR102835608B1 (en) | 2022-01-12 | 2023-01-11 | Method for controlling camera for high quality video self-portrait and apparatus for same |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102835608B1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007306464A (en) | 2006-05-15 | 2007-11-22 | Fujifilm Corp | Imaging control method, apparatus, and program |
| KR101982751B1 (en) | 2018-12-27 | 2019-05-27 | 주식회사 월드씨엔에스 | Video surveillance device with motion path tracking technology using multi camera |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20180016187A (en) * | 2016-08-05 | 2018-02-14 | 한국전자통신연구원 | Multiple image analysis method for aligning multiple camera, and image analysis display apparatus |
| KR20200000104A (en) | 2018-06-22 | 2020-01-02 | (주) 에셀티 | Autonomous photographing apparatus |
-
2023
- 2023-01-11 KR KR1020230004166A patent/KR102835608B1/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007306464A (en) | 2006-05-15 | 2007-11-22 | Fujifilm Corp | Imaging control method, apparatus, and program |
| KR101982751B1 (en) | 2018-12-27 | 2019-05-27 | 주식회사 월드씨엔에스 | Video surveillance device with motion path tracking technology using multi camera |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20230109113A (en) | 2023-07-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9210319B2 (en) | Method and system for capturing important objects using a camera based on predefined metrics | |
| US10580453B1 (en) | Cataloging video and creating video summaries | |
| Lai et al. | Semantic-driven generation of hyperlapse from 360 degree video | |
| US20180192146A1 (en) | Method and Apparatus for Playing Video Content From Any Location and Any Time | |
| US9324374B2 (en) | Method and system for automatic generation of clips from a plurality of images based on an inter-objects relationship score | |
| US10812686B2 (en) | Method and system for mimicking human camera operation | |
| US20160080835A1 (en) | Synopsis video creation based on video metadata | |
| US9363431B2 (en) | Method and system for capturing important objects using a camera based on predefined metrics | |
| US20160071549A1 (en) | Synopsis video creation based on relevance score | |
| US20160088286A1 (en) | Method and system for an automatic sensing, analysis, composition and direction of a 3d space, scene, object, and equipment | |
| Huang et al. | Learning to capture a film-look video with a camera drone | |
| US20140152875A1 (en) | Guided video wizard for item video listing | |
| US10084970B2 (en) | System and method for automatically generating split screen for a video of a dynamic scene | |
| US10083618B2 (en) | System and method for crowd sourced multi-media lecture capture, sharing and playback | |
| US11818467B2 (en) | Systems and methods for framing videos | |
| CN115623313B (en) | Image processing method, image processing device, electronic device, and storage medium | |
| US10250803B2 (en) | Video generating system and method thereof | |
| Bano et al. | ViComp: composition of user-generated videos | |
| KR102835608B1 (en) | Method for controlling camera for high quality video self-portrait and apparatus for same | |
| CN115917647B (en) | Automatic non-linear editing style transfer | |
| JP6820489B2 (en) | Image processing device and image processing program | |
| JP2019071047A (en) | Method, system and device for selecting frame of video sequence | |
| JP6875646B2 (en) | Image processing device and image processing program | |
| JP4606278B2 (en) | Video structuring method, apparatus and program | |
| US12299959B2 (en) | Method and electronic device for detecting candid moment in image frame |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| D13-X000 | Search requested |
St.27 status event code: A-1-2-D10-D13-srh-X000 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |