[go: up one dir, main page]

KR20240139282A - Method and apparatus for generating face harmonization image based on feature fusion for visitor experiential exhibition - Google Patents

Method and apparatus for generating face harmonization image based on feature fusion for visitor experiential exhibition Download PDF

Info

Publication number
KR20240139282A
KR20240139282A KR1020230033095A KR20230033095A KR20240139282A KR 20240139282 A KR20240139282 A KR 20240139282A KR 1020230033095 A KR1020230033095 A KR 1020230033095A KR 20230033095 A KR20230033095 A KR 20230033095A KR 20240139282 A KR20240139282 A KR 20240139282A
Authority
KR
South Korea
Prior art keywords
fusion
facial
image
face
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
KR1020230033095A
Other languages
Korean (ko)
Inventor
이주원
유정재
김재환
유원영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020230033095A priority Critical patent/KR20240139282A/en
Publication of KR20240139282A publication Critical patent/KR20240139282A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/35Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)

Abstract

본 발명의 실시 예는 관람객 체험 전시를 위한 융합영상 생성방법에 있어서, 입력영상의 얼굴 주요 특징점에 기초하여 얼굴신원 특징을 추출하는 단계, 융합대상영상의 얼굴속성 특징을 획득하는 단계, 상기 융합대상얼굴의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징을 융합하여 융합특징을 획득하는 단계, 상기 융합특징에 기초하여 융합영상을 생성하는 단계 및 상기 융합영상을 상기 융합대상영상의 얼굴 좌표계로 변환시켜 스타일 융합 영상을 생성하는 단계를 포함하는, 스타일 융합 영상 생성방법 및 장치를 개시한다.An embodiment of the present invention discloses a method and device for generating a style fusion image for an experiential exhibition for visitors, the method including the steps of extracting facial identity features based on facial key features of an input image, obtaining facial attribute features of a fusion target image, obtaining fusion features by fusion of the facial attribute features of the fusion target face and the facial identity features of the input image, generating a fusion image based on the fusion features, and generating a style fusion image by converting the fusion image into a facial coordinate system of the fusion target image.

Description

관람객 체험 전시를 위한 특징융합 기반 얼굴 융합영상 생성장치 및 방법{METHOD AND APPARATUS FOR GENERATING FACE HARMONIZATION IMAGE BASED ON FEATURE FUSION FOR VISITOR EXPERIENTIAL EXHIBITION}{METHOD AND APPARATUS FOR GENERATING FACE HARMONIZATION IMAGE BASED ON FEATURE FUSION FOR VISITOR EXPERIENTIAL EXHIBITION}

본 발명은 관람객 체험 전시를 위해 입력영상의 얼굴과 전시된 타겟영상의 타겟 인물 얼굴로부터 특징을 추출한 후, 두 특징을 융합한 특징으로부터 얼굴을 융합 생성시키는 방법에 관한 것이다.The present invention relates to a method for extracting features from a face of an input image and a target person's face of an exhibited target image for a visitor experience exhibition, and then generating a fused face from features obtained by fusing the two features.

흔히, 입력영상(실사영상) 전체에 타겟영상(회화영상)의 텍스쳐, 색감 등 화풍을 적용시키는 것을 스타일 전이(Style Transfer)라고 한다. 이와 달리, 입력 실사 영상 내의 일부 관심 영역(Region of Interest)을 타겟 영상에 합성시키고, 타겟 영상의 텍스쳐, 색감 등과 이질감이 없도록 조정하는 것을 융합 생성이라고 한다. 보다 세부적으로, 이때 타겟영상이 실사영상일 경우 영상융합(Image Harmonization), 타겟영상이 회화영상일 경우 스타일 융합(Style Harmonization)으로 구분한다. Often, applying the texture, color, and other painting styles of the target image (painting) to the entire input image (real-life image) is called Style Transfer. In contrast, synthesizing a portion of the region of interest (Region of Interest) in the input real-life image to the target image and adjusting the texture, color, etc. of the target image so that there is no sense of incongruity is called Fusion Generation. More specifically, when the target image is a real-life image, it is called Image Harmonization, and when the target image is a painting, it is called Style Harmonization.

종래 기술은 입력 실사 영상 내의 얼굴을 타겟 회화 영상 속 인물로 융합시키는 얼굴 스타일 융합 생성에서, 기존 기술들은 얼굴 주요 특징점 (Facial Landmark) 기반 얼굴 교체와 스타일 전이를 결합한 형태로 얼굴을 융합 생성시킨다. 하지만, 얼굴 교체 과정에서 얼굴 경계면에 아티팩트 (artifact)가 발생하고, 특히 두 얼굴 간의 얼굴 자세(Pose) 차이가 클 경우 이러한 아티팩트 문제가 심화되었다. In the conventional technology, in the face style fusion generation that fuses a face in an input real-life image with a person in a target conversation image, the existing technologies fuse faces by combining face replacement and style transfer based on facial landmarks. However, in the face replacement process, artifacts occur at the face boundary, and especially when the difference in facial pose between the two faces is large, this artifact problem is aggravated.

또한 얼굴 주요 특징점 검출 오차가 있을 경우, 융합 생성 결과 품질이 저하되었으며, 타겟 회화 영상 내 얼굴 크기가 작을 경우, 융합 결과 영상에 텍스쳐, 색감 등의 스타일을 잘 반영하지 못해 융합 품질이 저하되는 문제가 여전히 존재하였다. In addition, when there is an error in detecting the main facial features, the quality of the fusion generation result is degraded, and when the size of the face in the target conversation image is small, there is still a problem that the fusion result image does not reflect the style, such as texture and color, well, resulting in a deterioration in the fusion quality.

본 발명은 미술관 등 예술작품 전시장에서 관람객 체험 전시를 위해, 얼굴영역의 경계면 아티팩트 문제를 해결하고, 얼굴영역 랜드마크 검출 오차 및 영상 내 얼굴 크기 변화에 강인한 특징 융합 기반 얼굴영역 스타일 융합 생성 방법을 제공하는데 그 목적이 있다.The purpose of the present invention is to provide a method for generating face style fusion based on feature fusion that is robust to facial area landmark detection errors and changes in face size within an image and to solve the problem of facial area boundary artifacts for exhibition experiential display by visitors in art exhibition halls such as art galleries.

본 발명의 실시예는, 관람객 체험 전시를 위한 융합영상 생성방법에 있어서, (a)입력영상의 얼굴 주요 특징점에 기초하여 얼굴신원 특징을 추출하는 단계, (b)융합대상영상의 얼굴속성 특징을 획득하는 단계, (c)상기 융합대상얼굴의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징을 융합하여 융합특징을 획득하는 단계, (d)상기 융합특징에 기초하여 융합얼굴영상을 생성하는 단계 및 (e)상기 융합얼굴영상을 상기 융합대상영상의 얼굴 좌표계로 변환시켜 스타일 융합 영상을 생성하는 단계를 포함하는, 스타일 융합 영상 생성방법 및 장치를 개시한다. An embodiment of the present invention discloses a method and device for generating a style fusion image for an experiential exhibition for visitors, the method including: (a) extracting facial identity features based on facial key features of an input image, (b) obtaining facial attribute features of a fusion target image, (c) obtaining fusion features by fusion of the facial attribute features of the fusion target face and the facial identity features of the input image, (d) generating a fusion face image based on the fusion features, and (e) generating a style fusion image by converting the fusion face image into a facial coordinate system of the fusion target image.

또한, 상기 (b)단계는, 상기 융합대상영상의 얼굴 주요 특징점을 추출하는 단계, 상기 추출한 얼굴 주요 특징점에 기초하여 얼굴 정렬을 수행하는 단계 및 정렬한 얼굴에 기초하여 얼굴속성 특징을 획득하는 단계를 포함할 수 있다. In addition, the step (b) may include a step of extracting facial key features of the fusion target image, a step of performing face alignment based on the extracted facial key features, and a step of obtaining facial attribute features based on the aligned face.

또한, 상기 얼굴 정렬을 수행하는 단계는, 융합대상영상의 얼굴 주요 특징점을 기반으로 미리 정의된 얼굴 정규 좌표에 기초하여, 얼굴 정렬을 수행하는 단계를 포함할 수 있다. In addition, the step of performing the face alignment may include a step of performing the face alignment based on predefined facial normal coordinates based on facial key feature points of the fusion target image.

또한, 상기 (a) 단계는, 상기 입력영상의 얼굴 주요 특징점을 미리 정의된 얼굴 정규 좌표에 기초하여 얼굴 정렬을 수행하는 단계를 더 포함할 수 있다. In addition, the step (a) may further include a step of performing face alignment of facial key feature points of the input image based on predefined facial normal coordinates.

또한, 상기 얼굴신원 특징은, 상기 입력영상의 이목구비 특징을 의미할 수 있다. Additionally, the facial identification features may refer to facial features of the input image.

또한, 상기 얼굴신원 특징은, 상기 융합대상영상의 얼굴신원 특징의 채널별 통계적 특성에 기초하여 조정될 수 있다. Additionally, the facial identity features can be adjusted based on the channel-by-channel statistical characteristics of the facial identity features of the fusion target image.

또한, 얼굴속성 특징은, 상기 융합대상얼굴의 얼굴의 자세, 표정, 조명, 배경 및 기타 객체 정보 중 적어도 하나를 포함할 수 있다.Additionally, the facial attribute features may include at least one of facial pose, expression, lighting, background, and other object information of the fusion target face.

또한, 상기 (c) 단계는, 영상보간을 이용하여 상기 얼굴속성 특징 및 상기 얼굴신원 특징의 공간 해상도(Spatial Resolution)를 일치시키는 단계 및 상기 융합대상영상의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징의 공간 해상도에 존재하는 픽셀 각각의 합 또는 곱한 값을 상기 픽셀 각각에 할당함으로써 융합특징을 획득하는 단계를 포함할 수 있다.In addition, the step (c) may include a step of matching the spatial resolution of the facial attribute features and the facial identity features using image interpolation, and a step of obtaining a fused feature by assigning to each pixel a value obtained by summing or multiplying each pixel existing in the spatial resolution of the facial attribute features of the fused target image and the facial identity features of the input image.

또한, 상기 (d) 단계는, 상기 융합특징이 얼굴생성모델에 입력되면, 융합얼굴영상을 생성하는 단계를 포함하고, 상기 얼굴생성모델은 훈련시, 생성기를 이용하여 상기 융합특징으로부터 상기 융합얼굴영상을 생성시키도록 훈련되고, 식별기를 이용하여 상기 융합대상영상의 얼굴과 생성된 상기 융합얼굴영상을 구별하도록 훈련된 모델을 포함할 수 있다. In addition, the step (d) may include a step of generating a fused face image when the fused feature is input to a face generation model, and the face generation model may include a model trained to generate the fused face image from the fused feature using a generator during training, and trained to distinguish the face of the fused target image from the generated fused face image using a discriminator.

또한, 상기 (e) 단계는, 가우시안 마스크를 이용하여 상기 융합얼굴영상과 상기 융합대상영상 내 얼굴을 합성하여 경계면에 존재하는 아티팩트(Artifact)를 완화시키는 단계를 더 포함할 수 있다.In addition, the step (e) may further include a step of synthesizing the fused face image and the face in the fused target image using a Gaussian mask to alleviate an artifact existing at the boundary.

본 발명의 실시 예에 따르면, 종래 기술과 같이 얼굴영역 교체 후 스타일 융합을 하는 대신, 두 얼굴영역에서 추출된 특징을 융합한 뒤 융합된 특징으로부터 새로운 얼굴영역을 생성함으로써, 얼굴 자세 차이나 얼굴 주요 특징점 오차, 융합 대상 영상 내 얼굴영역의 크기 등에 강인한 스타일 융합 기술을 제공할 수 있다.According to an embodiment of the present invention, instead of performing style fusion after replacing face regions as in the prior art, by fusion of features extracted from two face regions and then generating a new face region from the fused features, a style fusion technology that is robust to differences in facial poses, errors in major facial feature points, and the size of the face region in the fusion target image can be provided.

또한, 결과 영상 내 얼굴영역의 선예도가 높아 융합 품질을 개선시킬 수 있다.Additionally, the sharpness of the facial area in the resulting image can improve the fusion quality.

본 발명의 실시 예에 따르면, 미술관 등 예술작품 전시장에서 관람객의 얼굴이 예술작품 속 인물에 융합되는 체험 전시가 가능하여, 제공 콘텐츠 품질 제고, 관람객 만족도 향상, 차별화된 콘텐츠 제공 등이 가능하다. According to an embodiment of the present invention, an experiential exhibition in which the face of a viewer is fused with a character in a work of art is possible in an art exhibition hall such as an art museum, thereby improving the quality of content provided, enhancing viewer satisfaction, and providing differentiated content.

도 1은 본 발명의 일 실시 예에 따른 컴퓨팅 장치(100)를 나타낸다.
도 2는 본 발명의 실시 예에 따른, 융합영상 생성을 위한 융합대상영상의 전처리 과정을 나타낸 것이다.
도 3은 본 발명의 실시 예에 따른, 관람객 체험 전시를 위한 얼굴 스타일 융합영상 생성과정을 나타낸 블록도이다.
도 4는 본 발명의 실시 예에 따른 융합대상영상의 얼굴 주요 특징점을 추출한 예시를 나타낸 것이다.
도 5는 본 발명의 실시예에 따른 얼굴 정렬 예시를 나타낸 것이다.
도 6은 본 발명의 실시 예에 따른 융합특징 획득 방법을 나타낸 것이다.
도 7은 본 발명의 실시 예에 따른 얼굴생성모델을 학습하는 과정을 나타낸 것이다.
도 8은 본 발명의 실시 예에 따른 융합얼굴영상의 선예도를 개선시키는 과정을 나타낸 예시이다.
도 9는 본 발명의 실시 예에 따른 융합영상 생성과정을 나타낸 예이다.
도 10은 본 발명의 실시 예에 따른 아티팩트 완화 과정을 나타낸 것이다.
Figure 1 illustrates a computing device (100) according to one embodiment of the present invention.
Figure 2 illustrates a preprocessing process of a fusion target image for generating a fusion image according to an embodiment of the present invention.
FIG. 3 is a block diagram showing a process for generating a facial style fusion image for a viewer experience exhibition according to an embodiment of the present invention.
FIG. 4 illustrates an example of extracting key facial features of a fusion target image according to an embodiment of the present invention.
Figure 5 illustrates an example of face alignment according to an embodiment of the present invention.
Figure 6 illustrates a method for obtaining fusion features according to an embodiment of the present invention.
Figure 7 illustrates a process of learning a face generation model according to an embodiment of the present invention.
FIG. 8 is an example showing a process for improving the sharpness of a fused facial image according to an embodiment of the present invention.
Figure 9 is an example showing a fusion image generation process according to an embodiment of the present invention.
Figure 10 illustrates an artifact mitigation process according to an embodiment of the present invention.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The technology described below can have various modifications and various embodiments, and specific embodiments are illustrated in the drawings and described in detail. However, this is not intended to limit the technology described below to specific embodiments, and it should be understood that all modifications, equivalents, or substitutes included in the spirit and scope of the technology described below are included.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.Throughout the specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected" but also the case where it is "electrically connected" with another element in between.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Although the terms first, second, A, B, etc. may be used to describe various components, these components are not limited by these terms, and are only used to distinguish one component from another. For example, without departing from the scope of the technology described below, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component. The term and/or includes any combination of a plurality of related described items or any item among a plurality of related described items.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.As used herein, the singular expressions should be construed to include the plural expressions unless the context clearly dictates otherwise, and the term "comprises" and the like should be understood to mean the presence of a described feature, number, step, operation, component, part, or combination thereof, but not to exclude the presence or addition of one or more other features, numbers, steps, operations, components, parts, or combinations thereof.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.Before going into a detailed description of the drawings, it should be made clear that the division of components in this specification is only a division based on the main function of each component. In other words, two or more components to be described below may be combined into one component, or one component may be divided into two or more components with more detailed functions. In addition to its own main function, each component to be described below may additionally perform some or all of the functions of other components, and of course, some of the main functions of each component may be exclusively performed by other components.

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.In addition, in performing a method or method of operation, each process constituting the method may occur in a different order from the stated order unless the context clearly states a specific order. That is, each process may occur in the same order as the stated order, may be performed substantially simultaneously, or may be performed in the opposite order.

이하 컴퓨팅 장치(100)가 본 발명의 실시예에 따른 동작을 수행한다고 설명한다. 컴퓨팅 장치(100)는 입력된 데이터를 일정하게 처리하고 특정 모델이나 알고리즘에 따라 필요한 연산을 수행하는 장치이다. 예컨대, 컴퓨팅 장치는 PC, 네트워크상의 서버, 스마트기기, 설계 프로그램이 임베딩된 칩셋 등과 같은 형태로 구현될 수 있다.Hereinafter, it is described that a computing device (100) performs an operation according to an embodiment of the present invention. The computing device (100) is a device that processes input data consistently and performs necessary operations according to a specific model or algorithm. For example, the computing device may be implemented in the form of a PC, a server on a network, a smart device, a chipset with a design program embedded therein, etc.

도 1은 본 발명의 일 실시 예에 따른 컴퓨팅 장치(100)를 나타낸다.Figure 1 illustrates a computing device (100) according to one embodiment of the present invention.

도 1은 본 개시의 일 실시예와 관련된 컴퓨팅 장치의 블록 구성도를 도시한다. 도 1에 도시된 컴퓨팅 장치(100)의 컴포넌트들은 예시적인 것이다. 도 1에 도시된 컴포넌트 중 일부만이 컴퓨팅 장치(100)를 구성할 수도 있으며, 도 1에 도시된 컴포넌트 이외에 추가적인 컴포넌트(들)가 상기 컴퓨팅 장치(100)에 포함될 수도 있다.FIG. 1 illustrates a block diagram of a computing device related to one embodiment of the present disclosure. The components of the computing device (100) illustrated in FIG. 1 are exemplary. Only some of the components illustrated in FIG. 1 may constitute the computing device (100), and additional component(s) other than the components illustrated in FIG. 1 may be included in the computing device (100).

도 1에 도시된 바와 같이, 컴퓨팅 장치(100)는 프로세서(110), 메모리(120), 통신부(130), 입력부(140) 및 디스플레이(150)를 포함할 수 있다.As illustrated in FIG. 1, the computing device (100) may include a processor (110), a memory (120), a communication unit (130), an input unit (140), and a display (150).

실시예에 따라, 컴퓨팅 장치(100)는 입력부(140)는 입력 영상을 획득하기 위한 카메라를 구비할 수 있으며, 융합영상을 출력하기 위한 디스플레이(150)를 포함할 수도 있다.According to an embodiment, the computing device (100) may include an input unit (140) equipped with a camera for obtaining an input image and may also include a display (150) for outputting a fused image.

통신부(130)는 유무선 통신 기술을 이용하여 다른 전자장치나 서버 등의 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 통신부(130)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다.The communication unit (130) can transmit and receive data with external devices such as other electronic devices or servers using wired or wireless communication technology. For example, the communication unit (130) can transmit and receive sensor information, user input, learning models, control signals, etc. with external devices.

메모리(120)는 컴퓨팅 장치(100)의 다양한 기능을 지원하는 데이터를 저장할 수 있다.The memory (120) can store data that supports various functions of the computing device (100).

프로세서(110)는 컴퓨팅 장치(100)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고, 프로세서(110)는 컴퓨팅 장치(100)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다.The processor (110) can determine at least one executable operation of the computing device (100). Then, the processor (110) can control components of the computing device (100) to perform the determined operation.

이를 위해, 프로세서(110)는 메모리(120)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 컴퓨팅 장치(100)의 구성 요소들을 제어할 수 있다.To this end, the processor (110) may request, retrieve, receive or utilize data from the memory (120) and control components of the computing device (100) to execute at least one of the executable operations, either a predicted operation or an operation determined to be desirable.

이때, 프로세서(110)는 결정된 동작을 수행하기 위하여 외부 장치의 연계가 필요한 경우, 해당 외부 장치를 제어하기 위한 제어 신호를 생성하고, 생성한 제어 신호를 해당 외부 장치에 전송할 수 있다.At this time, if linkage of an external device is required to perform a determined operation, the processor (110) can generate a control signal for controlling the external device and transmit the generated control signal to the external device.

프로세서(110)는 메모리(120)에 저장된 응용 프로그램을 구동하기 위하여, 컴퓨팅 장치(100)의 구성 요소들 중 적어도 일부 또는 구성요소들의 조합을 제어할 수 있다.The processor (110) can control at least some or a combination of components of the computing device (100) to run an application program stored in the memory (120).

본 발명의 일 실시예에 따른 컴퓨팅 장치(100)는 무선 및/또는 유선을 통한 상호 연결을 통해 데이터를 전송할 수 있고, 그리고 수신할 수 있다. 본 개시의 컴퓨팅 장치는 전자 형태의 데이터를 연산할 수 있는 모든 종류의 컴퓨팅 장치를 포함할 수 있다.A computing device (100) according to one embodiment of the present invention can transmit and receive data through wireless and/or wired interconnection. The computing device of the present disclosure can include any type of computing device capable of computing data in electronic form.

예를 들어, TV, 프로젝터, 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 라디오, 세탁기, 냉장고, 데스크탑 컴퓨터, 디지털 사이니지, 로봇, 차량 등과 같은, 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다.For example, it can be implemented as a fixed device or a movable device, such as a TV, a projector, a mobile phone, a smart phone, a desktop computer, a laptop, a digital broadcasting terminal, a PDA (personal digital assistant), a PMP (portable multimedia player), a navigation device, a tablet PC, a wearable device, a set-top box (STB), a DMB receiver, a radio, a washing machine, a refrigerator, a desktop computer, digital signage, a robot, a vehicle, etc.

이하 본 발명의 실시 예는 입력영상 내의 얼굴을 타겟영상 속 인물로 융합시키는 얼굴 스타일 융합 생성기능을 제공하는 컴퓨팅 장치(100)에 의해 수행되는 것으로 이해되어야 하며, 관람객 체험 전시를 위한 컴퓨팅 장치 또는 얼굴영역 스타일융합 생성장치 등으로 명명될 수 있을 것이다.It should be understood that the following embodiments of the present invention are performed by a computing device (100) that provides a face style fusion generation function that fuses a face in an input image with a person in a target image, and may be named a computing device for an exhibition for viewers to experience, or a face area style fusion generation device.

이하 본 발명의 용어정의는 아래와 같다.The following are definitions of terms used in the present invention.

입력영상은 융합하고자 하는 인물의 이미지를 의미할 수 있으며 실사영상을 의미할 수 있다. 예를 들어, 관람객 체험전시를 위한 실시예에서 관람객 이미지를 포함할 수 있다. 입력영상의 얼굴영역은 관람객 이미지에서 관람객의 얼굴영역을 의미할 수 있다. The input image may refer to an image of a person to be fused, and may refer to a real-life image. For example, in an embodiment for a visitor experience exhibition, it may include an image of a visitor. The face area of the input image may refer to the face area of the visitor in the visitor image.

융합대상영상은 입력영상 속 인물의 얼굴을 융합시키기 위한 타겟영상을 의미하며, 본 실시예에서는 인물이 포함된 타겟회화 영상으로 주로 전시회 등에 전시된 회화 작품 이미지 데이터를 의미할 수 있다. The fusion target image refers to a target image for fusion of the face of a person in an input image, and in this embodiment, it can refer to a target conversation image including a person, which is mainly image data of a conversation work exhibited at an exhibition, etc.

융합특징은 융합대상얼굴의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징을 융합하여 생성된 특징텐서로서, 얼굴생성모델을 통하여 융합얼굴영상으로 변환될 수 있다. The fusion feature is a feature tensor generated by fusing the facial attribute features of the fusion target face and the facial identity features of the input image, and can be converted into a fused facial image through a face generation model.

융합영상은 상기 입력영상과 상기 융합대상영상의 스타일융합 결과이미지를 의미할 수 있다.A fused image may refer to an image resulting from style fusion of the input image and the fused target image.

융합대상영상의 전처리 과정은 상기 입력영상과 융합대상영상의 스타일융합영상 생성을 위한 데이터 전처리 과정을 의미할 수 있다. The preprocessing process of the fusion target image may refer to a data preprocessing process for creating a style fusion image of the input image and the fusion target image.

이하 본 발명의 실시 예에 따라, 융합대상영상의 전처리 과정 및 융합영상생성 과정을 설명한다.Below, according to an embodiment of the present invention, a preprocessing process of a fusion target image and a fusion image generation process are described.

도 2는 본 발명의 실시 예에 따른, 융합 이미지 생성을 위한 융합 대상 영상의 전처리 과정을 나타낸 것이다.FIG. 2 illustrates a preprocessing process of a fusion target image for generating a fusion image according to an embodiment of the present invention.

본 발명의 실시 예에 따르면, 컴퓨팅 장치의 프로세서는, 융합대상영상에 대해 얼굴 주요 특징점을 추출하고(S210), 추출한 얼굴 주요 특징점에 기초하여 얼굴 정렬을 수행하고(S220), 정렬한 얼굴에 기초하여 얼굴 속성 특징을 추출(S230)할 수 있다. According to an embodiment of the present invention, a processor of a computing device can extract facial key features for a fusion target image (S210), perform face alignment based on the extracted facial key features (S220), and extract facial attribute features based on the aligned face (S230).

구체적으로, 융합대상영상에 대한 얼굴 주요 특징점 추출(S210)은 얼굴특징점 추출기(Facial Landmark Detector)를 이용하여 얼굴의 주요 특징점을 자동으로 추출할 수 있다. Specifically, facial key feature point extraction (S210) for the fusion target image can automatically extract facial key feature points using a facial landmark detector.

한편, 본 발명의 실시예에서 사용되는 얼굴 주요 특징점 추출기는 종래 기술인 One Millisecond Face Alignment with an Ensemble of Regression Trees (Vahid Kazemi and Josephine Sullivan, CVPR 2014), SAN (Style Aggregated Network for Facial Landmark Detection, CVPR 2018)이 사용될 수 있다. Meanwhile, as a facial key feature extractor used in an embodiment of the present invention, conventional technologies such as One Millisecond Face Alignment with an Ensemble of Regression Trees (Vahid Kazemi and Josephine Sullivan, CVPR 2014) and SAN (Style Aggregated Network for Facial Landmark Detection, CVPR 2018) can be used.

도 4는 본 발명의 실시 예에 따른 융합대상영상의 얼굴 주요 특징점을 추출한 예시를 나타낸 것이다. FIG. 4 illustrates an example of extracting key facial features of a fusion target image according to an embodiment of the present invention.

예를 들어, 도 4의 (a)는 융합대상영상을 나타내고, 도 4의 (b)에서 얼굴 주요 특징점을 추출한 결과의 예를 확인할 수 있다. 도 4의 (b)를 참조하면 얼굴 주요 특징점이 복수개의 포인트(point)로 출력됨을 알 수 있다. For example, Fig. 4 (a) shows a fusion target image, and Fig. 4 (b) shows an example of the result of extracting facial key features. Referring to Fig. 4 (b), it can be seen that facial key features are output as multiple points.

상기 복수개의 포인트 각각은 추후 얼굴 정렬 시, 미리 정의된 얼굴 정규 좌표와 매핑될 수 있다. Each of the above multiple points can be mapped to predefined face normal coordinates during later face alignment.

다시 도 3을 설명한다.Let's explain Figure 3 again.

본 발명의 실시 예에 따르면, 융합대상영상에 대한 얼굴 주요 특징점 추출 결과가 부정확한 경우, 사용자 입력에 기초하여 특징점 추출 결과를 보정할 수 있다. 예를 들어, 엔지니어는 융합대상영상에 대한 얼굴 주요 특징점 추출 평가 지표가 미리 정해진 값보다 작은 경우, 사용자 융합대상영상에 대한 사용자 입력을 통해 얼굴 주요 특징점을 보정할 수 있다. According to an embodiment of the present invention, if the result of facial key feature extraction for a fusion target image is inaccurate, the result of feature point extraction can be corrected based on user input. For example, if the evaluation index of facial key feature extraction for a fusion target image is smaller than a predetermined value, the engineer can correct the facial key feature through user input for the user fusion target image.

본 발명의 실시 예에 따른 프로세서는, 추출된 융합대상영상의 얼굴 주요 특징점을 기반으로 미리 정의된 얼굴 정규 좌표에 기초하여, 얼굴 정렬을 수행할 수 있다(S220). 상기 미리 정의된 얼굴 정규 좌표는 인물이 정자세로 정면을 바라보았을 때의 얼굴 주요 특징점 좌표를 의미할 수 있으며, 다량의 얼굴 데이터에서 획득될 수 있다. 예를 들어 다량의 얼굴 데이터 중 정자세 얼굴들의 평균 특징점 좌표가 얼굴 정규좌표로 획득될 수 있다. According to an embodiment of the present invention, a processor may perform face alignment based on predefined facial normal coordinates based on facial key feature points of an extracted fusion target image (S220). The predefined facial normal coordinates may refer to facial key feature point coordinates when a person looks straight ahead in a proper posture, and may be acquired from a large amount of facial data. For example, among a large amount of facial data, the average feature point coordinates of faces in proper posture may be acquired as facial normal coordinates.

도 5는 본 발명의 실시예에 따른 얼굴 정렬 예시를 나타낸 것이다.Figure 5 illustrates an example of face alignment according to an embodiment of the present invention.

도 5를 참조하면, 융합대상영상의 얼굴영역(510)이 나타나 있으며, 상기 얼굴영역에는 융합대상영상의 얼굴 주요 특징점이 포함될 수 있다. 상기 융합대상영상의 얼굴영역(510)은 관찰자의 시점에서 왼쪽으로 일정 각도만큼 기울어진 자세(pose)에 해당할 수 있다. Referring to Fig. 5, a face region (510) of a fusion target image is shown, and the face region may include major facial features of the fusion target image. The face region (510) of the fusion target image may correspond to a pose tilted to the left by a certain angle from the observer's viewpoint.

본 발명의 실시 예에 따른 프로세서는 S210에서 추출된 융합대상영상의 얼굴 주요 특징점을 기초로 미리 정의된 얼굴 정규 좌표(520)에 기초한 이미지 변환(image transformation)을 수행할 수 있다. A processor according to an embodiment of the present invention can perform image transformation based on predefined facial normal coordinates (520) based on facial key feature points of a fusion target image extracted from S210.

구체적으로 융합대상영상의 얼굴 주요 특징점과 대응하는 얼굴 정규 좌표(520)를 추출하고, 상기 얼굴 주요 특징점을 상기 얼굴 정규 좌표로 변환(transformation)함으로써 좌표 매핑을 수행할 수 있다. 상기 이미지 변환의 결과로 정렬된 융합대상영상의 얼굴영역(530)을 획득할 수 있다. Specifically, coordinate mapping can be performed by extracting facial normal coordinates (520) corresponding to the facial key feature points of the fusion target image and transforming the facial key feature points into the facial normal coordinates. As a result of the image transformation, a facial region (530) of the aligned fusion target image can be obtained.

다시 도 2를 설명한다. 본 발명의 실시 예에 따른 프로세서는, 융합대상영상의 얼굴속성 특징을 추출할 수 있다(S230). Again, Figure 2 is described. A processor according to an embodiment of the present invention can extract facial attribute features of a fusion target image (S230).

이때 얼굴속성(Attribute)이란 얼굴의 자세(pose), 표정(expression), 조명(lighting), 배경(background) 및 기타 객체 (얼굴 영역 내에 존재하는 얼굴이 아닌 머리카락, 손, 장신구, 모자, 악기 등 다양한 객체)를 의미할 수 있으며, 얼굴속성 특징은 상기 융합대상영상의 얼굴의 속성이 임베딩(embedding)된 특징을 의미할 수 있다. At this time, the facial attribute may mean the pose, expression, lighting, background, and other objects (various objects such as hair, hands, accessories, hats, and musical instruments other than the face existing within the facial area), and the facial attribute feature may mean a feature in which the facial attribute of the fusion target image is embedded.

상기 융합대상영상의 얼굴영역으로부터 상기 얼굴속성 특징(Feature)을 추출하기 위해, 본 발명의 한 실시예에서는 U-Net (Ronneberger, O., Fischer, P. and Brox, T., U-Net: Convolutional Networks for Biomedical Image Segmentation. International Conference on Medical image computing and computer-assisted intervention, 2015) 등 인공신경망 기반 생성 모델에서 디코더 (Decoder)로 사용되는 다양한 모델이 사용될 수 있다. In order to extract the facial attribute features from the facial region of the fusion target image, in one embodiment of the present invention, various models used as decoders in artificial neural network-based generative models such as U-Net (Ronneberger, O., Fischer, P. and Brox, T., U-Net: Convolutional Networks for Biomedical Image Segmentation. International Conference on Medical image computing and computer-assisted intervention, 2015) can be used.

또한, 상기 얼굴속성 특징은 인공신경망의 다양한 단계에서 추출된 특징들의 조합으로 구성될 수 있을 것이다.Additionally, the above facial attribute features may be composed of a combination of features extracted at various stages of the artificial neural network.

한편, 융합대상영상의 전처리 과정(S200)은 스타일 융합 생성과정에서 실시간으로 실행될 필요 없이, 사전에 실행될 수 있으므로, 얼굴 주요 특징점 추출을 수작업으로 수행하는 것이 가능하다. 그리고 상기 전처리 과정은 추후 설명할 도 3의 융합영상 생성과정과 동시에 실행될 수도 있지만, 연산 시간 감소 및 중복 계산 방지를 위해, 도 2의 영상 융합 생성 과정 이전에 미리 수행될 수 있다. Meanwhile, since the preprocessing process (S200) of the fusion target image can be executed in advance without having to be executed in real time during the style fusion generation process, it is possible to manually perform the extraction of major facial feature points. In addition, the preprocessing process can be executed simultaneously with the fusion image generation process of Fig. 3, which will be described later, but can be performed in advance before the image fusion generation process of Fig. 2 in order to reduce the computation time and prevent duplicate calculations.

도 3은 본 발명의 실시 예에 따른, 관람객 체험 전시를 위한 얼굴 스타일 융합영상 생성 과정을 나타낸 블록도이다. FIG. 3 is a block diagram illustrating a process for generating a facial style fusion image for a viewer experience exhibition according to an embodiment of the present invention.

도 3을 참조하면, 본 발명의 실시 예에 따른 프로세서는, 입력영상(input image)이 입력되면, 입력영상의 얼굴 주요 특징점 검출(S310), 얼굴 정렬(S320), 얼굴 신원 특징 추출(S330), 특징 융합(S340), 융합 특징 기반 얼굴 생성(S350), 얼굴 선예도 개선(S360) 및 융합 얼굴-회화 합성(S370)을 수행함으로써 스타일 융합을 수행할 수 있다.Referring to FIG. 3, a processor according to an embodiment of the present invention can perform style fusion by performing, when an input image is input, facial key feature point detection (S310), face alignment (S320), facial identity feature extraction (S330), feature fusion (S340), face creation based on fused features (S350), facial sharpness improvement (S360), and fused face-painting synthesis (S370) of an input image.

구체적으로 본 발명의 한 실시 예에 따르면, 프로세서는 컴퓨팅 장치와 연결된 포토 키오스크 등의 카메라가 구비된 장치를 통해 관람객을 촬영한 영상을 입력영상으로 획득하고, 상기 입력영상에서 얼굴특징점추출기(Facial Landmark Detector)를 활용해 얼굴 주요 특징점을 검출할 수 있다(S310). Specifically, according to one embodiment of the present invention, the processor may obtain an image of a visitor as an input image by using a device equipped with a camera, such as a photo kiosk connected to a computing device, and may detect major facial landmarks from the input image by using a facial landmark detector (S310).

본 발명의 얼굴 주요 특징점 검출(S310)은 도 2의 S210 실시 예와 동일한 과정으로 수행될 수 있으며, 검출된 얼굴 주요 특징점의 수는 융합대상영상에서 S210 과정을 통해 추출된 얼굴 주요 특징점의 수와 동일할 수 있다.The facial key feature point detection (S310) of the present invention can be performed through the same process as the S210 embodiment of FIG. 2, and the number of detected facial key feature points can be the same as the number of facial key feature points extracted from the fusion target image through the S210 process.

본 발명의 실시 예에 따른 얼굴 정렬(S320)은 도 2의 S220 과정의 실시 예와 동일하게, 추출된 입력영상의 얼굴 주요 특징점을 기반으로 미리 정의된 얼굴 정규 좌표에 기초하여 입력영상에 해당하는 관람객의 얼굴을 정렬시키는 과정을 의미할 수 있다.Face alignment (S320) according to an embodiment of the present invention may mean a process of aligning the face of a viewer corresponding to an input image based on predefined facial normal coordinates based on facial key feature points of an extracted input image, similar to the embodiment of process S220 of FIG. 2.

이때, 입력영상의 얼굴 정렬결과는 융합대상영상의 얼굴과 동일한 크기 및 위치로 정렬될 수 있다.At this time, the face alignment result of the input image can be aligned to the same size and position as the face of the fusion target image.

구체적으로 입력영상은 얼굴 주요 특징점 검출과정에 기초하여 추출된 특징점을 미리 정의된 얼굴 정규 좌표에 대응시킬 수 있으며, 프로세서는 복수개의 얼굴 주요특징점 각각을 대응되는 얼굴 정규좌표 각각으로 좌표 변환(transformation)할 수 있다.Specifically, the input image can correspond feature points extracted based on a facial key feature point detection process to predefined facial normal coordinates, and the processor can transform each of a plurality of facial key feature points into each corresponding facial normal coordinate.

즉, 얼굴 정규 좌표에 나타난 포인트의 개수와 S210, S310에서 추출된 특징점의 수는 동일할 수 있다. That is, the number of points appearing in the facial normal coordinates and the number of feature points extracted from S210 and S310 may be the same.

본 발명의 실시 예에 따른 프로세서는 정렬된 입력영상의 얼굴로부터 얼굴 신원 특징을 추출할 수 있다(S330). A processor according to an embodiment of the present invention can extract facial identity features from a face of an aligned input image (S330).

이때 신원(Identity)이란 관람객 얼굴 이미지데이터를 이용하여 인물의 구별할 수 있는 이목구비 등의 특성을 의미할 수 있다. At this time, identity can mean the distinguishing characteristics of a person, such as facial features, using the audience's facial image data.

이러한 신원을 특징(Feature)으로 추출하기 위해, 본 발명의 한 실시예에서는 ArcFace (Deng, J., Guo, J., Xue, N. and Zafeiriou, S., Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019), CosFace (Wang, H., Wang, Y., Zhou, Z., Ji, X., Gong, D., Zhou, J., Li, Z. and Liu, W., Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2018) 등 다양한 얼굴 인식 (Face Recognition) 모델이 사용될 수 있다.In order to extract such identities as features, various face recognition models such as ArcFace (Deng, J., Guo, J., Xue, N. and Zafeiriou, S., Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019) and CosFace (Wang, H., Wang, Y., Zhou, Z., Ji, X., Gong, D., Zhou, J., Li, Z. and Liu, W., Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2018) can be used in one embodiment of the present invention.

본 발명의 또 다른 실시예에 따르면, 스타일 융합결과 생성되는 융합영상에 융합대상영상의 스타일을 더욱 잘 반영시키기 위해, 융합대상영상의 얼굴 정렬 영상으로부터 융합대상영상의 얼굴신원 특징을 추가로 추출하여, 입력 영상(관람객 영상)의 얼굴신원 특징의 채널별 통계적 특성(예를 들어 평균, 표준 편차 등)을 융합대상영상의 얼굴신원 특징의 통계적 특성에 맞게 조정할 수 있다(S331).According to another embodiment of the present invention, in order to better reflect the style of the fusion target image in the fusion image generated as a result of style fusion, facial identification features of the fusion target image are additionally extracted from the face alignment image of the fusion target image, and the statistical characteristics (e.g., mean, standard deviation, etc.) of the facial identification features of the input image (viewer image) can be adjusted for each channel to match the statistical characteristics of the facial identification features of the fusion target image (S331).

이를 통해, 융합 대상 얼굴의 화풍 (artistic style)을 입력 얼굴의 특징에 반영시킬 수 있다. Through this, the artistic style of the fusion target face can be reflected in the features of the input face.

한편, 상기 얼굴 신원특징의 통계적 특성을 반영하기 위한 알고리즘으로 AdaIN (Huang, X. and Belongie, S., Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE international conference on computer vision, 2017) 등의 방법이 사용될 수 있다. Meanwhile, a method such as AdaIN (Huang, X. and Belongie, S., Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE international conference on computer vision, 2017) can be used as an algorithm to reflect the statistical characteristics of the above facial identity features.

본 발명의 실시 예에 따른 프로세서는 융합대상영상의 얼굴속성 특징과 입력영상의 얼굴신원 특징을 획득하고, 상기 특징을 융합하여 융합특징을 생성할 수 있다(S340).A processor according to an embodiment of the present invention can obtain facial attribute features of a fusion target image and facial identity features of an input image, and fuse the features to generate fusion features (S340).

이때, 융합특징은 영상보간(Interpolation)으로 두 특징들의 공간 해상도(Spatial Resolution)를 일치시킨 후, 상기 융합대상영상의 얼굴 속성특징 및 입력영상의 얼굴 신원특징의 공간 해상도에 존재하는 픽셀을 각각의 픽셀(원소)별로 더하거나, 곱함으로써 융합특징을 획득할 수 있다. At this time, the fusion feature can be obtained by matching the spatial resolution of the two features through image interpolation, and then adding or multiplying pixels existing in the spatial resolution of the facial attribute feature of the fusion target image and the facial identity feature of the input image for each pixel (element).

도 6은 본 발명의 실시 예에 따른 융합특징 획득 방법을 나타낸 것이다.Figure 6 illustrates a method for obtaining fusion features according to an embodiment of the present invention.

도 6을 참조하면, 융합대상영상의 얼굴 속성특징(620) 및 입력영상의 얼굴 신원특징(610)의 공간 해상도(Spatial Resolution)가 일치된 복수개의 행렬이 존재하고, 상기 공간 해상도에 존재하는 픽셀을 각각의 픽셀(원소)별로 더하거나, 곱함으로써 융합특징(630)이 생성될 수 있다.Referring to FIG. 6, there are multiple matrices in which the spatial resolution of the facial attribute features (620) of the fusion target image and the facial identity features (610) of the input image match, and a fusion feature (630) can be generated by adding or multiplying pixels existing in the spatial resolution by each pixel (element).

본 발명의 또 다른 실시예에 따르면, 상기 속성특징 및 신원특징을 융합하기 위해, SPADE (Park, T., Liu, M.Y., Wang, T.C. and Zhu, J.Y., Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019) 등의 알고리즘이 사용될 수 있다. According to another embodiment of the present invention, an algorithm such as SPADE (Park, T., Liu, M.Y., Wang, T.C. and Zhu, J.Y., Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019) can be used to fuse the attribute features and identity features.

본 발명의 실시 예에 따른 프로세서는 얼굴생성모델을 이용하여 융합 특징으로부터 융합얼굴영상을 생성할 수 있다(S350).A processor according to an embodiment of the present invention can generate a fused facial image from fused features using a facial generation model (S350).

상기 융합얼굴영상은 융합대상영상의 얼굴영역을 기초로 입력영상의 얼굴영역이 합성된 영상을 의미할 수 있다. The above fused facial image may mean an image in which the facial region of the input image is synthesized based on the facial region of the fused target image.

구체적으로 융합특징 기반 얼굴 생성(S350)단계에서는, GAN(Generative Adversarial Network) 구조를 이용하여 얼굴생성모델을 훈련시킬 수 있다. Specifically, in the fusion feature-based face generation (S350) step, a face generation model can be trained using a Generative Adversarial Network (GAN) structure.

도 7은 본 발명의 실시 예에 따른 얼굴생성모델(700)을 학습하는 과정을 나타낸 것이다. Figure 7 illustrates a process of learning a face generation model (700) according to an embodiment of the present invention.

예를 들어 도 7에 도시된 바와 같이, 융합특징(710)으로부터 생성기(Generator, 720)를 이용해 융합얼굴영상(730)을 생성시키도록 훈련하고, 식별기(Discriminator, 740)를 이용해 실제 영상(750, 본 발명에서는 융합대상영상(전시 영상))과 생성된 영상(730)을 구별하도록 예측 레이블(760)에 피드백을 제공함으로써 얼굴생성모델을 훈련시킬 수 있다.For example, as illustrated in FIG. 7, a face generation model can be trained by training a generator (720) to generate a fused face image (730) from fused features (710), and providing feedback to a predicted label (760) to distinguish between an actual image (750, a fused target image (exhibition image) in the present invention) and the generated image (730) using a discriminator (740).

본 발명의 실시 예에 따라, 얼굴생성모델은 훈련 후, 실제 얼굴 생성 과정에서는 생성기(Generator,720)를 이용하여 융합 특징으로부터 융합얼굴영상을 생성할 수 있을 것이다. According to an embodiment of the present invention, after training, the face generation model may generate a fused face image from fused features using a generator (Generator, 720) in the actual face generation process.

본 발명의 실시 예에 따른 프로세서는 생성된 융합얼굴영상의 선예도를 개선시킬 수 있다(S360).A processor according to an embodiment of the present invention can improve the sharpness of a generated fused facial image (S360).

도 8은 본 발명의 실시 예에 따른 융합얼굴영상의 선예도를 개선시키는 과정을 나타낸 예시이다. FIG. 8 is an example showing a process for improving the sharpness of a fused facial image according to an embodiment of the present invention.

도 8을 참조하면, 선예도 개선 전 융합얼굴영상과 대비하여, 선예도가 개선된 융합얼굴영상은 엣지(edge) 및 경계선 특징이 명확해짐을 알 수 있다. Referring to Figure 8, compared to the fused facial image before sharpness improvement, the fused facial image with improved sharpness can be seen to have clearer edge and boundary features.

본 발명의 한 실시예에서는 GPEN(Yang, T., Ren, P., Xie, X. and Zhang, L., Gan prior embedded network for blind face restoration in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021), GFP-GAN(Wang, X., Li, Y., Zhang, H. and Shan, Y., Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021) 등 열화 얼굴 복원 (Blind Face Restoration) 기술이 사용될 수 있다.In one embodiment of the present invention, a Blind Face Restoration technology such as GPEN (Yang, T., Ren, P., Xie, X. and Zhang, L., Gan prior embedded network for blind face restoration in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021) and GFP-GAN (Wang, X., Li, Y., Zhang, H. and Shan, Y., Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021) may be used.

본 발명의 실시 예에 따른 프로세서는, 선예도가 개선된 융합얼굴영상에 기초하여 융합 얼굴-회화 합성을 수행할 수 있다(S370).A processor according to an embodiment of the present invention can perform fusion face-conversation synthesis based on a fusion face image with improved sharpness (S370).

구체적으로 프로세서는, 융합대상영상 및 융합대상영상의 얼굴 주요 특징점을 획득하고, S360 단계에 기초하여 선예도가 개선된 융합얼굴영상을 융합대상영상의 얼굴 좌표계로 변환시키고, 변환된 좌표계에서 상기 융합얼굴영상을 상기 융합대상영상으로 합성하여, 스타일 융합 영상을 생성할 수 있다. Specifically, the processor can obtain a fusion target image and facial key features of the fusion target image, transform a fusion facial image with improved sharpness based on the S360 step into a facial coordinate system of the fusion target image, and synthesize the fusion facial image with the fusion target image in the transformed coordinate system to generate a style fusion image.

도 9는 본 발명의 실시 예에 따른 스타일 융합 영상 생성과정을 나타낸 예이다.Figure 9 is an example showing a style fusion image generation process according to an embodiment of the present invention.

도 9를 참조하면, 프로세서는 입력영상의 얼굴이 반영된 최종 스타일 융합 영상(910) 및 융합대상영상의 얼굴영역을 획득할 수 있다. 또한 입력영상의 얼굴영역(930)을 획득할 수 있다. Referring to FIG. 9, the processor can obtain a final style fusion image (910) in which a face of an input image is reflected and a face region of a fusion target image. In addition, the processor can obtain a face region (930) of the input image.

본 발명의 실시 예에 따르면, 앞서 설명한 S310 내지 S360 단계에 기초하여 선예도가 개선된 융합얼굴영상은 얼굴 정렬(S220, S320)에 기초하여 미리 정해진 얼굴 정규 좌표로 매핑된 상태이다.According to an embodiment of the present invention, a fused facial image with improved sharpness based on steps S310 to S360 described above is mapped to predetermined facial normal coordinates based on face alignment (S220, S320).

따라서 이를 다시 융합대상영상의 얼굴 좌표계로 변환시킴으로써 융합대상영상 속 인물의 자세(Pose)로 변환된 융합얼굴영상(940) 을 생성할 수 있다. 이때, 얼굴 정렬에 사용된 이미지 변환(image transformation)의 역행렬이 상기 융합얼굴영상에 곱해짐으로써 상기 융합얼굴영상은 상기 융합대상영상의 얼굴 좌표계로 매핑될 수 있다. Accordingly, by converting this back into the facial coordinate system of the fusion target image, a fused facial image (940) converted into the pose of the person in the fusion target image can be generated. At this time, the inverse matrix of the image transformation used for face alignment is multiplied by the fused facial image, so that the fused facial image can be mapped into the facial coordinate system of the fusion target image.

이후, 본 발명의 실시 예에 따른 프로세서는, 상기 융합대상영상 속 인물의 자세(Pose)로 변환된 융합얼굴영상(940)을 상기 융합대상영상과 합성하여, 최종 스타일 융합영상(910)을 생성할 수 있다.Thereafter, a processor according to an embodiment of the present invention can generate a final style fusion image (910) by synthesizing a fusion facial image (940) converted into a pose of a person in the fusion target image with the fusion target image.

도 10은 본 발명의 실시 예에 따른 아티팩트 완화 과정을 나타낸 것이다.Figure 10 illustrates an artifact mitigation process according to an embodiment of the present invention.

도 10을 참조하면, 프로세서는 영상 합성 과정에서 가우시안 마스크(Gaussian Mask)를 이용하여 융합얼굴영상과 융합대상영상 내 얼굴을 합성하여 경계면에 존재하는 아티팩트(Artifact)를 완화시킬 수 있을 것이다. Referring to FIG. 10, the processor may use a Gaussian mask to synthesize a fused face image and a face in a fused target image during an image synthesis process, thereby alleviating artifacts present at the boundary.

본 개시의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 소프트웨어로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다.Those skilled in the art will appreciate that the various illustrative logical blocks, modules, processors, means, circuits, and algorithm steps described in connection with the embodiments disclosed herein may be implemented as electronic hardware, various forms of programs or design code (for convenience, referred to herein as software), or a combination of both.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.The above-described present invention can be implemented as a computer-readable code on a medium in which a program is recorded. The computer-readable medium includes all kinds of recording devices that store data that can be read by a computer system. Examples of the computer-readable medium include a hard disk drive (HDD), a solid state disk (SSD), a silicon disk drive (SDD), a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device, etc.

Claims (20)

관람객 체험 전시를 위한 융합영상 생성방법에 있어서,
(a)입력영상의 얼굴 주요 특징점에 기초하여 얼굴신원 특징을 추출하는 단계;
(b)융합대상영상의 얼굴속성 특징을 획득하는 단계;
(c)상기 융합대상얼굴의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징을 융합하여 융합특징을 획득하는 단계;
(d)상기 융합특징에 기초하여 융합얼굴영상을 생성하는 단계 및
(e)상기 융합얼굴영상을 상기 융합대상영상의 얼굴 좌표계로 변환시켜 스타일 융합 영상을 생성하는 단계를 포함하는,
스타일 융합 영상 생성방법.
In a method for creating a fusion video for an exhibition for visitors to experience,
(a) A step of extracting facial identity features based on key facial feature points of an input image;
(b) A step of acquiring facial attribute features of a fusion target image;
(c) a step of obtaining fusion features by fusion of facial attribute features of the fusion target face and facial identity features of the input image;
(d) a step of generating a fused facial image based on the above fused features; and
(e) a step of generating a style fusion image by converting the fused facial image into the facial coordinate system of the fusion target image;
How to create a style fusion video.
제 1항에 있어서,
상기 (b)단계는,
상기 융합대상영상의 얼굴 주요 특징점을 추출하는 단계;
상기 추출한 얼굴 주요 특징점에 기초하여 얼굴 정렬을 수행하는 단계 및
정렬한 얼굴에 기초하여 얼굴속성 특징을 획득하는 단계를 포함하는,
스타일 융합 영상 생성방법.
In paragraph 1,
Step (b) above,
A step of extracting key facial features of the above fusion target image;
A step of performing face alignment based on the extracted facial key features, and
Comprising a step of obtaining facial attribute features based on the aligned face.
How to create a style fusion video.
제 2항에 있어서,
상기 얼굴 정렬을 수행하는 단계는,
융합대상영상의 얼굴 주요 특징점을 기반으로 미리 정의된 얼굴 정규 좌표에 기초하여, 얼굴 정렬을 수행하는 단계를 포함하는,
스타일 융합 영상 생성방법.
In the second paragraph,
The steps for performing the above face alignment are:
A step of performing face alignment based on predefined facial normal coordinates based on the facial key feature points of the fusion target image,
How to create a style fusion video.
제 1항에 있어서,
상기 (a) 단계는,
상기 입력영상의 얼굴 주요 특징점을 미리 정의된 얼굴 정규 좌표에 기초하여 얼굴 정렬을 수행하는 단계를 더 포함하는,
스타일 융합 영상 생성방법.
In paragraph 1,
Step (a) above,
Further comprising a step of performing face alignment based on predefined facial normal coordinates of facial key feature points of the input image.
How to create a style fusion video.
제 1항에 있어서,
상기 얼굴신원 특징은, 상기 입력영상의 이목구비 특징을 의미하는,
스타일 융합 영상 생성방법.
In paragraph 1,
The above facial identification features refer to the facial features of the input image.
How to create a style fusion video.
제 5항에 있어서,
상기 얼굴신원 특징은, 상기 융합대상영상의 얼굴신원 특징의 채널별 통계적 특성에 기초하여 조정된,
스타일 융합 영상 생성방법.
In paragraph 5,
The above facial identity features are adjusted based on the channel-by-channel statistical characteristics of the facial identity features of the fusion target image.
How to create a style fusion video.
제 1항에 있어서,
상기 얼굴속성 특징은, 상기 융합대상얼굴의 얼굴의 자세, 표정, 조명, 배경 및 기타 객체 정보 중 적어도 하나를 포함하는,
스타일 융합 영상 생성방법.
In paragraph 1,
The above facial attribute features include at least one of facial pose, expression, lighting, background, and other object information of the fusion target face.
How to create a style fusion video.
제 1항에 있어서,
상기 (c) 단계는,
영상보간을 이용하여 상기 얼굴속성 특징 및 상기 얼굴신원 특징의 공간 해상도(Spatial Resolution)를 일치시키는 단계; 및
상기 융합대상영상의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징의 공간 해상도에 존재하는 픽셀 각각의 합 또는 곱한 값을 상기 픽셀 각각에 할당함으로써 융합특징을 획득하는 단계를 포함하는,
스타일 융합 영상 생성방법.
In paragraph 1,
Step (c) above,
A step of matching the spatial resolution of the facial attribute features and the facial identity features using image interpolation; and
A step of obtaining a fusion feature by assigning to each pixel the sum or product of each pixel existing in the spatial resolution of the facial attribute feature of the fusion target image and the facial identity feature of the input image,
How to create a style fusion video.
제 1항에 있어서,
상기 (d) 단계는,
상기 융합특징이 얼굴생성모델에 입력되면, 융합얼굴영상을 생성하는 단계를 포함하고,
상기 얼굴생성모델은 훈련시, 생성기를 이용하여 상기 융합특징으로부터 상기 융합얼굴영상을 생성시키도록 훈련되고, 식별기를 이용하여 상기 융합대상영상의 얼굴과 생성된 상기 융합얼굴영상을 구별하도록 훈련된 모델을 포함하는,
스타일 융합 영상 생성방법.
In paragraph 1,
Step (d) above,
When the above fusion feature is input into the face generation model, a step of generating a fusion face image is included.
The above face generation model includes a model trained to generate the fused face image from the fused features using a generator during training, and trained to distinguish the face of the fused target image from the generated fused face image using a discriminator.
How to create a style fusion video.
제 1항에 있어서, 상기 (e) 단계는,
가우시안 마스크를 이용하여 상기 융합얼굴영상과 상기 융합대상영상 내 얼굴을 합성하여 경계면에 존재하는 아티팩트(Artifact)를 완화시키는 단계를 더 포함하는,
스타일 융합 영상 생성방법.
In the first paragraph, step (e) is,
A step of further synthesizing the fused face image and the face in the fused target image using a Gaussian mask to alleviate artifacts existing at the boundary,
How to create a style fusion video.
관람객 체험 전시를 위한 융합영상 생성장치에 있어서,
적어도 하나 이상의 프로세서를 포함하고,
상기 프로세서는 (a)입력영상의 얼굴 주요 특징점에 기초하여 얼굴신원 특징을 추출하고, (b)융합대상영상의 얼굴속성 특징을 획득하고, (c)상기 융합대상얼굴의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징을 융합하여 융합특징을 획득하고, (d)상기 융합특징에 기초하여 융합얼굴영상을 생성하고, (e)상기 융합얼굴영상을 상기 융합대상영상의 얼굴 좌표계로 변환시켜 스타일 융합 영상을 생성하는
스타일 융합 영상 생성장치.
In a fusion video generation device for an exhibition for visitors to experience,
Containing at least one processor,
The above processor (a) extracts facial identity features based on facial key features of an input image, (b) obtains facial attribute features of a fusion target image, (c) obtains fusion features by fusion of the facial attribute features of the fusion target face and the facial identity features of the input image, (d) generates a fusion face image based on the fusion features, and (e) generates a style fusion image by converting the fusion face image into a facial coordinate system of the fusion target image.
Style fusion video generator.
제 11항에 있어서,
상기 프로세서는, 상기 (b) 동작을 수행하는 경우,
상기 융합대상영상의 얼굴 주요 특징점을 추출하고, 상기 추출한 얼굴 주요 특징점에 기초하여 얼굴 정렬을 수행하고, 정렬한 얼굴에 기초하여 얼굴속성 특징을 획득하는,
스타일 융합 영상 생성장치.
In Article 11,
When the above processor performs the above operation (b),
Extracting the facial key features of the above fusion target image, performing face alignment based on the extracted facial key features, and obtaining facial attribute features based on the aligned face.
Style fusion video generator.
제 12항에 있어서,
상기 프로세서가 상기 얼굴 정렬을 수행하는 경우, 융합대상영상의 얼굴 주요 특징점을 기반으로 미리 정의된 얼굴 정규 좌표에 기초하여, 얼굴 정렬을 수행하는,
스타일 융합 영상 생성장치.
In Article 12,
When the above processor performs the face alignment, the face alignment is performed based on predefined face normal coordinates based on the facial key feature points of the fusion target image.
Style fusion video generator.
제 11항에 있어서,
상기 프로세서가 상기 (a) 동작을 수행하는 경우, 상기 입력영상의 얼굴 주요 특징점을 미리 정의된 얼굴 정규 좌표에 기초하여 얼굴 정렬을 수행하는,
스타일 융합 영상 생성장치.
In Article 11,
When the above processor performs the above operation (a), face alignment is performed based on the facial key feature points of the input image to predefined facial normal coordinates.
Style fusion video generator.
제 11항에 있어서,
상기 얼굴신원 특징은, 상기 입력영상의 이목구비 특징을 의미하는,
스타일 융합 영상 생성장치.
In Article 11,
The above facial identification features refer to the facial features of the input image.
Style fusion video generator.
제 15항에 있어서,
상기 얼굴신원 특징은, 상기 융합대상영상의 얼굴신원 특징의 채널별 통계적 특성에 기초하여 조정된,
스타일 융합 영상 생성장치.
In Article 15,
The above facial identity features are adjusted based on the channel-by-channel statistical characteristics of the facial identity features of the fusion target image.
Style fusion video generator.
제 11항에 있어서,
상기 얼굴속성 특징은, 상기 융합대상얼굴의 얼굴의 자세, 표정, 조명, 배경 및 기타 객체 정보 중 적어도 하나를 포함하는,
스타일 융합 영상 생성장치.
In Article 11,
The above facial attribute features include at least one of facial pose, expression, lighting, background, and other object information of the fusion target face.
Style fusion video generator.
제 11항에 있어서,
상기 프로세서는, 상기 (c) 동작을 수행할 경우, 영상보간을 이용하여 상기 얼굴속성 특징 및 상기 얼굴신원 특징의 공간 해상도(Spatial Resolution)를 일치시키고, 상기 융합대상영상의 얼굴속성 특징 및 상기 입력영상의 얼굴신원 특징의 공간 해상도에 존재하는 픽셀 각각의 합 또는 곱한 값을 상기 픽셀 각각에 할당함으로써 융합특징을 획득하는,
스타일 융합 영상 생성장치.
In Article 11,
The above processor, when performing the operation (c), matches the spatial resolution of the facial attribute feature and the facial identity feature by using image interpolation, and obtains the fusion feature by assigning to each pixel the sum or product of each pixel existing in the spatial resolution of the facial attribute feature of the fusion target image and the facial identity feature of the input image.
Style fusion video generator.
제 11항에 있어서,
상기 프로세서가, 상기 (d) 동작을 수행하는 경우,
상기 융합특징이 얼굴생성모델에 입력되면, 융합얼굴영상을 생성하고, 상기 얼굴생성모델은 훈련시, 생성기를 이용하여 상기 융합특징으로부터 상기 융합얼굴영상을 생성시키도록 훈련되고, 식별기를 이용하여 상기 융합대상영상의 얼굴과 생성된 상기 융합얼굴영상을 구별하도록 훈련된 모델을 포함하는,
스타일 융합 영상 생성장치.
In Article 11,
When the above processor performs the above operation (d),
When the above fusion feature is input to a face generation model, a fusion face image is generated, and the face generation model is trained to generate the fusion face image from the fusion feature using a generator during training, and includes a model trained to distinguish the face of the fusion target image from the generated fusion face image using a discriminator.
Style fusion video generator.
제 11항에 있어서,
상기 프로세서가, 상기 (e) 동작을 수행하는 경우,
가우시안 마스크를 이용하여 상기 융합얼굴영상과 상기 융합대상영상 내 얼굴을 합성하여 경계면에 존재하는 아티팩트(Artifact)를 완화시키는,
스타일 융합 영상 생성장치.
In Article 11,
When the above processor performs the above operation (e),
By synthesizing the fused face image and the face in the fused target image using a Gaussian mask, artifacts existing at the boundary are alleviated.
Style fusion video generator.
KR1020230033095A 2023-03-14 2023-03-14 Method and apparatus for generating face harmonization image based on feature fusion for visitor experiential exhibition Pending KR20240139282A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230033095A KR20240139282A (en) 2023-03-14 2023-03-14 Method and apparatus for generating face harmonization image based on feature fusion for visitor experiential exhibition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230033095A KR20240139282A (en) 2023-03-14 2023-03-14 Method and apparatus for generating face harmonization image based on feature fusion for visitor experiential exhibition

Publications (1)

Publication Number Publication Date
KR20240139282A true KR20240139282A (en) 2024-09-23

Family

ID=92924962

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230033095A Pending KR20240139282A (en) 2023-03-14 2023-03-14 Method and apparatus for generating face harmonization image based on feature fusion for visitor experiential exhibition

Country Status (1)

Country Link
KR (1) KR20240139282A (en)

Similar Documents

Publication Publication Date Title
US12315291B2 (en) Face reenactment
US11210838B2 (en) Fusing, texturing, and rendering views of dynamic three-dimensional models
US11157773B2 (en) Image editing by a generative adversarial network using keypoints or segmentation masks constraints
Patwardhan et al. Video inpainting under constrained camera motion
CN112733797B (en) Sight correction method, device, equipment and storage medium for face image
US11954828B2 (en) Portrait stylization framework using a two-path image stylization and blending
US20240169701A1 (en) Affordance-based reposing of an object in a scene
EP3660663B1 (en) Delivering virtualized content
Burgos-Artizzu et al. Real-time expression-sensitive HMD face reconstruction
US11403781B2 (en) Methods and systems for intra-capture camera calibration
CN110516598B (en) Method and apparatus for generating image
US9786055B1 (en) Method and apparatus for real-time matting using local color estimation and propagation
Kim et al. Real-time and on-line removal of moving human figures in hand-held mobile augmented reality
CN115008454B (en) Robot online hand-eye calibration method based on multi-frame pseudo tag data enhancement
US20200265622A1 (en) Forming seam to join images
KR20240139282A (en) Method and apparatus for generating face harmonization image based on feature fusion for visitor experiential exhibition
Halperin et al. Clear Skies Ahead: Towards Real‐Time Automatic Sky Replacement in Video
Otto et al. Learning dynamic 3D geometry and texture for video face swapping
KR102824946B1 (en) Method and apparatus for generating face harmonization image
KR102561903B1 (en) AI-based XR content service method using cloud server
Zhang et al. Monocular face reconstruction with global and local shape constraints
Chen et al. Depth recovery with face priors
US20240320838A1 (en) Burst image matting
US20250173883A1 (en) Real-time, high-quailty, and spatiotemporally consistent depth estimation from two-dimensional, color images
Ferrari et al. 3DMM for accurate reconstruction of depth data

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20230314

PG1501 Laying open of application