[go: up one dir, main page]

KR102401985B1 - Multiple domain arbitrary style transfer with single model and method thereof - Google Patents

Multiple domain arbitrary style transfer with single model and method thereof Download PDF

Info

Publication number
KR102401985B1
KR102401985B1 KR1020200108591A KR20200108591A KR102401985B1 KR 102401985 B1 KR102401985 B1 KR 102401985B1 KR 1020200108591 A KR1020200108591 A KR 1020200108591A KR 20200108591 A KR20200108591 A KR 20200108591A KR 102401985 B1 KR102401985 B1 KR 102401985B1
Authority
KR
South Korea
Prior art keywords
image
domain
encoder
style
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020200108591A
Other languages
Korean (ko)
Other versions
KR20220027565A (en
Inventor
변혜란
홍기범
김명진
전석규
도미래
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020200108591A priority Critical patent/KR102401985B1/en
Publication of KR20220027565A publication Critical patent/KR20220027565A/en
Application granted granted Critical
Publication of KR102401985B1 publication Critical patent/KR102401985B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06T5/002
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 실시예들은 복수의 참고 이미지에 대한 정보량 비율 파라미터를 추출하고 정보량 비율 파라미터에 따라 하나의 학습된 스타일 변환 모델을 이용하여 복수의 도메인에 해당하는 다양한 스타일의 이미지로 변환하는 이미지 스타일 변환 방법 및 장치를 제공한다. The present embodiments provide an image style conversion method and apparatus for extracting information amount ratio parameters for a plurality of reference images and converting them into images of various styles corresponding to a plurality of domains using one learned style conversion model according to the information amount ratio parameters provides

Figure R1020200108591
Figure R1020200108591

Description

참고 이미지의 특성을 고려한 종합적 스타일 변환 장치 및 방법 {MULTIPLE DOMAIN ARBITRARY STYLE TRANSFER WITH SINGLE MODEL AND METHOD THEREOF}Comprehensive style transformation apparatus and method considering characteristics of reference image {MULTIPLE DOMAIN ARBITRARY STYLE TRANSFER WITH SINGLE MODEL AND METHOD THEREOF}

본 발명이 속하는 기술 분야는 학습된 단일 모델을 통해 종합적 스타일 변환이 가능한 이미지 스타일 변환 장치 및 방법에 관한 것이다. The technical field to which the present invention pertains relates to an image style conversion apparatus and method capable of comprehensive style conversion through a single learned model.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information for the present embodiment and does not constitute the prior art.

기존의 이미지 스타일 변환 모델은 예술작품 이미지의 스타일을 변환하는 모델과 사진 이미지의 스타일을 변환하는 모델로 각각 나뉘어져 있다. 즉, 각 네트워크에 두 도메인(예술작품 또는 사진)의 이미지가 참고 이미지로 입력되면 한 쪽의 결과만으로 편향되어 생성하게 되는 문제가 있다.The existing image style conversion model is divided into a model for converting the style of an artwork image and a model for converting the style of a photographic image, respectively. That is, when images of two domains (art works or photos) are input as reference images in each network, there is a problem in that only one result is biased and generated.

한국공개특허공보 제10-2020-0065433호 (2020.06.09.)Korean Patent Publication No. 10-2020-0065433 (2020.06.09.) 한국등록특허공보 제10-0924689호 (2009.10.27.)Korean Patent Publication No. 10-0924689 (2009.10.27.)

본 발명의 실시예들은 복수의 참고 이미지에 대한 정보량 비율 파라미터를 추출하고 정보량 비율 파라미터에 따라 하나의 학습된 스타일 변환 모델을 이용하여 복수의 도메인에 해당하는 다양한 스타일의 이미지로 변환하는 데 주된 목적이 있다.The main purpose of the embodiments of the present invention is to extract information amount ratio parameters for a plurality of reference images and convert them into images of various styles corresponding to a plurality of domains using one learned style transformation model according to the information amount ratio parameters. have.

본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.Other objects not specified in the present invention may be additionally considered within the scope that can be easily inferred from the following detailed description and effects thereof.

본 실시예의 일 측면에 의하면, 컴퓨팅 디바이스에 의한 이미지 스타일 변환 방법에 있어서, 제1 도메인 이미지 또는 제2 도메인 이미지에 해당하는 참고 이미지를 입력받고 도메인 판별 모델을 통해 상기 참고 이미지에 대한 정보량 비율 파라미터를 추출하는 단계, 및 상기 참고 이미지와 콘텐츠 이미지를 입력받고 상기 정보량 비율 파라미터에 따라 상기 콘텐츠 이미지에서 보존될 정보량이 조절된 스타일 변환 모델을 통해 상기 콘텐츠 이미지의 스타일을 변환하는 단계를 포함하는 이미지 스타일 변환 방법을 제공한다.According to one aspect of this embodiment, in the image style conversion method by a computing device, a reference image corresponding to a first domain image or a second domain image is received and an information amount ratio parameter for the reference image is determined through a domain discrimination model. Image style conversion comprising the steps of extracting, and converting the style of the content image through a style conversion model in which the reference image and the content image are input and the amount of information to be preserved in the content image is adjusted according to the information amount ratio parameter provide a way

상기 도메인 판별 모델은 상기 제1 도메인 이미지, 상기 제2 도메인 이미지, 및 중간 도메인 이미지를 입력받아 학습되며, 상기 중간 도메인 이미지는 상기 제1 도메인 이미지와 상기 제2 도메인 이미지가 일정 비율로 혼합된 이미지일 수 있다.The domain discrimination model is learned by receiving the first domain image, the second domain image, and an intermediate domain image, and the intermediate domain image is an image in which the first domain image and the second domain image are mixed at a certain ratio. can be

상기 도메인 판별 모델은 복수의 레이어가 연결된 학습 네트워크 구조이고, 제1 손실 함수 및 제2 손실 함수로 정의되며, 상기 제1 손실 함수는 제1 도메인 및 제2 도메인을 구분하도록 학습되고, 상기 제2 손실 함수는 중간 도메인을 찾도록 학습될 수 있다.The domain discrimination model is a learning network structure in which a plurality of layers are connected, and is defined by a first loss function and a second loss function, wherein the first loss function is trained to distinguish a first domain and a second domain, and the second The loss function can be trained to find the intermediate domain.

상기 제1 도메인은 사진 유형에 해당하고, 상기 제2 도메인은 예술작품 유형에 해당하고, 상기 중간 도메인은 카툰 유형에 해당할 수 있다.The first domain may correspond to a photo type, the second domain may correspond to an artwork type, and the intermediate domain may correspond to a cartoon type.

상기 스타일 변환 모델은 인코더 및 디코더를 포함하는 학습 네트워크 구조이고, 상기 인코더의 출력이 상기 디코더에 입력되고, 상기 인코더에서 상기 디코더로 원본 이미지의 특징의 고주파수 정보를 전달하고, 상기 인코더에서 상기 디코더로 스타일 변환된 특징의 고주파수 정보를 전달할 수 있다.The style transformation model is a learning network structure including an encoder and a decoder, the output of the encoder is input to the decoder, and from the encoder to the decoder high-frequency information of a feature of an original image is transferred, and from the encoder to the decoder High frequency information of the style-transformed feature may be transmitted.

상기 스타일 변환 모델은 상기 인코더에서 상기 디코더로 스타일 변환된 특징의 고주파수 정보를 전달하는 과정에서 상기 정보량 비율 파라미터에 따라 블러링 알고리즘을 가변적으로 적용할 수 있다.The style transformation model may variably apply a blurring algorithm according to the information amount ratio parameter in the process of transferring the high frequency information of the style-transformed feature from the encoder to the decoder.

상기 인코더는 제1 인코더, 제2 인코더, 및 제3 인코더를 포함하고, 상기 디코더는 제1 디코더, 제2 디코더, 및 제3 디코더를 포함하고, 상기 제1 인코더의 출력이 상기 제2 인코더에 입력되고, 상기 제2 인코더의 출력이 상기 제3 인코더에 입력되고, 상기 스타일 변환기의 출력이 상기 제3 디코더에 입력되고, 상기 제3 디코더의 출력이 상기 제2 디코더에 입력되고, 상기 제2 디코더의 출력이 상기 제1 인코더에 입력되고, 상기 제1 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 상기 제1 디코더로 전달하고, 상기 제2 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 상기 제2 디코더로 전달하고, 상기 제3 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 상기 제3 디코더로 전달하여, 대응하는 인코더와 디코더 간에 계층적으로 정보를 전달할 수 있다.The encoder comprises a first encoder, a second encoder, and a third encoder, the decoder comprises a first decoder, a second decoder, and a third decoder, wherein the output of the first encoder is directed to the second encoder input, the output of the second encoder is input to the third encoder, the output of the style converter is input to the third decoder, the output of the third decoder is input to the second decoder, and the second The output of the decoder is input to the first encoder, and the high frequency information of the features of the original image extracted by the first encoder and the high frequency information of the style-converted features are transmitted to the first decoder, and the original image extracted by the second encoder transmits high-frequency information of the features of , and high-frequency information of the style-converted features to the second decoder, and transmits the high-frequency information of the features of the original image extracted by the third encoder and the high-frequency information of the style-converted features to the third decoder Thus, information can be hierarchically transmitted between the corresponding encoder and decoder.

상기 고주파수 정보는 입력된 데이터의 특징 및 상기 입력된 데이터의 차원을 감소시키는 풀링을 통해 나온 특징 간의 차이를 이용하여 산출될 수 있다.The high frequency information may be calculated using a difference between a feature of the input data and a feature obtained through pooling for reducing a dimension of the input data.

상기 스타일 변환 모델은 제3 손실 함수, 제4 손실 함수, 및 제5 손실 함수로 정의되며, 상기 제3 손실 함수는 검증 자료와 비교한 특징의 거리를 감소시키도록 학습되고, 상기 제4 손실 함수는 이미지 내의 특징의 분포가 고르도록 학습되고, 상기 제5 손실 함수는 상기 검증 자료와 비교한 특징의 유사도를 감소시키도록 학습될 수 있다.The style transformation model is defined by a third loss function, a fourth loss function, and a fifth loss function, wherein the third loss function is trained to reduce a distance of a feature compared to the validation data, and the fourth loss function may be learned such that the distribution of features in the image is even, and the fifth loss function may be trained to reduce the similarity of features compared with the verification data.

본 실시예의 다른 측면에 의하면, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 이미지 스타일 변환 장치에 있어서, 상기 프로세서는, 제1 도메인 이미지 또는 제2 도메인 이미지에 해당하는 참고 이미지를 입력받고 도메인 판별 모델을 통해 상기 참고 이미지에 대한 정보량 비율 파라미터를 추출하고, 상기 참고 이미지와 콘텐츠 이미지를 입력받고 상기 정보량 비율 파라미터에 따라 상기 콘텐츠 이미지에서 보존될 정보량이 조절된 스타일 변환 모델을 통해 상기 콘텐츠 이미지의 스타일을 변환하는 것을 특징으로 하는 이미지 스타일 변환 장치를 제공한다.According to another aspect of this embodiment, in the image style conversion apparatus including one or more processors and a memory for storing one or more programs executed by the one or more processors, the processor is a first domain image or a second domain image A reference image corresponding to There is provided an image style conversion apparatus characterized in that the style of the content image is converted through a style conversion model.

이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 복수의 참고 이미지에 대한 정보량 비율 파라미터를 추출하고 정보량 비율 파라미터에 따라 하나의 학습된 스타일 변환 모델을 이용하여 복수의 도메인에 해당하는 다양한 스타일의 이미지로 변환할 수 있는 효과가 있다.As described above, according to the embodiments of the present invention, information amount ratio parameters for a plurality of reference images are extracted, and various styles corresponding to a plurality of domains are obtained using one learned style transformation model according to the information amount ratio parameters. There is an effect that can be converted into an image.

여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.Even if it is an effect not explicitly mentioned herein, the effects described in the following specification expected by the technical features of the present invention and their potential effects are treated as if they were described in the specification of the present invention.

도 1은 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치를 예시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치가 혼합한 이미지를 예시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치의 도메인 판별 모델을 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치의 도메인 판별 모델이 출력한 비율 파라미터를 예시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치의 스타일 변환 모델을 예시한 도면이다.
도 6은 본 발명의 다른 실시예에 따른 이미지 스타일 변환 방법을 예시한 흐름도이다.
도 7은 본 발명의 실시예들에 따른 시뮬레이션 결과를 예시한 도면이다.
1 is a block diagram illustrating an image style conversion apparatus according to an embodiment of the present invention.
2 is a diagram illustrating an image mixed by the image style conversion apparatus according to an embodiment of the present invention.
3 is a diagram illustrating a domain determination model of an image style conversion apparatus according to an embodiment of the present invention.
4 is a diagram illustrating a ratio parameter output by a domain determination model of an apparatus for converting an image style according to an embodiment of the present invention.
5 is a diagram illustrating a style conversion model of an image style conversion apparatus according to an embodiment of the present invention.
6 is a flowchart illustrating an image style conversion method according to another embodiment of the present invention.
7 is a diagram illustrating simulation results according to embodiments of the present invention.

이하, 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하고, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. Hereinafter, in the description of the present invention, if it is determined that the subject matter of the present invention may be unnecessarily obscure as it is obvious to those skilled in the art with respect to related known functions, the detailed description thereof will be omitted, and some embodiments of the present invention will be described. It will be described in detail with reference to exemplary drawings.

도 1은 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치를 예시한 블록도이다.1 is a block diagram illustrating an image style conversion apparatus according to an embodiment of the present invention.

이미지 스타일 변환 장치(110)는 적어도 하나의 프로세서(120), 컴퓨터 판독 가능한 저장매체(130) 및 통신 버스(170)를 포함한다. The image style conversion device 110 includes at least one processor 120 , a computer readable storage medium 130 , and a communication bus 170 .

프로세서(120)는 이미지 스타일 변환 장치(110)로 동작하도록 제어할 수 있다. 예컨대, 프로세서(120)는 컴퓨터 판독 가능한 저장 매체(130)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(120)에 의해 실행되는 경우 이미지 스타일 변환 장치(110)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.The processor 120 may control to operate as the image style conversion apparatus 110 . For example, the processor 120 may execute one or more programs stored in the computer-readable storage medium 130 . The one or more programs may include one or more computer-executable instructions, which, when executed by the processor 120 , configure the image style conversion device 110 to perform operations according to the exemplary embodiment. can be

컴퓨터 판독 가능한 저장 매체(130)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(140)은 프로세서(120)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독한 가능 저장 매체(130)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 이미지 스타일 변환 장치(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.Computer-readable storage medium 130 is configured to store computer-executable instructions or program code, program data, and/or other suitable form of information. The program 140 stored in the computer-readable storage medium 130 includes a set of instructions executable by the processor 120 . In one embodiment, computer-readable storage medium 130 includes memory (volatile memory, such as random access memory, non-volatile memory, or a suitable combination thereof), one or more magnetic disk storage devices, optical disk storage devices, It may be flash memory devices, other types of storage media that can be accessed by the image style conversion apparatus 110 and store desired information, or a suitable combination thereof.

통신 버스(170)는 프로세서(120), 컴퓨터 판독 가능한 저장 매체(140)를 포함하여 이미지 스타일 변환 장치(110)의 다른 다양한 컴포넌트들을 상호 연결한다.Communication bus 170 interconnects various other components of image style conversion device 110 including processor 120 and computer readable storage medium 140 .

이미지 스타일 변환 장치(110)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(150) 및 하나 이상의 통신 인터페이스(160)를 포함할 수 있다. 입출력 인터페이스(150) 및 통신 인터페이스(160)는 통신 버스(170)에 연결된다. 입출력 장치(미도시)는 입출력 인터페이스(150)를 통해 이미지 스타일 변환 장치(110)의 다른 컴포넌트들에 연결될 수 있다.The image style conversion device 110 may also include one or more input/output interfaces 150 and one or more communication interfaces 160 that provide interfaces for one or more input/output devices 24 . The input/output interface 150 and the communication interface 160 are connected to the communication bus 170 . The input/output device (not shown) may be connected to other components of the image style conversion device 110 through the input/output interface 150 .

이미지 스타일 변환 장치(110)는 상이한 도메인에 해당하는 복수의 참고 이미지에 대한 정보량 비율 파라미터를 추출하여 하나의 학습된 스타일 변환 모델을 통해 복수의 도메인에 해당하는 다양한 스타일의 이미지로 변환한다.The image style conversion apparatus 110 extracts information amount ratio parameters for a plurality of reference images corresponding to different domains and converts them into images of various styles corresponding to a plurality of domains through one learned style conversion model.

이미지 스타일 변환 장치(110)는 도메인 판별 모델과 스타일 변환 모델을 포함한다. The image style conversion device 110 includes a domain determination model and a style conversion model.

이미지 스타일 변환 장치(110)에 적용된 도메인 판별 모델은 제1 도메인 이미지, 제2 도메인 이미지, 및 중간 도메인 이미지를 입력받아 학습되며, 중간 도메인 이미지는 제1 도메인 이미지와 제2 도메인 이미지가 일정 비율로 혼합된 이미지이다.The domain determination model applied to the image style conversion device 110 is learned by receiving a first domain image, a second domain image, and an intermediate domain image, and the intermediate domain image is a first domain image and a second domain image in a predetermined ratio. It is a mixed image.

이미지 스타일 변환 장치(110)에 적용된 스타일 변환 모델은 인코더 및 디코더를 포함하는 학습 네트워크 구조이고, 인코더의 출력이 디코더에 입력된다. 인코더에서 디코더로 원본 이미지의 특징의 고주파수 정보를 전달하고, 인코더에서 디코더로 스타일 변환된 특징의 고주파수 정보를 전달한다.The style transformation model applied to the image style transformation apparatus 110 is a learning network structure including an encoder and a decoder, and an output of the encoder is input to the decoder. The high frequency information of the features of the original image is transmitted from the encoder to the decoder, and the high frequency information of the style-transformed features is transmitted from the encoder to the decoder.

도 2 내지 도 4를 참조하여 도메인 판별 모델을 설명한다.A domain discrimination model will be described with reference to FIGS. 2 to 4 .

도 2는 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치가 혼합한 이미지를 예시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치의 도메인 판별 모델을 예시한 도면이다.2 is a diagram illustrating an image mixed by the image style conversion apparatus according to an embodiment of the present invention, and FIG. 3 is a diagram illustrating a domain discrimination model of the image style conversion apparatus according to an embodiment of the present invention.

도메인 판별 모델은 복수의 레이어가 연결된 학습 네트워크 구조이고, 제1 손실 함수 및 제2 손실 함수로 정의된다. 제1 손실 함수는 제1 도메인 및 제2 도메인을 구분하도록 학습되고, 제2 손실 함수는 중간 도메인을 찾도록 학습된다.The domain discrimination model is a learning network structure in which a plurality of layers are connected, and is defined by a first loss function and a second loss function. A first loss function is learned to distinguish the first and second domains, and a second loss function is learned to find an intermediate domain.

도메인 판별 모델은 바이너리 분류자이며 제1 도메인이면 0, 제2 도메인이면 1이 되도록 학습을 진행한다. 예컨대, 사진 유형에 해당하면 0, 예술작품 유형에 해당하면 1이 되도록 학습을 진행할 수 있다.The domain discrimination model is a binary classifier, and learning is performed so that it becomes 0 in the case of the first domain and 1 in the case of the second domain. For example, learning may be performed so that 0 corresponds to the photo type and 1 corresponds to the art work type.

도메인 판별 모델은 중간 도메인을 고려하도록 설계된다. 예컨대, 카툰 유형은 완전한 예술작품 유형이라고 볼 수 없고, 극사실주의 화풍 또는 예술주의 사진은 실제 사진 또는 예술 작품과는 거리가 멀어지도록 학습할 필요가 있다.The domain discriminant model is designed to consider intermediate domains. For example, the cartoon type cannot be regarded as a perfect type of work of art, and hyper-realistic style or artistic photography needs to be learned so as to be far from real photos or works of art.

각 도메인에서 선택된 두 유형의 데이터와 중간 도메인을 정의하기 위해 혼합 방식으로 조작된(augmented) 데이터 3개를 미리 학습된 모델에 통과시켜 특징을 추출한다. 미리 학습된 네트워크 모델은 다수의 레이어가 네트워크로 연결되며 히든 레이어를 포함한다. 레이어는 파라미터를 포함할 수 있고, 레이어의 파라미터는 학습가능한 필터 집합을 포함한다. 파라미터는 노드 간의 가중치 및/또는 바이어스를 포함한다.Two types of data selected in each domain and three data augmented in a mixed way to define an intermediate domain are passed through a pre-trained model to extract features. In the pre-trained network model, multiple layers are networked and include hidden layers. A layer may include parameters, and the parameters of the layer include a set of learnable filters. The parameters include weights and/or biases between nodes.

통과된 특징의 그램 행렬을 구한 후에 [FC(Fully connected) layer - ReLU - FC layer]로 구성된 도메인 지시자를 학습시킨다. 그램 행렬은 여러 레이어의 내적으로 만들어져 각 레이어 간의 상관 관계를 갖는다. 이러한 상관 관계가 이미지가 가진 스타일을 표현할 수 있다.After obtaining the gram matrix of the passed features, a domain indicator composed of [FC (Fully connected) layer - ReLU - FC layer] is trained. A gram matrix is created as a dot product of several layers, so that there is a correlation between each layer. This correlation can express the style of the image.

도메인 판별 모델은 손실 함수를 최소화하도록 학습되며, 도메인 판별 모델의 손실 함수는 제1 손실 함수 및 제2 손실 함수로 정의된다. 제1 도메인 및 제2 도메인을 구분하도록 학습되는 제1 손실 함수(Lclassification)와 중간 도메인을 찾도록 학습되는 제2 손실 함수(LDomain)는 수학식 1과 같이 표현된다.The domain discriminant model is trained to minimize the loss function, and the loss function of the domain discriminant model is defined as a first loss function and a second loss function. The first loss function L classification learned to distinguish the first domain and the second domain and the second loss function L Domain learned to find the intermediate domain are expressed as in Equation 1.

Figure 112020090474718-pat00001
Figure 112020090474718-pat00001

g()는 gram matrix를, f는 pretrained VGG-19를 거쳐나온 특징을 의미한다. Z 는 mix-up의 정도를 의미한다. p는 확률이고, yphoto는 사진 도메인에 대한 검증 자료이고, yart는 예술작품 도메인에 대한 검증 자료이다.g() denotes a gram matrix, and f denotes a feature from pretrained VGG-19. Z means the degree of mix-up. p is a probability, y photo is validation data for the photo domain, and y art is validation data for the artwork domain.

학습시킨 도메인 지시자를 활용해 참고 이미지가 사진인지 예술작품인지 여부를 값으로 추출하게 된다.By using the learned domain indicator, whether the reference image is a photograph or a work of art is extracted as a value.

도 4는 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치의 도메인 판별 모델이 출력한 비율 파라미터를 예시한 도면이다.4 is a diagram illustrating a ratio parameter output by a domain determination model of an apparatus for converting an image style according to an embodiment of the present invention.

제1 도메인은 사진 유형에 해당하고, 제2 도메인은 예술작품 유형에 해당하고, 중간 도메인은 카툰 유형에 해당할 수 있다. 참고 이미지의 도메인을 자동으로 판별하여서 알파 값을 추출한다. A first domain may correspond to a photo type, a second domain may correspond to an artwork type, and an intermediate domain may correspond to a cartoon type. The alpha value is extracted by automatically determining the domain of the reference image.

0에 가까울수록 사진 유형에 해당하고, 1에 가까울수록 예술작품 유형에 해당한다. 자동으로 구해진 알파 값으로 스타일 변환 조절이 가능하다. 즉, 기존 모델들의 한계점을 보완해서 하나의 모델로 여러 도메인 스타일 변환을 진행할 수 있다.A value closer to 0 corresponds to a photographic type, and a value closer to 1 corresponds to a work of art type. Style conversion can be adjusted with the automatically obtained alpha value. That is, multiple domain style transformations can be performed with one model by supplementing the limitations of existing models.

도 5는 본 발명의 일 실시예에 따른 이미지 스타일 변환 장치의 스타일 변환 모델을 예시한 도면이다.5 is a diagram illustrating a style conversion model of an image style conversion apparatus according to an embodiment of the present invention.

스타일 변환 모델은 인코더 및 디코더를 포함하는 학습 네트워크 구조이고, 인코더의 출력이 디코더에 입력된다. 인코더에서 디코더로 원본 이미지의 특징의 고주파수 정보를 전달하고, 인코더에서 디코더로 스타일 변환된 특징의 고주파수 정보를 전달한다.The style transformation model is a learning network structure including an encoder and a decoder, and the output of the encoder is input to the decoder. The high frequency information of the features of the original image is transmitted from the encoder to the decoder, and the high frequency information of the style-transformed features is transmitted from the encoder to the decoder.

인코더는 제1 인코더, 제2 인코더, 및 제3 인코더를 포함하고, 디코더는 제1 디코더, 제2 디코더, 및 제3 디코더를 포함할 수 있다. 디코더는 WCT(Whitening and Coloring Transforms 또는 Wavelet Corrected Transforms) 모듈을 포함할 수 있다.The encoder may include a first encoder, a second encoder, and a third encoder, and the decoder may include a first decoder, a second decoder, and a third decoder. The decoder may include a WCT (Whitening and Coloring Transforms or Wavelet Corrected Transforms) module.

제1 인코더의 출력이 제2 인코더에 입력되고, 제2 인코더의 출력이 제3 인코더에 입력되고, 스타일 변환기의 출력이 제3 디코더에 입력되고, 제3 디코더의 출력이 제2 디코더에 입력되고, 제2 디코더의 출력이 제1 인코더에 입력될 수 있다.the output of the first encoder is input to the second encoder, the output of the second encoder is input to the third encoder, the output of the style converter is input to the third decoder, the output of the third decoder is input to the second decoder, and , the output of the second decoder may be input to the first encoder.

제1 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 상기 제1 디코더로 전달하고, 제2 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 제2 디코더로 전달하고, 제3 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 제3 디코더로 전달하여, 대응하는 인코더와 디코더 간에 계층적으로 정보를 전달할 수 있다.The first encoder transmits the high frequency information of the feature of the original image and the high frequency information of the style-converted feature to the first decoder, and the second encoder transmits the extracted high-frequency information of the feature of the original image and the high-frequency information of the style-transformed feature It is transmitted to the second decoder, and the high frequency information of the features of the original image extracted by the third encoder and the high frequency information of the style-transformed features are transmitted to the third decoder, so that the information can be hierarchically transmitted between the corresponding encoder and the decoder.

스타일 변환 모델을 통해 스타일 변환된 출력의 스타일이 사진인지 예술작품인지의 차이는 생성 과정에서 원본 이미지(Content Image)의 정보량이 얼마나 많이 보존되면서 디코더 부분에 넘겨지는 차이에 의해 결정된다. 미리 학습된 도메인 판별 모델은 원본 이미지(Content Image)의 정보량을 얼마나 보존할지에 대한 양을 0과 1사이로 조절한다.The difference in whether the style of the style-converted output through the style conversion model is a photograph or a work of art is determined by the difference in how much information in the original image (Content Image) is preserved and passed to the decoder during the creation process. The pre-trained domain discrimination model adjusts the amount of information in the original image (Content Image) between 0 and 1.

보존되는 정보는 전체 정보가 아닌 에지 등과 같은 고 주파수 정보만을 보존시켜서 넘겨준다. 고 주파수 정보는 원본 특징과 평균 풀링을 통해 나온 특징의 차이를 통해 구할 수 있다. In the preserved information, only high-frequency information such as edges are preserved and delivered, not all information. High frequency information can be obtained through the difference between the original feature and the feature obtained through average pooling.

스타일 변환 모델에서 중간에 있는 3개의 파트가 각각 원본 이미지의 고 주파수 정보를 전달해주는 부분이다. 그러나 스타일 변환이 이루어지지 않는 원본 이미지의 고 주파수 정보를 전달하면 최종 결과물이 다소 어색해서 스타일 변환이 이루어진 특징의 고 주파수 정보를 전달하도록 설계한다.In the style conversion model, the three parts in the middle convey the high frequency information of the original image, respectively. However, if the high-frequency information of the original image without style conversion is transmitted, the final result is somewhat awkward, so it is designed to transmit the high-frequency information of the style-transformed feature.

예술적인 출력이 나오려면 고 주파수 정보를 최대한 손실시켜야 추상적인 결과를 얻을 수 있으므로, 블러링(예컨대, 가우시안 블러링)을 활용할 수 있다.For artistic output, high frequency information must be lost as much as possible to obtain abstract results, so blurring (eg, Gaussian blurring) can be utilized.

최종적으로 참고 이미지가 사진 유형이면 블러링의 커널 사이즈가 최소치(예컨대, 1로 설정)가 되어서 정보 손실 없이 고 주파수 정보를 디코더롤 넘겨줄 수 있고, 예술작품 유형이면 블러링의 커널 사이즈가 최대치(예컨대, 8로 설정)가 되어서 고 주파수 정보가 많이 손실된 상태로 디코더에 넘어가게 된다.Finally, if the reference image is a photo type, the kernel size of blurring becomes the minimum value (eg, set to 1) so that high-frequency information can be passed to the decoder without loss of information. For example, it is set to 8) and passes to the decoder in a state in which a lot of high frequency information is lost.

학습은 복원을 수행하는 방식으로 진행한다. 즉, 특징으로부터 RGB 이미지로 매핑하는 디코더를 학습한다. Learning proceeds in such a way that restoration is performed. That is, it learns a decoder that maps from features to RGB images.

스타일 변환 모델의 손실 함수는 제3 손실 함수(Lperceptual), 제4 손실 함수(LTV), 및 제5 손실 함수(LCX)로 정의되며, 수학식 2와 같이 표현된다.The loss function of the style transformation model is defined as a third loss function (L perceptual ), a fourth loss function (L TV ), and a fifth loss function (L CX ), and is expressed as Equation (2).

Figure 112020090474718-pat00002
Figure 112020090474718-pat00002

제3 손실 함수는 검증 자료와 비교한 특징의 거리를 감소시키도록 학습된다. 제3 손실 함수는 특징 간의 L2 거리가 줄어들도록 설정할 수 있다.A third loss function is learned to reduce the distance of the feature compared to the validation data. The third loss function may be set to decrease the L2 distance between features.

제4 손실 함수는 이미지 내의 특징의 분포가 고르도록 학습된다. 제4 손실 함수는 이미지가 자연스럽도록 한 이미지 내의 특징의 분포가 고르도록 설정한다.The fourth loss function is trained so that the distribution of features in the image is even. The fourth loss function sets the distribution of features in the image to be even so that the image is natural.

제5 손실 함수는 검증 자료와 비교한 특징의 유사도를 감소시키도록 학습된다. 제5 손실 함수에서 CX는 특징 간의 코사인 유사도가 줄어들도록 설정할 수 있다.A fifth loss function is trained to reduce the similarity of features compared to the validation data. In the fifth loss function, CX may be set to reduce the cosine similarity between features.

도 6은 본 발명의 다른 실시예에 따른 이미지 스타일 변환 방법을 예시한 흐름도이다. 이미지 스타일 변환 방법은 컴퓨팅 디바이스에 의하여 수행될 수 있으며, 이미지 스타일 변환 장치와 동일한 방식으로 동작한다.6 is a flowchart illustrating an image style conversion method according to another embodiment of the present invention. The image style conversion method may be performed by a computing device and operates in the same manner as the image style conversion apparatus.

단계 S210에서 프로세서는 제1 도메인 이미지 또는 제2 도메인 이미지에 해당하는 참고 이미지를 입력받고 도메인 판별 모델을 통해 참고 이미지에 대한 정보량 비율 파라미터를 추출한다.In step S210, the processor receives a reference image corresponding to the first domain image or the second domain image, and extracts an information amount ratio parameter for the reference image through the domain determination model.

단계 S220에서 프로세서는 참고 이미지와 콘텐츠 이미지를 입력받고 정보량 비율 파라미터에 따라 콘텐츠 이미지에서 보존될 정보량이 조절된 스타일 변환 모델을 통해 콘텐츠 이미지의 스타일을 변환한다.In step S220, the processor receives the reference image and the content image, and converts the style of the content image through the style conversion model in which the amount of information to be preserved in the content image is adjusted according to the information amount ratio parameter.

도 7은 본 발명의 실시예들에 따른 시뮬레이션 결과를 예시한 도면이다.7 is a diagram illustrating simulation results according to embodiments of the present invention.

도 7에 도시된 바와 같이 본 실시예에 따른 이미지 스타일 변환 장치가 변환한 이미지는 하나의 스타일 변환 모델을 통해서 참고 이미지가 예술작품이면 예술작품 스타일이 적용된 이미지를 올바르게 출력하고, 참고 이미지가 사진이면 사진 스타일이 적용된 이미지를 올바르게 출력한다. 즉, 두 도메인(예술작품 또는 사진)에 맞게 한 쪽의 결과만으로 편향되지 않고 스타일 변환을 올바르게 수행하는 것을 알 수 있다.As shown in FIG. 7 , the image converted by the image style conversion device according to the present embodiment is correctly outputted if the reference image is a work of art through one style conversion model, and if the reference image is a photograph, the image to which the artwork style is applied Correctly output images with photo styles applied. In other words, it can be seen that the style conversion is performed correctly without biasing the result of only one side to fit both domains (work of art or photography).

이미지 스타일 변환 장치는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합에 의해 로직회로 내에서 구현될 수 있고, 범용 또는 특정 목적 컴퓨터를 이용하여 구현될 수도 있다. 장치는 고정배선형(Hardwired) 기기, 필드 프로그램 가능한 게이트 어레이(Field Programmable Gate Array, FPGA), 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등을 이용하여 구현될 수 있다. 또한, 장치는 하나 이상의 프로세서 및 컨트롤러를 포함한 시스템온칩(System on Chip, SoC)으로 구현될 수 있다.The image style conversion apparatus may be implemented in a logic circuit by hardware, firmware, software, or a combination thereof, and may be implemented using a general-purpose or special-purpose computer. The device may be implemented using a hardwired device, a field programmable gate array (FPGA), an application specific integrated circuit (ASIC), or the like. In addition, the device may be implemented as a system on chip (SoC) including one or more processors and controllers.

이미지 스타일 변환 장치는 하드웨어적 요소가 마련된 컴퓨팅 디바이스 또는 서버에 소프트웨어, 하드웨어, 또는 이들의 조합하는 형태로 탑재될 수 있다. 컴퓨팅 디바이스 또는 서버는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신장치, 프로그램을 실행하기 위한 데이터를 저장하는 메모리, 프로그램을 실행하여 연산 및 명령하기 위한 마이크로프로세서 등을 전부 또는 일부 포함한 다양한 장치를 의미할 수 있다.The image style conversion apparatus may be mounted in a form of software, hardware, or a combination thereof on a computing device or server provided with hardware elements. A computing device or server is all or part of a communication device such as a communication modem for performing communication with various devices or wired/wireless communication networks, a memory for storing data for executing a program, and a microprocessor for executing operations and commands by executing the program It can mean a variety of devices, including

도 6에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나 이는 예시적으로 설명한 것에 불과하고, 이 분야의 기술자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 6에 기재된 순서를 변경하여 실행하거나 또는 하나 이상의 과정을 병렬적으로 실행하거나 다른 과정을 추가하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이다.Although it is described that each process is sequentially executed in FIG. 6, this is merely an exemplary description, and those skilled in the art change the order described in FIG. 6 within the range that does not depart from the essential characteristics of the embodiment of the present invention Alternatively, various modifications and variations may be applied by executing one or more processes in parallel or adding other processes.

본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.The operations according to the present embodiments may be implemented in the form of program instructions that can be performed through various computer means and recorded in a computer-readable medium. Computer-readable medium represents any medium that participates in providing instructions to a processor for execution. Computer-readable media may include program instructions, data files, data structures, or a combination thereof. For example, there may be a magnetic medium, an optical recording medium, a memory, and the like. A computer program may be distributed over a networked computer system so that computer readable code is stored and executed in a distributed manner. Functional programs, codes, and code segments for implementing the present embodiment may be easily inferred by programmers in the technical field to which the present embodiment pertains.

본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The present embodiments are for explaining the technical idea of the present embodiment, and the scope of the technical idea of the present embodiment is not limited by these embodiments. The protection scope of this embodiment should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be interpreted as being included in the scope of the present embodiment.

Claims (15)

컴퓨팅 디바이스에 의한 이미지 스타일 변환 방법에 있어서,
제1 도메인 이미지 또는 제2 도메인 이미지에 해당하는 참고 이미지를 입력받고 도메인 판별 모델을 통해 상기 참고 이미지에 대한 정보량 비율 파라미터를 추출하는 단계; 및
상기 참고 이미지와 콘텐츠 이미지를 입력받고 상기 정보량 비율 파라미터에 따라 상기 콘텐츠 이미지에서 보존될 정보량이 조절된 스타일 변환 모델을 통해 상기 콘텐츠 이미지의 스타일을 변환하는 단계를 포함하며,
상기 도메인 판별 모델은 상기 제1 도메인 이미지, 상기 제2 도메인 이미지, 및 중간 도메인 이미지를 입력받아 학습되며, 상기 중간 도메인 이미지는 상기 제1 도메인 이미지와 상기 제2 도메인 이미지가 일정 비율로 혼합된 이미지인 것을 특징으로 하는 이미지 스타일 변환 방법.
An image style conversion method by a computing device, comprising:
receiving a reference image corresponding to the first domain image or the second domain image and extracting an information amount ratio parameter for the reference image through a domain discrimination model; and
receiving the reference image and the content image and converting the style of the content image through a style conversion model in which the amount of information to be preserved in the content image is adjusted according to the information amount ratio parameter;
The domain discrimination model is learned by receiving the first domain image, the second domain image, and an intermediate domain image, and the intermediate domain image is an image in which the first domain image and the second domain image are mixed at a certain ratio. Image style conversion method, characterized in that.
삭제delete 제1항에 있어서,
상기 도메인 판별 모델은 복수의 레이어가 연결된 학습 네트워크 구조이고, 제1 손실 함수 및 제2 손실 함수로 정의되며,
상기 제1 손실 함수는 제1 도메인 및 제2 도메인을 구분하도록 학습되고,
상기 제2 손실 함수는 중간 도메인을 찾도록 학습되는 것을 특징으로 하는 이미지 스타일 변환 방법.
According to claim 1,
The domain discrimination model is a learning network structure in which a plurality of layers are connected, and is defined by a first loss function and a second loss function,
the first loss function is learned to distinguish a first domain and a second domain,
and the second loss function is trained to find an intermediate domain.
제3항에 있어서,
상기 제1 도메인은 사진 유형에 해당하고, 상기 제2 도메인은 예술작품 유형에 해당하고, 상기 중간 도메인은 카툰 유형에 해당하는 것을 특징으로 하는 이미지 스타일 변환 방법.
4. The method of claim 3,
The first domain corresponds to a photo type, the second domain corresponds to an artwork type, and the intermediate domain corresponds to a cartoon type.
제1항에 있어서,
상기 스타일 변환 모델은 인코더 및 디코더를 포함하는 학습 네트워크 구조이고, 상기 인코더의 출력이 상기 디코더에 입력되고,
상기 인코더에서 상기 디코더로 원본 이미지의 특징의 고주파수 정보를 전달하고,
상기 인코더에서 상기 디코더로 스타일 변환된 특징의 고주파수 정보를 전달하는 것을 특징으로 하는 이미지 스타일 변환 방법.
According to claim 1,
The style transformation model is a learning network structure including an encoder and a decoder, the output of the encoder is input to the decoder,
transmitting high-frequency information of features of the original image from the encoder to the decoder;
Image style conversion method, characterized in that the high frequency information of the style-transformed feature is transmitted from the encoder to the decoder.
제5항에 있어서,
상기 스타일 변환 모델은 상기 인코더에서 상기 디코더로 스타일 변환된 특징의 고주파수 정보를 전달하는 과정에서 상기 정보량 비율 파라미터에 따라 블러링 알고리즘을 가변적으로 적용하는 것을 특징으로 하는 이미지 스타일 변환 방법.
6. The method of claim 5,
The style transformation model is an image style transformation method, wherein a blurring algorithm is variably applied according to the information amount ratio parameter in a process of transferring the high frequency information of the style-transformed feature from the encoder to the decoder.
제5항에 있어서,
상기 인코더는 제1 인코더, 제2 인코더, 및 제3 인코더를 포함하고,
상기 디코더는 제1 디코더, 제2 디코더, 및 제3 디코더를 포함하고,
상기 제1 인코더의 출력이 상기 제2 인코더에 입력되고, 상기 제2 인코더의 출력이 상기 제3 인코더에 입력되고,
상기 제3 디코더의 출력이 상기 제2 디코더에 입력되고, 상기 제2 디코더의 출력이 상기 제1 인코더에 입력되고,
상기 제1 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 상기 제1 디코더로 전달하고,
상기 제2 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 상기 제2 디코더로 전달하고,
상기 제3 인코더가 추출한 원본 이미지의 특징의 고주파수 정보 및 스타일 변환된 특징의 고주파수 정보를 상기 제3 디코더로 전달하여,
대응하는 인코더와 디코더 간에 계층적으로 정보를 전달하는 것을 특징으로 하는 이미지 스타일 변환 방법.
6. The method of claim 5,
the encoder comprises a first encoder, a second encoder, and a third encoder;
The decoder comprises a first decoder, a second decoder, and a third decoder,
the output of the first encoder is input to the second encoder, the output of the second encoder is input to the third encoder,
an output of the third decoder is input to the second decoder, and an output of the second decoder is input to the first encoder;
transmitting high-frequency information of the features of the original image extracted by the first encoder and high-frequency information of the style-converted features to the first decoder,
transmitting the high frequency information of the features of the original image extracted by the second encoder and the high frequency information of the style-converted features to the second decoder,
By transmitting the high frequency information of the features of the original image extracted by the third encoder and the high frequency information of the style-converted features to the third decoder,
An image style transformation method, characterized in that hierarchically passing information between corresponding encoders and decoders.
제5항에 있어서,
상기 고주파수 정보는 입력된 데이터의 특징 및 상기 입력된 데이터의 차원을 감소시키는 풀링을 통해 나온 특징 간의 차이를 이용하여 산출되는 것을 특징으로 하는 이미지 스타일 변환 방법.
6. The method of claim 5,
The high frequency information is calculated using a difference between a feature of the input data and a feature obtained through pooling for reducing the dimension of the input data.
제5항에 있어서,
상기 스타일 변환 모델은 제3 손실 함수, 제4 손실 함수, 및 제5 손실 함수로 정의되며,
상기 제3 손실 함수는 검증 자료와 비교한 특징의 거리를 감소시키도록 학습되고,
상기 제4 손실 함수는 이미지 내의 특징의 분포가 고르도록 학습되고,
상기 제5 손실 함수는 상기 검증 자료와 비교한 특징의 유사도를 감소시키도록 학습되는 것을 특징으로 하는 이미지 스타일 변환 방법.
6. The method of claim 5,
The style transformation model is defined by a third loss function, a fourth loss function, and a fifth loss function,
the third loss function is learned to reduce the distance of the feature compared to the validation data;
The fourth loss function is learned so that the distribution of features in the image is even,
and the fifth loss function is learned to reduce the similarity of features compared to the verification data.
하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 이미지 스타일 변환 장치에 있어서,
상기 프로세서는,
제1 도메인 이미지 또는 제2 도메인 이미지에 해당하는 참고 이미지를 입력받고 도메인 판별 모델을 통해 상기 참고 이미지에 대한 정보량 비율 파라미터를 추출하고,
상기 참고 이미지와 콘텐츠 이미지를 입력받고 상기 정보량 비율 파라미터에 따라 상기 콘텐츠 이미지에서 보존될 정보량이 조절된 스타일 변환 모델을 통해 상기 콘텐츠 이미지의 스타일을 변환하며,
상기 도메인 판별 모델은 상기 제1 도메인 이미지, 상기 제2 도메인 이미지, 및 중간 도메인 이미지를 입력받아 학습되며, 상기 중간 도메인 이미지는 상기 제1 도메인 이미지와 상기 제2 도메인 이미지가 일정 비율로 혼합된 이미지인 것을 특징으로 하는 이미지 스타일 변환 장치.
An image style conversion apparatus comprising one or more processors and a memory for storing one or more programs executed by the one or more processors,
The processor is
receiving a reference image corresponding to the first domain image or the second domain image and extracting the information amount ratio parameter for the reference image through a domain discrimination model;
receiving the reference image and the content image and converting the style of the content image through a style conversion model in which the amount of information to be preserved in the content image is adjusted according to the information amount ratio parameter;
The domain discrimination model is learned by receiving the first domain image, the second domain image, and an intermediate domain image, and the intermediate domain image is an image in which the first domain image and the second domain image are mixed at a certain ratio. Image style conversion device, characterized in that.
삭제delete 제10항에 있어서,
상기 도메인 판별 모델은 복수의 레이어가 연결된 학습 네트워크 구조이고, 제1 손실 함수 및 제2 손실 함수로 정의되며,
상기 제1 손실 함수는 제1 도메인 및 제2 도메인을 구분하도록 학습되고, 상기 제2 손실 함수는 중간 도메인을 찾도록 학습되는 것을 특징으로 하는 이미지 스타일 변환 장치.
11. The method of claim 10,
The domain discrimination model is a learning network structure in which a plurality of layers are connected, and is defined by a first loss function and a second loss function,
The first loss function is learned to distinguish a first domain and a second domain, and the second loss function is learned to find an intermediate domain.
제10항에 있어서,
상기 스타일 변환 모델은 인코더 및 디코더를 포함하는 학습 네트워크 구조이고, 상기 인코더의 출력이 상기 디코더에 입력되고,
상기 인코더에서 상기 디코더로 원본 이미지의 특징의 고주파수 정보를 전달하고,
상기 인코더에서 상기 디코더로 스타일 변환된 특징의 고주파수 정보를 전달하는 것을 특징으로 하는 이미지 스타일 변환 장치.
11. The method of claim 10,
The style transformation model is a learning network structure including an encoder and a decoder, the output of the encoder is input to the decoder,
transmitting high-frequency information of features of the original image from the encoder to the decoder;
Image style conversion apparatus, characterized in that for transmitting the high frequency information of the style-converted feature from the encoder to the decoder.
제13항에 있어서,
상기 스타일 변환 모델은 상기 인코더에서 상기 디코더로 스타일 변환된 특징의 고주파수 정보를 전달하는 과정에서 상기 정보량 비율 파라미터에 따라 블러링 알고리즘을 가변적으로 적용하는 것을 특징으로 하는 이미지 스타일 변환 장치.
14. The method of claim 13,
In the style transformation model, a blurring algorithm is variably applied according to the information amount ratio parameter in a process of transmitting high frequency information of the style-transformed feature from the encoder to the decoder.
제13항에 있어서,
상기 스타일 변환 모델은 제3 손실 함수, 제4 손실 함수, 및 제5 손실 함수로 정의되며,
상기 제3 손실 함수는 검증 자료와 비교한 특징의 거리를 감소시키도록 학습되고,
상기 제4 손실 함수는 이미지 내의 특징의 분포가 고르도록 학습되고,
상기 제5 손실 함수는 상기 검증 자료와 비교한 특징의 유사도를 감소시키도록 학습되는 것을 특징으로 하는 이미지 스타일 변환 장치.
14. The method of claim 13,
The style transformation model is defined by a third loss function, a fourth loss function, and a fifth loss function,
the third loss function is learned to reduce the distance of the feature compared to the validation data;
The fourth loss function is learned so that the distribution of features in the image is even,
and the fifth loss function is learned to reduce a similarity of a feature compared with the verification data.
KR1020200108591A 2020-08-27 2020-08-27 Multiple domain arbitrary style transfer with single model and method thereof Active KR102401985B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200108591A KR102401985B1 (en) 2020-08-27 2020-08-27 Multiple domain arbitrary style transfer with single model and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200108591A KR102401985B1 (en) 2020-08-27 2020-08-27 Multiple domain arbitrary style transfer with single model and method thereof

Publications (2)

Publication Number Publication Date
KR20220027565A KR20220027565A (en) 2022-03-08
KR102401985B1 true KR102401985B1 (en) 2022-05-24

Family

ID=80812465

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200108591A Active KR102401985B1 (en) 2020-08-27 2020-08-27 Multiple domain arbitrary style transfer with single model and method thereof

Country Status (1)

Country Link
KR (1) KR102401985B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240085811A (en) 2022-12-08 2024-06-17 서울과학기술대학교 산학협력단 Apparatus and method for converting style of images

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102599170B1 (en) * 2022-03-21 2023-11-06 한국기술교육대학교 산학협력단 Style transfer used real-time work producing system and its method
KR20230143066A (en) * 2022-04-04 2023-10-11 삼성전자주식회사 Display device and operating method for the same
KR102543451B1 (en) * 2022-04-29 2023-06-13 주식회사 이너버즈 Image feature extraction and synthesis system using deep learning and its learning method
CN114926568B (en) * 2022-05-30 2025-01-10 京东科技信息技术有限公司 Model training method, image generation method and device
KR102686888B1 (en) * 2022-09-06 2024-07-22 한국전자통신연구원 Apparatus and method for changing image style
KR102702958B1 (en) * 2022-11-29 2024-09-04 연세대학교 산학협력단 Apparatus and method for style conversion of input image
KR102529214B1 (en) * 2023-02-04 2023-05-08 주식회사 이너버즈 Method and apparatus for learning face swapping deep learning system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101789A (en) * 2017-12-04 2019-06-24 日本電信電話株式会社 Model learning device, model learning method, and prediction system
JP2020112907A (en) * 2019-01-09 2020-07-27 凸版印刷株式会社 Image style conversion device, image style conversion method, and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100924689B1 (en) 2007-12-17 2009-11-03 한국전자통신연구원 Image converting device and method for mobile devices
KR102403494B1 (en) * 2017-04-27 2022-05-27 에스케이텔레콤 주식회사 Method for learning Cross-domain Relations based on Generative Adversarial Network
KR20200065433A (en) 2018-11-30 2020-06-09 주식회사 인공지능연구원 Style Trasnfer Model and Apparatus for Style Trasnfer of Composite Image based on Photo Montage

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101789A (en) * 2017-12-04 2019-06-24 日本電信電話株式会社 Model learning device, model learning method, and prediction system
JP2020112907A (en) * 2019-01-09 2020-07-27 凸版印刷株式会社 Image style conversion device, image style conversion method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240085811A (en) 2022-12-08 2024-06-17 서울과학기술대학교 산학협력단 Apparatus and method for converting style of images

Also Published As

Publication number Publication date
KR20220027565A (en) 2022-03-08

Similar Documents

Publication Publication Date Title
KR102401985B1 (en) Multiple domain arbitrary style transfer with single model and method thereof
JP7002404B2 (en) Neural network that discovers latent factors from data
US20210319240A1 (en) Generator exploitation for deepfake detection
CN106599869B (en) A vehicle attribute recognition method based on multi-task convolutional neural network
US12159232B2 (en) Apparatus and method with neural network implementation of domain adaptation
CN112418345B (en) Method and device for quickly identifying small targets with fine granularity
US12125212B2 (en) Methods and apparatus for high-fidelity vision tasks using deep neural networks
CN110796154A (en) Method, device and equipment for training object detection model
Maniyath et al. RETRACTED ARTICLE: Learning-based approach to underwater image dehazing using CycleGAN
KR102185855B1 (en) Zero Shot Recognition Apparatus for Automatically Generating Undefined Attribute Information in Data Set and Method Thereof
JP7639311B2 (en) Machine learning device, machine learning method, and machine learning program
CN114581876B (en) Method for constructing lane detection model and lane line detection method in complex scenes
US12423951B2 (en) Server for classifying image and operating method thereof
KR20210085403A (en) Method for processing image based on machine learning and apparatus therefof
WO2022133814A1 (en) Omni-scale convolution for convolutional neural networks
KR20230096901A (en) Method and Apparatus for Data Augmentation for Learning Autonomous Vehicle
KR102464359B1 (en) Image converting apparatus for adapting from synthetic domain to real domain and method thereof
CN113268599B (en) Training method and device for file classification model, computer equipment and storage medium
CN120020883A (en) Multi-attribute transfer for text-to-image synthesis
US20250239058A1 (en) Facial beauty prediction method, apparatus, device and storage medium
Nair et al. Image forgery and image tampering detection techniques: a review
CN115861812A (en) Method and system for detecting change of remote sensing map
KR20220014148A (en) Fair Image Translation Apparatus Using Learning Protected Attribute Representation and Method Thereof
KR20230095544A (en) Method and apparatus for performing machine learning and classifying time series data through multi-channel imaging of time series data
CN113963428A (en) Model training method, occlusion detection method, system, electronic device, and medium

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20200827

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20220114

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20220518

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20220520

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20220520

End annual number: 3

Start annual number: 1

PG1601 Publication of registration