KR102570278B1

KR102570278B1 - 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법

Info

Publication number: KR102570278B1
Application number: KR1020170096902A
Authority: KR
Inventors: 오도관; 현윤석
Original assignee: 삼성전자주식회사
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2023-08-24
Anticipated expiration: 2037-07-31
Also published as: US20190034764A1; US12039016B2; KR20190013011A

Abstract

일실시예에 따른 학습 데이터 생성 장치는 사전에 학습된 교사 모델이 입력 데이터에 대응하여 출력한 출력 데이터중에서, 교사 모델에 대응하는 학생 모델을 학습 시키기에 적합하지 않은 데이터를 탐지할 수 있다. 학생 모델을 학습 시키기에 적합하지 않은 출력 데이터가 학생 모델의 학습에 활용되지 않도록, 학습 데이터 생성 장치는 학생 모델을 학습 시키기에 적합하지 않은 출력 데이터를 미리 설정된 무시 값(ignore value)으로 변경할 수 있다. 더 나아가서, 학생 모델을 학습 시키기에 적합한 출력 데이터에 대하여, 학습 데이터 생성 장치는 출력 데이터를 변경함으로써, 학생 모델이 교사 모델의 출력 데이터보다 개선된 결과를 출력할 수 있도록 만들 수 있다. 예를 들어, 교사 모델이 입력 데이터에 대하여 확률 형태의 레이블 값을 출력하는 경우, 학습 데이터 생성 장치는 레이블 값을 복수의 레이블 값 임계치와 비교하고, 레이블 값을 복수의 레이블 값 임계치로 구분되는 복수의 구간에 대응하는 식별자로 변경할 수 있다.

Description

교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법{APPARATUS AND METHOD FOR GENERATING TRAINING DATA USED TO TRAINING STUDENT MODEL FROM TEACHER MODEL}

이하의 실시예는 뉴럴 네트워크를 학습시키는 학습 데이터를 생성하는 장치 및 방법에 관한 것이다.

뉴럴 네트워크는 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링 한 것으로, 입력 데이터 및 출력 데이터 간의 사상(mapping)을 생성할 수 있다. 기계 지도 학습(Machine supervised learning) 방법은 입력 데이터 및 입력 데이터에 대응하는 진리 데이터를 이용하여 뉴럴 네트워크를 학습시키는 방법이다. 즉, 뉴럴 네트워크가 진리 데이터를 이용하여 학습됨에 따라, 뉴럴 네트워크가 입력 데이터로부터 출력하는 출력 데이터는 입력 데이터에 대응하는 진리 데이터에 수렴할 수 있다.

뉴럴 네트워크를 학습시키기 위하여, 대량의 입력 데이터 및 학습 데이터가 생성될 수 있다. 사람이 입력 데이터로부터 직접 정보를 추출함으로써, 학습 데이터가 생성될 수 있다.

일실시예에 따르면, 입력 데이터를 교사 모델에 입력하여, 상기 입력 데이터에 대한 레이블 값을 획득하는 단계, 상기 레이블 값을 복수의 확률 임계치와 비교하여, 상기 레이블 값을 상기 복수의 확률 임계치로 구분되는 복수의 구간 중 어느 하나로 분류하는 단계 및 상기 레이블 값이 분류된 구간의 식별자 및 상기 입력 데이터를 병합하여, 상기 교사 모델에 대응하는 학생 모델을 트레이닝하기 위한 학습 데이터를 생성하는 단계를 포함하는 학습 데이터 생성 방법이 제공된다.

일실시예에 따르면, 상기 분류하는 단계는, 상기 레이블 값이 상기 복수의 확률 임계치 중 가장 큰 확률 임계치 이상인 경우, 상기 레이블 값을 상기 복수의 구간 중에서 상기 입력 데이터가 상기 레이블 값과 관련된 클래스에 대응함을 나타내는 긍정(positive) 구간으로 분류하는 학습 데이터 생성 방법이 제공된다.

일실시예에 따르면, 상기 분류하는 단계는, 상기 레이블 값이 상기 복수의 확률 임계치 중 가장 작은 확률 임계치 이하인 경우, 상기 레이블 값을 상기 복수의 구간 중에서 상기 입력 데이터가 상기 레이블 값과 관련된 클래스에 대응하지 않음을 나타내는 부정(negative) 구간으로 분류하는 학습 데이터 생성 방법이 제공된다.

일실시예에 따르면, 상기 분류하는 단계는, 상기 레이블 값이 상기 복수의 확률 임계치 중 가장 작은 확률 임계치 이상이고, 상기 레이블 값이 상기 복수의 확률 임계치 중 가장 큰 확률 임계치 이하인 경우, 상기 레이블 값을 상기 학생 모델의 트레이닝에 적용하지 않는 무시(ignore) 구간으로 분류하는 학습 데이터 생성 방법이 제공된다.

일실시예에 따르면, 상기 학생 모델은, 상기 교사 모델에 포함된 히든 레이어의 수 이하의 히든 레이어를 포함하거나 또는 상기 교사 모델에 포함된 필터의 수 이하의 필터를 포함하는 학습 데이터 생성 방법이 제공된다.

일실시예에 따르면, 인식하고자 하는 대상 데이터를 수신하는 단계 및 트레이닝된 학생 모델을 이용하여 상기 대상 데이터를 인식하는 단계를 포함하고, 상기 학생 모델은, 상기 학생 모델에 대응하는 교사 모델에 입력 데이터를 입력함으로써 획득된 레이블 값을 복수의 확률 임계치로 구분되는 복수의 구간 중 어느 하나로 분류한 결과에 기초하여 생성된 학습 데이터에 의해 트레이닝된 데이터 인식 방법이 제공된다.

일실시예에 따르면, 상기 복수의 구간은, 상기 입력 데이터가 상기 레이블 값과 관련된 클래스에 대응함을 나타내는 긍정(positive) 구간, 상기 복수의 구간 중에서 상기 입력 데이터가 상기 레이블 값과 관련된 클래스에 대응하지 않음을 나타내는 부정(negative) 구간 및 상기 레이블 값을 상기 학생 모델의 트레이닝에 적용하지 않는 무시(ignore) 구간을 포함하는 데이터 인식 방법이 제공된다.

일실시예에 따르면, 상기 교사 모델은, 상기 학생 모델에 포함된 히든 레이어의 수 이상의 히든 레이어를 포함하거나 또는 상기 학생 모델에 포함된 필터의 수 이상의 필터를 포함하는 데이터 인식 방법이 제공된다.

일실시예에 따르면, 입력 데이터를 저장하는 메모리 및 프로세서를 포함하고, 상기 프로세서는, 상기 입력 데이터를 하나 이상의 교사 모델에 입력하여, 상기 하나 이상의 교사 모델에 의해 결정되는 상기 입력 데이터가 복수의 클래스들 각각과 매칭될 확률을 포함하는 확률 레이블을 획득하고, 상기 확률 레이블에 포함된 확률들을 복수의 확률 임계치와 비교하여, 상기 확률 레이블에 포함된 확률들을 상기 복수의 확률 임계치와 비교한 결과 값으로 변경하고, 상기 입력 데이터 및 상기 변경된 확률 레이블을 병합하여, 상기 하나 이상의 교사 모델에 대응하는 학생 모델을 트레이닝하기 위한 학습 데이터를 생성하는 학습 데이터 생성 장치가 제공된다.

일실시예에 따르면, 상기 프로세서는, 상기 확률 레이블에 포함된 확률들 중에서 상기 복수의 확률 임계치 중 가장 큰 확률 임계치 이상인 확률을, 상기 입력 데이터가 상기 확률에 대응하는 클래스에 매칭됨을 나타내는 긍정(positive) 값으로 변경하는 학습 데이터 생성 장치가 제공된다.

일실시예에 따르면, 상기 프로세서는, 상기 확률 레이블에 포함된 확률들 중에서 상기 복수의 확률 임계치 중 가장 작은 확률 임계치 이하인 확률을, 상기 입력 데이터가 상기 확률에 대응하는 클래스에 매칭되지 않음을 나타내는 부정(negative) 값으로 변경하는 학습 데이터 생성 장치가 제공된다.

일실시예에 따르면, 상기 프로세서는, 상기 확률 레이블에 포함된 확률들 중에서 상기 복수의 확률 임계치 중 가장 작은 확률 임계치 이상이고 상기 복수의 확률 임계치 중 가장 큰 확률 임계치 이하인 확률을, 상기 학생 모델의 트레이닝에 상기 확률을 사용하지 않을 것을 나타내는 무시(ignore) 값으로 변경하는 학습 데이터 생성 장치가 제공된다.

일실시예에 따르면, 상기 프로세서는, 상기 입력 데이터를 복수의 교사 모델에 입력하는 경우, 상기 복수의 교사 모델을 포함하는 교사 모델 앙상블에 기초하여 상기 확률 레이블을 획득하는 학습 데이터 생성 장치가 제공된다.

도 1은 일실시예에 따른 학습 데이터 생성 장치가 사전에 트레이닝된 교사 모델을 이용하여 학생 모델을 트레이닝하는 동작을 개략적으로 설명하기 위한 도면이다.
도 2는 일실시예에 따른 학습 데이터 생성 장치가 레이블 값들을 정제하여 학습 데이터를 생성하는 동작을 설명하기 위한 흐름도이다.
도 3은 일실시예에 따른 학습 데이터 생성 장치가 생성한 학습 데이터를 이용하여 학생 모델을 트레이닝하는 동작을 설명하기 위한 흐름도이다.
도 4는 일실시예에 따른 학습 데이터 생성 장치에 의해 학습된 학생 모델을 이용하는 데이터 인식 장치가 수행하는 동작을 설명하기 위한 흐름도이다.
도 5는 다른 일실시예에 따른 학습 데이터 생성 장치가 사전에 트레이닝된 교사 모델 앙상블을 이용하여 학생 모델을 트레이닝하는 동작을 개략적으로 설명하기 위한 도면이다.
도 6은 일실시예에 따른 학습 데이터 생성 장치의 구조를 개념적으로 도시한 도면이다.
도 7은 일실시예에 따른 데이터 인식 장치의 구조를 개념적으로 도시한 도면이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 예를 들어, 실시예들은 스마트 폰, 모바일 기기, 스마트 홈 시스템 등에서 사용자를 인증하는데 적용될 수 있다. 실시예들은 사용자 인증을 통한 결제 서비스에 적용될 수 있다. 또한, 실시예들은 사용자를 인증하여 자동으로 시동을 거는 지능형 자동차 시스템 등에도 적용될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따른 학습 데이터 생성 장치가 사전에 트레이닝된 교사 모델(120)을 이용하여 학생 모델(150)을 트레이닝하는 동작을 개략적으로 설명하기 위한 도면이다.

교사 모델(120) 및 학생 모델(150)은 특정한 입력 데이터에 대하여 특정한 출력 데이터를 생성하도록 학습되거나 또는 트레이닝된 모델로써, 예를 들어, 뉴럴 네트워크(neural network)를 포함할 수 있다. 뉴럴 네트워크는 연결선에 의해 연결된 복수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 인식 모델이다. 뉴럴 네트워크는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런들을 이용하고, 인공 뉴런들은 연결 가중치(connection weight)를 가지는 연결선을 통해 상호 연결될 수 있다. 뉴럴 네트워크의 파라미터인 연결 가중치는 연결선이 가지는 값으로써, 연결 강도를 나타낼 수 있다. 뉴럴 네트워크는 인공 뉴런들을 통해 인간의 인지 작용 또는 학습 과정을 수행할 수 있다. 뉴럴 네트워크의 인공 뉴런은 노드(node)라 지칭될 수 있다.

뉴럴 네트워크는 복수의 레이어를 포함할 수 있다. 예를 들어, 뉴럴 네트워크는 입력 레이어, 하나 이상의 히든 레이어 및 출력 레이어를 포함할 수 있다. 입력 레이어는 뉴럴 네트워크의 트레이닝을 위한 입력 데이터를 수신하여 히든 레이어로 전달할 수 있고, 출력 레이어는 히든 레이어의 노드들로부터 수신된 신호에 기초하여 뉴럴 네트워크의 출력 데이터를 생성할 수 있다. 하나 이상의 히든 레이어가 입력 레이어 및 출력 레이어 사이에 위치할 수 있고, 입력 레이어를 통해 전달된 입력 데이터를 예측하기 쉬운 값으로 변환할 수 있다. 입력 레이어 및 하나 이상의 히든 레이어에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있고, 히든 레이어 및 출력 레이어에 포함된 노드들도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 입력 레이어, 하나 이상의 히든 레이어 및 출력 레이어는 복수의 노드들을 포함할 수 있다. 히든 레이어는 CNN(convolutional neural network)에서의 콘볼루션 필터(convolution filter) 또는 완전 연결 레이어(fully connected layer)이거나, 특별한 기능이나 특징을 기준으로 묶인 다양한 종류의 필터 또는 레이어를 나타낼 수 있다.

뉴럴 네트워크 중에서 복수의 히든 레이어를 포함하는 뉴럴 네트워크를 딥 뉴럴 네트워크(deep neural network)라 한다. 딥 뉴럴 네트워크를 학습 시키는 것을 딥 러닝(deep learning)이라 한다. 뉴럴 네트워크의 노드 중에서, 히든 레이어에 포함된 노드를 가리켜 히든 노드라 한다.

뉴럴 네트워크는 감독 학습(supervised learning)을 통해 학습될 수 있다. 감독 학습이란 입력 데이터를 뉴럴 네트워크에 입력하여 입력 데이터에 대응하는 출력 데이터를 획득하였을 때에, 출력 데이터가 입력 데이터로부터 획득하고자 하는 진리 데이터와 일치하도록 연결선들의 연결 가중치를 업데이트함으로써, 뉴럴 네트워크의 출력 데이터를 진리 데이터에 수렴하게 만드는 방법이다. 일실시예에 따른 학습 데이터 생성 장치는 학생 모델(150)을, 델타 규칙(delta rule) 및 오류 역전파 학습(back propagation learning) 등을 이용하여 트레이닝할 수 있다. 보다 구체적으로, 학습 데이터 생성 장치는 학생 모델(150)에 포함된 노드들 사이의 연결 가중치를 업데이트함으로써, 학생 모델(150)을 트레이닝할 수 있다. 이하 뉴럴 네트워크를 트레이닝하거나 또는 학습시킨다는 것은 뉴럴 네트워크의 파라미터를 학습시키는 것으로 이해될 수 있다. 또한, 학습된 뉴럴 네트워크는 학습된 파라미터가 적용된 뉴럴 네트워크로 이해될 수 있다.

일실시예에 따른 학습 데이터 생성 장치는 학생 모델(150)을 트레이닝하기 위하여, 학생 모델(150)의 입력 레이어로 입력할 입력 데이터 및 학생 모델(150)에 의해 입력 데이터에 대응하여 획득하고자 하는 진리 데이터가 매칭된 학습 데이터를 생성할 수 있다. 학습 데이터 생성 장치는 상기 진리 데이터를 교사 모델(120)로부터 획득할 수 있다.

도 1을 참고하면, 일실시예에 따른 학습 데이터 생성 장치가 적용되는 교사 모델(120) 및 학생 모델(150)은 이미지 형태의 입력 데이터(110)에 존재하는 피사체를 식별할 수 있다. 보다 구체적으로, 교사 모델(120) 및 학생 모델(150)은 입력 데이터(110)의 피사체를 미리 설정된 클래스(예를 들어, 소, 고양이, 개 및 자동차)로 분류할 수 있다. 학습 데이터 생성 장치는 입력 데이터(110)를 교사 모델(120)로 입력하여, 교사 모델(120)이 입력 데이터(110)로부터 생성한 레이블 값들(130)을 획득할 수 있다.

도 1을 참고하면, 레이블 값들(130)은 입력 데이터(110)의 피사체가 클래스들 각각에 매칭되는 지를 나타낸 확률일 수 있다. 학습 데이터 생성 장치는 교사 모델(120)의 출력 레이어의 노드의 값으로부터, 입력 데이터(110)의 피사체가 i번째 클래스에 매칭될 확률 s_i를 수학식 1에 기초하여 결정할 수 있다.

수학식 1을 참고하면, 학습 데이터 생성 장치는 소프트 맥스 출력(softmax output)의 형태를 가지는 레이블 값들(130)을 교사 모델(120)로부터 획득할 수 있다. 도 1의 교사 모델(120)을 이용하여 이미지 형태의 입력 데이터(110)에 존재하는 피사체를 식별하는 실시예에서, 입력 데이터(110)로부터 얻을 수 있는 바람직한 결과는 피사체가 '개'일 확률은 상대적으로 높게, 피사체가 '소', '고양이' 및 '자동차'일 확률은 모두 현저히 낮은 것이다. 교사 모델(120)이 출력한 레이블 값들(130)을 참고하면, 피사체가 '개'일 확률은 0.9로 매우 높은 확률이므로 바람직한 결과로 볼 수 있고, 피사체가 '소'일 확률 및 피사체가 '자동차'일 확률은 각각 10^-6, 10^-9로 매우 작은 확률이므로 바람직한 결과로 볼 수 있다. 하지만, 피사체가 '고양이'일 확률은 0.1로써, 피사체가 '소'일 확률 및 피사체가 '자동차'일 확률 보다 높으므로 학생 모델(150)을 트레이닝하기에 바람직한 결과로 볼 수 없다.

이 경우, 레이블 값들(130) 및 입력 데이터(110)를 매칭하여 생성된 학습 데이터를 이용하여 학생 모델(150)을 트레이닝하는 경우, 오직 '개'만이 입력 데이터(110)에 존재함에도 불구하고, 학생 모델(150)은 정확하지 않은 정보(예를 들어, 입력 데이터(110)의 피사체가 '고양이'일 확률이 0.1)를 포함하는 레이블 값들(130)에 의해 트레이닝될 수 있다. 이는 개의 이미지를 전달하면서 상기 이미지에 10%의 확률로 고양이가 있을 수 있다고 가르치는 상황과 유사하다.

학생 모델(150)을 보다 정확하게 학습시키기 위하여, 일실시예에 따른 학습 데이터 생성 장치는 교사 모델(120)에 의해 출력된 레이블 값들(130)을 변경할 수 있다. 보다 구체적으로, 학습 데이터 생성 장치는 레이블 값들(130) 중에서, 학생 모델(150)을 학습시키는데 유용하지 않은 값을 학생 모델(150)의 학습에 이용하지 않도록 미리 설정된 값으로 변경할 수 있다. 도 1의 예시에서, 레이블 값들(130) 중 학생 모델(150)을 트레이닝하기에 바람직하지 않은 값인 피사체가 '고양이'일 확률은, 학습 데이터 생성 장치에 의해 학생 모델(150)의 학습에 이용하지 말 것을 나타내는 미리 설정된 값(예를 들어, 정수 -1)으로 변경될 수 있다.

또한, 학습 데이터 생성 장치는 입력 데이터(110)의 특징을 고려하여, 레이블 값들(130)을 학생 모델(150)을 학습시키는데 보다 유용하게 활용될 수 있도록, 레이블 값들(130)을 정제(refining)할 수 있다. 입력 데이터(110)에 포함된 피사체가 '개'임이 확실하므로, 학생 모델(150)은 교사 모델에서 획득된 피사체가 '개'일 확률(0.9) 보다 높은 확률을 출력하는 것이 바람직하다. 따라서, 학습 데이터 생성 장치는 레이블 값들(130) 중에서 상대적으로 높은 확률을 가지는 레이블 값에 대응하는 확률을, 상대적으로 높은 확률을 가지는 레이블 값에 대응하는 클래스에 입력 데이터(110)가 매칭됨을 나타내는 미리 설정된 값으로 변경할 수 있다. 도 1의 예시에서, 레이블 값들(130) 중 피사체가 '개'일 확률은, 학습 데이터 생성 장치에 의해 입력 데이터(110)가 해당 클래스('개')에 매칭됨을 나타내는 미리 설정된 값(예를 들어, 정수 1)로 변경될 수 있다.

또한, 입력 데이터(110)에 포함된 피사체가 '소' 또는 '자동차'가 아님이 확실하므로, 학생 모델(150)은 교사 모델에서 획득된 피사체가 '소' 또는 '자동차'일 확률보다 낮은 확률을 출력하는 것이 바람직하다. 따라서, 학습 데이터 생성 장치는 레이블 값들(130) 중에서 상대적으로 낮은 확률을 가지는 레이블 값에 대응하는 확률을, 상대적으로 낮은 확률을 가지는 레이블 값에 대응하는 클래스에 입력 데이터(110)가 매칭되지 않음을 나타내는 미리 설정된 값으로 변경할 수 있다. 도 1의 예시에서, 레이블 값들(130) 중 피사체가 '소'일 확률 및 피사체가 '자동차'일 확률은, 학습 데이터 생성 장치에 의해 입력 데이터(110)가 해당 클래스('소' 및 '자동차')에 매칭되지 않음을 나타내는 미리 설정된 값(예를 들어, 정수 0)로 변경될 수 있다.

종합하면, 학습 데이터 생성 장치는 레이블 값들(130)을 정제하여, 레이블 값들(130)의 유리수 형태의 확률들을, 학생 모델(150)이 해당 확률에 기초하여 어떻게 트레이닝해야 할지를 나타낸 미리 설정한 값들의 집합(예를 들어, -1, 0, 1)의 유한개의 값들 중 어느 하나로 맵핑할 수 있다. 도 1을 참고하면, 학습 데이터 생성 장치가 레이블 값들(130)을 변경한 결과 레이블 값들(140)이 도시된다. 학습 데이터 생성 장치는 결과 레이블 값들(140)과 입력 데이터(110)를 결합하여, 학생 모델(150)을 트레이닝하기 위한 학습 데이터를 생성할 수 있다. 생성된 학습 데이터는 학생 모델(150)을 트레이닝하는데 활용될 수 있다.

도 2는 일실시예에 따른 학습 데이터 생성 장치가 레이블 값들을 정제하여 학습 데이터를 생성하는 동작을 설명하기 위한 흐름도이다.

도 2를 참고하면, 단계(210)에서, 일실시예에 따른 학습 데이터 생성 장치는 입력 데이터를 교사 모델에 입력할 수 있다. 학습 데이터 장치는 교사 모델의 입력 레이어를 고려하여 입력 데이터를 전처리할 수 있다. 학습 데이터 생성 장치는 입력 데이터에 대응하여 출력되는 교사 모델의 출력 레이어의 노드의 값을 식별할 수 있다.

도 2를 참고하면, 단계(220)에서, 일실시예에 따른 학습 데이터 생성 장치는 식별된 교사 모델의 출력 레이어의 노드의 값으로부터, 입력 데이터에 대한 레이블 값을 획득할 수 있다. 레이블 값은 교사 모델이 입력 데이터를 분석한 결과로써, 교사 모델을 통해 입력 데이터로부터 획득하고자 하는 정보를 포함할 수 있다.

보다 구체적으로, 교사 모델이 입력 데이터를 미리 설정된 복수의 클래스들 중 하나 이상의 클래스에 대응하는지를 판단하는 경우, 교사 모델은 입력 데이터가 클래스에 대응하는 지를 수학식 1 등의 확률 값으로 출력할 수 있다. 바꾸어 말하면, 학습 데이터 생성 장치는 교사 모델로부터 입력 데이터가 클래스들 각각에 대응할 확률 값을 포함하는 레이블 값들을 획득할 수 있다. 도 2를 참고하면, 학습 데이터 생성 장치가 교사 모델로부터 획득한 입력 데이터가 클래스 i에 대응할 확률을 s_i라 한다.

상술한 바와 같이, 학생 모델을 보다 정확하게 학습시키기 위하여, 학습 데이터 생성 장치는 교사 모델에 의해 출력된 레이블 값들을 변경할 수 있다. 학습 데이터 생성 장치는 레이블 값들 각각을 레이블 값들의 형태와 관련된 하나 이상의 임계치와 비교하고, 임계치와 비교한 결과에 기초하여 레이블 값들 각각을 변경할 수 있다. 예를 들어, 하나 이상의 임계치에 기초하여 레이블 값들이 복수의 구간 중 어느 하나로 분류될 수 있고, 학습 데이터 장치는 레이블 값들 각각을 레이블 값이 분류된 구간에 대응하는 값으로 변경할 수 있다.

도 2의 예시에서, 학습 데이터 생성 장치는 0 이상 1 이하의 확률 형태로 표시되는 레이블 값들을, 0 이상 1 이하의 값인 두 개의 확률 임계치 중 적어도 하나와 비교할 수 있다. 학습 데이터 생성 장치가 클래스 i에 대응하는 레이블 값 s_i와 비교하는 확률 임계치를 P_i 및 N_i라 한다. P_i는 N_i보다 큰 값이라 가정한다. P_i 및 N_i는 경험적으로(heuristically) 결정될 수 있다.

학습 데이터는 레이블 값 s_i를 P_i 및 N_i 중 적어도 하나와 비교할 수 있다. 도 2를 참고하면, 단계(230)에서, 일실시예에 따른 학습 데이터 생성 장치는 학습 데이터 생성 장치는 s_i를 P_i 및 N_i 중 큰 값인 P_i와 비교할 수 있다. 교사 모델이 클래스들 각각에 대응하여 레이블 값들을 출력하므로, 학습 데이터 생성 장치는 레이블 값들 전체를 대상으로, 레이블 값을 대응하는 확률 임계치와 비교하는 동작을 수행할 수 있다.

s_i가 P_i 및 N_i 중 큰 값인 P_i 보다 큰 경우, 단계(240)에서, 일실시예에 따른 학습 데이터 생성 장치는 레이블 값 s_i를 Pi 보다 큰 구간의 식별자(예를 들어, 정수 1)로 변경할 수 있다. 레이블 값 s_i가 P_i 및 N_i 중 큰 값인 Pi 보다 크다는 것은, 입력 데이터가 레이블 값 s_i에 대응하는 클래스에 매칭됨이 확실함을 의미할 수 있다. 따라서, 학습 데이터 생성 장치는 레이블 값 s_i를 학생 모델을 학습시키는데 유용한 레이블 값으로 판단할 수 있다. 더 나아가서, 학습 데이터 생성 장치는 레이블 값 s_i를 입력 데이터가 레이블 값 s_i에 대응하는 클래스에 매칭됨이 확실함을 의미하는 값(예를 들어, Pi 보다 큰 구간에 대응하는 식별자)로 변경할 수 있다.

s_i가 P_i 및 N_i 중 큰 값인 P_i 보다 작은 경우, 단계(250)에서, 일실시예에 따른 학습 데이터 생성 장치는 s_i를 P_i 및 N_i 중 작은 값인 N_i와 비교할 수 있다. 즉, 학습 데이터 생성 장치는 레이블 값을 복수의 확률 임계치와 순차적으로 비교하여, 레이블 값이 복수의 확률 임계치에 의해 구분되는 복수의 구간 중에서 어느 구간에 포함되는지를 식별할 수 있다.

s_i가 P_i 및 N_i 중 작은 값인 N_i 보다 큰 경우, 단계(260)에서, 일실시예에 따른 학습 데이터 생성 장치는 장치는 레이블 값 s_i를 Pi 보다 작고 N_i 보다 큰 구간의 식별자(예를 들어, 정수 -1)로 변경할 수 있다. 레이블 값 s_i가 P_i 보다 작고 N_i 보다 크다는 것은, 입력 데이터가 레이블 값 s_i에 대응하는 클래스에 매칭됨이 불확실함을 의미한다. 또한, 레이블 값 s_i가 N_i 보다 크기 때문에, 입력 데이터가 레이블 값 s_i에 대응하는 클래스에 매칭되지 않는 것 또한 확실하지 않음을 의미한다. 따라서, 학습 데이터 생성 장치는 레이블 값 s_i를 학생 모델을 학습시키는데 유용하지 않은 레이블 값으로 판단할 수 있다. 더 나아가서, 학습 데이터 생성 장치는 레이블 값 s_i를 학생 모델의 트레이닝에 사용하지 말 것을 의미하는 값(예를 들어, Pi 보다 작고 N_i 보다 큰 구간에 대응하는 식별자)로 변경할 수 있다.

s_i가 P_i 및 N_i 중 작은 값인 N_i 보다 작은 경우, 단계(270)에서, 일실시예에 따른 학습 데이터 생성 장치는 레이블 값 s_i를 N_i 보다 작은 구간의 식별자(예를 들어, 정수 0)로 변경할 수 있다. 레이블 값 s_i가 N_i 보다 작다는 것은, 입력 데이터가 레이블 값 s_i에 대응하는 클래스에 매칭되지 않음이 확실함을 의미한다. 따라서, 학습 데이터 생성 장치는 레이블 값 s_i를 학생 모델을 학습시키는데 유용한 레이블 값으로 판단할 수 있다. 더 나아가서, 학습 데이터 생성 장치는 레이블 값 s_i를 입력 데이터가 레이블 값 s_i에 대응하는 클래스에 매칭되지 않음을 의미하는 값(예를 들어, N_i 보다 작은 구간에 대응하는 식별자)로 변경할 수 있다.

종합하면, 학습 데이터 생성 장치는 레이블 값 s_i를 수학식 2에 기초하여 레이블 값을 분할한 복수의 구간의 식별자 중 어느 하나로 변경할 수 있다.

수학식 2를 참고하면, 학습 데이터 생성 장치는 레이블 값 s_i를 변경하여 클래스 i에 대한 변경된 레이블 값 h_i를 출력할 수 있다.

도 2를 참고하면, 단계(280)에서, 일실시예에 따른 학습 데이터 생성 장치는 변경된 레이블 값 h_i 및 입력 데이터를 포함하는 학습 데이터를 생성할 수 있다. 학습 데이터는 입력 데이터에 대한 진리 데이터로써, 0 또는 1 사이의 무한개의 유리수가 아닌 집합 {1, 0, -1}에 포함된 유한 개의 값 중 어느 하나로 표현된 레이블 값 h_i를 포함할 수 있다. 즉, 학습 데이터는 교사 모델이 생성한 소프트 맥스 출력 형태의 소프트 레이블을 정제한 하드 레벨을 포함할 수 있다. 하드 레벨은 학습 데이터에 진리 데이터로써 포함될 수 있다.

도 2를 참고하면, 단계(290)에서, 일실시예에 따른 학습 데이터 생성 장치는 생성된 학습 데이터에 기초하여 학생 모델을 트레이닝할 수 있다. 학습 데이터 생성 장치는 레이블 값들 중에서 학생 모델의 트레이닝에 사용하지 말 것을 의미하는 레이블 값(도 2의 예시에서, 정수 -1)을 학생 모델의 트레이닝에 사용하지 않을 수 있다. 따라서, 학생 모델은 입력 데이터에 대응하는 것이 확실한 클래스 및 대응하지 않음이 확실한 클래스만으로 트레이닝될 수 있다.

또한, 사람이 입력 데이터로부터 직접 정보를 추출하여 학습 데이터를 생성할 때와 달리, 학습 데이터 생성 장치는 교사 모델을 이용하여 보다 많은 수의 학습 데이터를 보다 빠른 속도로 생성할 수 있다. 따라서, 학생 모델은 사람이 입력 데이터로부터 직접 정보를 추출하여 학습 데이터를 생성하는 경우보다 빠른 속도로 트레이닝될 수 있다. 학습 데이터 생성 장치가 레이블 값들 중에서 학생 모델의 트레이닝에 사용하기에 모호한 값을 제외하므로, 학생 모델을 트레이닝함에 있어서 불필요한 혼란이 줄어들 수 있다.

도 3은 일실시예에 따른 학습 데이터 생성 장치가 생성한 학습 데이터를 이용하여 학생 모델을 트레이닝하는 동작을 설명하기 위한 흐름도이다.

도 3을 참고하면, 단계(310)에서, 일실시예에 따른 학습 데이터 생성 장치는 학생 모델을 트레이닝하는데 사용할 학습 데이터를 식별할 수 있다. 학습 데이터는 도 2의 동작에 기초하여 획득될 수 있다. 학습 데이터는 학생 모델의 입력 레이어에 입력될 입력 데이터 및 입력 데이터에 대응한 학생 모델의 출력 데이터를 어떻게 결정할지를 나타낸 진리 데이터를 포함할 수 있다.

도 3을 참고하면, 단계(320)에서, 일실시예에 따른 학습 데이터 생성 장치는 식별된 학습 데이터에 기초하여 학생 모델을 트레이닝할 수 있다. 수학식 2에서 설명한 바와 같이, 진리 데이터는 입력 데이터가 특정 클래스에 매칭되는지를, 입력 데이터 및 특정 클래스가 매칭됨이 확실함을 나타내는 값 및 입력 데이터 및 특정 클래스가 매칭되지 않음이 확실함을 나타내는 값 뿐만 아니라, 입력 데이터 및 특정 클래스가 매칭되는 것이 모호하여, 이를 학습에 활용하지 말 것을 나타내는 값으로 나타낼 수 있다.

학습 데이터 생성 장치는 입력 데이터와 매칭되는 것이 모호한 클래스를 제외한 나머지 클래스, 즉, 입력 데이터와 매칭되는 것이 확실한 클래스 및 입력 데이터와 매칭되지 않음이 확실한 클래스만으로 학생 모델을 학습시킬 수 있다. 따라서, 학생 모델이 교사 모델로부터 획득된 확률 형태의 레이블 값을 그대로 학습할 때 보다 정확하게 학습될 수 있다. 더 나아가서, 학생 모델이 교사 모델의 확률을 그대로 학습하지 않으므로, 교사 모델보다 정확한 결과를 생성할 수 있다.

도 3을 참고하면, 단계(330)에서, 일실시예에 따른 학습 데이터 생성 장치는 학생 모델이 미리 설정된 조건을 만족하는지를 판단할 수 있다. 보다 구체적으로, 학습 데이터 생성 장치는 학생 모델의 학습을 종료해도 되는지를 판단할 수 있다. 예를 들어, 학습 데이터 생성 장치는 학생 모델의 정확도가 미리 설정된 임계값 이상인지 여부를 판단할 수 있다. 학생 모델의 정확도가 임계값 미만인 경우, 학습 데이터 생성 장치는 학생 모델의 트레이닝을 다시 수행할 수 있다. 이 경우, 학습 데이터 생성 장치는 교사 모델을 이용하여 학습 데이터를 추가로 생성할 수 있다. 사람이 입력 데이터로부터 직접 정보를 추출하여 학습 데이터를 생성하지 않고, 학습 데이터 생성 장치가 교사 모델로부터 학습 데이터를 추가로 생성하므로, 보다 적은 비용으로 대량의 학습 데이터를 획득할 수 있다. 학생 모델의 정확도가 임계값 이상인 경우, 학습 데이터 생성 장치는 학생 모델을 학습시키는 것을 종료할 수 있다.

다른 예로써, 학습 데이터 생성 장치는 학생 모델의 학습 횟수가 미리 설정된 반복 횟수를 만족하는지 여부를 판단할 수 있다. 학생 모델의 학습 횟수가 미리 설정된 반복 횟수 이하인 경우, 학습 데이터 생성 장치는 단계(310, 320)를 다시 수행할 수 있다. 마찬가지로, 학습 데이터 생성 장치는 교사 모델을 이용하여 학생 모델에 입력할 학습 데이터를 추가로 생성할 수 있다. 학생 모델의 학습 횟수가 미리 설정된 반복 횟수 이상인 경우, 학습 데이터 생성 장치는 학생 모델을 학습시키는 것을 종료할 수 있다.

학습이 완료된 학생 모델은 교사 모델로써 또 다른 학생 모델을 학습 시키는데 활용될 수 있다. 또한, 학습이 완료된 학생 모델은 교사 모델에 입력되었던 입력 데이터와 동일한 형태의 대상 데이터를 인식하는데 활용될 수 있다. 도 4는 일실시예에 따른 학습 데이터 생성 장치에 의해 학습된 학생 모델을 이용하는 데이터 인식 장치가 수행하는 동작을 설명하기 위한 흐름도이다.

도 4를 참고하면, 단계(410)에서, 일실시예에 따른 데이터 인식 장치는 인식하고자 하는 대상 데이터를 수신할 수 있다. 대상 데이터는 도 2 내지 도 3의 동작에 의해 학습된 학생 모델을 통해 인식하고자 하는 데이터로써, 예를 들어, 이미지 데이터, 비디오 데이터, 음성 데이터, 시계열 데이터(time-series data), 센서 데이터 또는 이들의 다양한 조합을 포함할 수 있다.

즉, 도 1에 예시한 교사 모델 및 학생 모델을 이미지 형태의 입력 데이터에 존재하는 피사체를 식별하는 데 활용하는 예시뿐만 아니라, 뉴럴 네트워크는 다양한 분야에서 다양한 목적으로 활용될 수 있다. 예를 들어, 교사 모델은 이미지 형태의 입력 데이터로부터 입력 데이터 내에 존재하는 사람의 얼굴을 인식할 수 있다. 이 경우, 학생 모델은 교사 모델이 입력 데이터에 대응하여 사람의 얼굴을 인식한 결과를 정제하여 생성된 학습 데이터에 기초하여 트레이닝될 수 있다. 또 다른 예로, 교사 모델은 음성 데이터를 텍스트 데이터로 변환할 수 있다. 이 경우, 학생 모델은 교사 모델이 음성 데이터에 대응하여 출력한 텍스트 데이터를 정제하여 생성된 학습 데이터를 학습할 수 있다. 이 외에도, 뉴럴 네트워크는 감정 인식, 상황 인식등에 활용될 수 있다.

도 4를 참고하면, 단계(420)에서, 일실시예에 따른 데이터 인식 장치는 학생 모델을 이용하여 대상 데이터를 인식할 수 있다. 학생 모델은 대상 데이터로부터 획득한 정보를 출력할 수 있는데, 출력되는 정보는 교사 모델이 입력 데이터로부터 획득한 정보와 유사할 수 있다. 예를 들어, 교사 모델이 이미지 형태의 입력 데이터에 존재하는 피사체의 종류를 미리 설정된 복수의 클래스 각각과 매칭될 확률을 이용하여 나타내는 경우, 학생 모델은 이미지 형태의 대상 데이터에 존재하는 피사체의 종류를 미리 설정된 복수의 클래스 각각과 매칭될 확률로 나타낼 수 있다.

도 5는 다른 일실시예에 따른 학습 데이터 생성 장치가 사전에 트레이닝된 교사 모델 앙상블(520)을 이용하여 학생 모델(550)을 트레이닝하는 동작을 개략적으로 설명하기 위한 도면이다. 교사 모델 앙상블(520)은 1 이상의 자연수인 N개의 교사 모델을 포함할 수 있고, N개의 교사 모델들은 서로 다른 초기 가중치(initial weight)를 가지거나, 서로 다른 신경망 구조를 가지거나, 서로 다른 하이퍼 파라미터(hyper parameter)가 적용될 수 있다.

도 5를 참고하면, 학습 데이터 생성 장치는 이미지 형태의 입력 데이터(510)를 교사 모델 앙상블(520)로 입력할 수 있고, 교사 모델 앙상블(520)로부터 입력 데이터(510)의 피사체의 위치 및 피사체의 종류가 미리 설정된 클래스에 매칭될 확률을 포함하는 레이블 값을 획득할 수 있다. 도 5를 참고하면, 학습 데이터 생성 장치가 획득한 레이블 값을 입력 데이터(530)에 시각적으로 표시된다. 교사 모델 앙상블(520)은 입력 데이터(530)에 존재하는 피사체를 추출하면서, 피사체가 보행자일 확률(0.92) 뿐만 아니라, 피사체가 사이클리스트일 확률(0.31) 및 피사체가 자동차일 확률(0.001)도 같이 출력할 수 있다.

피사체가 보행자일 확률(0.92) 및 피사체가 자동차일 확률(0.001)들 각각은 피사체가 보행자임이 확실하고 피사체가 자동차가 아님을 명확히 나타낸다. 따라서, 학습 데이터 생성 장치는 교사 모델 앙상블(520)로부터 획득된 레이블 값들 중에서 보행자에 대한 레이블 값 및 자동차에 대한 레이블 값을 학생 모델(550)을 트레이닝하는데 적합한 레이블 값으로 판단할 수 있다.

더 나아가서, 학습 데이터 생성 장치는 교사 모델 앙상블(520)로부터 획득된 레이블 값들 중에서 학생 모델(550)을 트레이닝하는데 적합하지 않은 레이블 값을 식별할 수 있다. 피사체가 사이클리스트일 확률(0.31)은 피사체가 자동차일 확률(0.0001) 보다 상대적으로 높아서 피사체가 사이클리스트인 것으로 해석될 수 있지만, 피사체가 보행자일 확률(0.92) 보다 상대적으로 낮아서 피사체가 사이클리스트가 아닌것으로도 해석할 수 있다. 즉, 피사체가 사이클리스트일 확률(0.31)은 피사체가 사이클리스트인지 아닌지를 명확하게 나타내지 않는다. 따라서, 학습 데이터 생성 장치는 교사 모델 앙상블(520)로부터 획득된 레이블 값들 중에서 사이클리스트에 대한 레이블 값을 학생 모델(550)을 트레이닝하는데 적합하지 않은 레이블 값으로 판단할 수 있다.

요약하면, 학습 데이터 생성 장치는 교사 모델 앙상블(520)로부터 획득된 레이블 값들 각각을 대응하는 하나 이상의 레이블 값 임계치와 비교하여, 레이블 값들 각각이 학생 모델(550)을 트레이닝하는데 적합한지 여부를 결정할 수 있다. 바람직하게는, 레이블 값 임계치는 적어도 두 개 이상일 수 있다. 레이블 값 임계치가 두 개인 경우, 학습 데이터 생성 장치는 가장 큰 레이블 값 임계치보다 큰 레이블 값을, 입력 데이터(510)가 레이블 값에 대응하는 클래스에 매칭됨을 명확히 나타내는 것으로 결정할 수 있다. 또한, 학습 데이터 생성 장치는 가장 작은 레이블 값 임계치보다 작은 레이블 값을, 입력 데이터(510)가 레이블 값에 대응하는 클래스에 매칭되지 않음을 명확히 나타내는 것으로 결정할 수 있다. 더 나아가서, 학습 데이터 생성 장치는 가장 큰 레이블 값 임계치보다 작고, 가장 작은 레이블 값 임계치보다 큰 레이블 값을, 입력 데이터(510)가 레이블 값에 대응하는 클래스에 매칭되는지 또는 매칭되지 않는지를 명확히 나타내지 않아 학생 모델(550)을 트레이닝하는데 적합하지 않은 것으로 결정할 수 있다.

학습 데이터 생성 장치는 교사 모델 앙상블(520)로부터 획득된 레이블 값들 각각을 대응하는 하나 이상의 레이블 값 임계치와 비교한 결과를 이용하여 레이블 값들을 변경할 수 있다. 보다 구체적으로, 학습 데이터 생성 장치는 레이블 값들을 레이블 값 임계치로 구분되는 복수의 구간 중 어느 하나로 분류하고, 레이블 값들을 분류된 구간의 식별자로 변경할 수 있다. 레이블 값이 0 또는 1 사이의 확률인 경우, 0 또는 1 사이의 무한 개의 유리수 중에서 결정되는 레이블 값은 n 개의 레이블 값 임계치로 구분되는 n+1개의 구간들 각각에 대응하는 n+1개의 식별자 중 어느 하나로 변경될 수 있다.

도 5의 예시에서, 학습 데이터 생성 장치가 레이블 값 임계치를 0.8 및 0.3으로 설정한 것으로 가정한다. 즉, 학습 데이터 생성 장치는 0.8 이상인 레이블 값을 레이블 값에 대응하는 클래스에 매칭됨을 명확히 나타내는 레이블 값으로 판단할 수 있고, 0.3 이하인 레이블 값을 레이블 값에 대응하는 클래스에 매칭되지 않음을 명확히 나타내는 레이블 값으로 판단할 수 있다. 도 5를 참고하면, 입력 데이터(510)의 피사체가 보행자일 확률(0.92)은 0.8 이상이므로, 학습 데이터 생성 장치는 피사체가 보행자일 확률(0.92)을 피사체가 보행자에 매칭됨을 나타내는 긍정 값(positive value)로 변경할 수 있다. 입력 데이터(510)의 피사체가 자동차일 확률(0.001)은 0.3 이하이므로, 학습 데이터 생성 장치는 피사체가 자동차일 확률(0.0001)을 피사체가 자동차에 대응함을 나타내는 부정 값(negative value)로 변경할 수 있다.

학습 데이터 생성 장치가 레이블 값을 레이블 값 임계치로 구분한 복수의 구간은 학생 모델(550)의 트레이닝에 적합하지 않은 구간을 포함할 수 있다. 도 5의 예시에서, 0.8 이하이고 0.3 이상인 레이블 값은 피사체가 레이블 값에 대응하는 클래스에 매칭되는지를 명확히 나타내지 않으면서 레이블 값에 대응하는 클래스에 매칭되지 않는지도 명확히 나타내지 않는다. 따라서, 학습 데이터 생성 장치는 학생 모델(550)의 트레이닝에 적합하지 않은 구간에 포함된 레이블 값을 학생 모델(550)의 트레이닝에 사용하지 말 것을 나타내는 상기 구간의 식별자로 변경할 수 있다. 도 5를 참고하면, 입력 데이터(510)의 피사체가 사이클리스트일 확률(0.31)은 0.8 이하이고 0.3 이상이므로, 피사체가 사이클리스트일 확률(0.31)을 학생 모델(550)의 트레이닝에 사용하지 말 것을 나타내는 무시 값(ignore value)로 변경할 수 있다.

종합하면, 교사 모델 앙상블(520)에서 출력된 레이블 값들은 긍정 값, 부정 값 및 무시 값 중 어느 하나로 변경될 수 있다. 학습 데이터 생성 장치에 의해 변경된 레이블 값들이 입력 데이터(540)에 시각적으로 표시된다. 학습 데이터 생성 장치는 변경된 레이블 값들을 입력 데이터(510)와 병합하여 학습 데이터를 생성할 수 있다. 생성된 학습 데이터는 학생 모델(550)의 트레이닝에 활용될 수 있다.

학생 모델(550)은 입력 데이터(510)의 피사체의 위치 및 피사체의 종류가 미리 설정된 클래스에 매칭될 확률을 포함하는 레이블 값을 출력할 수 있는데, 학습 데이터 생성 장치는 출력된 레이블 값들을 학습 데이터에 포함된 변경된 레이블 값들에 수렴하도록 학생 모델(550)을 학습시킬 수 있다. 즉, 학습 데이터 생성 장치는 학생 모델(550)이 입력 데이터(510)로부터 검출하는 피사체의 위치를 교사 모델 앙상블(520)이 검출한 피사체의 위치(예를 들어, 입력 데이터(540)에 표시된 바운딩 박스)에 수렴하도록 학생 모델(550)을 학습시킬 수 있다.

더 나아가서, 학습 데이터 생성 장치는 학생 모델(550)이 출력하는 확률로써, 입력 데이터(510)의 피사체를 미리 설정된 클래스에 매칭될 확률을, 긍정 값, 부정 값 및 무시 값으로 표현된 레이블 값과 비교하여 학생 모델(550)을 학습시킬 수 있다. 예를 들어, 학생 모델(550)이 입력 데이터(510)에 대응하여 피사체가 보행자일 확률을 상대적으로 낮은 값으로 결정하는 경우, 학습 데이터에 포함된 보행자에 대응하는 레이블 값이 긍정 값이므로, 학습 데이터 생성 장치는 학생 모델(550)이 피사체가 보행자일 확률을 보다 높은 값으로 결정하도록 학생 모델(550)을 학습시킬 수 있다. 또 다른 예로써, 학생 모델(550)이 입력 데이터(510)에 대응하여 피사체가 자동차일 확률을 상대적으로 높은 값으로 결정하는 경우, 학습 데이터에 포함된 자동차에 대응하는 레이블 값이 부정 값이므로, 학습 데이터 생성 장치는 학생 모델(550)이 피사체가 자동차일 확률을 보다 낮은 값으로 결정하도록 학생 모델(550)을 학습시킬 수 있다.

또 다른 예로써, 학습 데이터에 포함된 자동차에 대응하는 레이블 값이 무시 값이므로, 학습 데이터 생성 장치는 학생 모델(550)이 출력한 피사체가 사이클리스트일 확률을 학생 모델(550)의 트레이닝에 활용하지 않을 수 있다. 비록 무시 값인 레이블 값이 학생 모델(550)의 트레이닝에 활용되지 않지만, 학습 데이터 생성 장치가 사람이 입력 데이터로부터 직접 정보를 추출하여 학습 데이터를 생성할 때 보다 빠른 속도로 대량의 학습 데이터를 생성할 수 있으므로, 학생 모델(550)은 긍정 값 또는 부정 값인 대량의 레이블 값에 기초하여 보다 정확하게 트레이닝될 수 있다.

도 6은 일실시예에 따른 학습 데이터 생성 장치(610)의 구조를 개념적으로 도시한 도면이다.

도 6을 참고하면, 학습 데이터 생성 장치(610)는 프로세서(620) 및 메모리(630)를 포함할 수 있다. 학습 데이터 생성 장치(610)는 데이터 인식을 위한 뉴럴 네트워크를 학습시키거나 또는 뉴럴 네트워크를 학습시키기 위한 학습 데이터를 생성하는 장치로써, 하나 이상의 프로세서(620)로 구현될 수 있다.

프로세서(620)는 메모리(630)에 저장된 입력 데이터를 하나 이상의 교사 모델에 입력할 수 있고, 상기 하나 이상의 교사 모델에 의해 결정되는 상기 입력 데이터가 복수의 클래스들 각각과 매칭될 확률을 포함하는 확률 레이블을 획득할 수 있다. 프로세서(620)는 확률 레이블에 포함된 확률들을 복수의 확률 임계치와 비교하여, 확률 레이블에 포함된 확률들을 복수의 확률 임계치와 비교한 결과 값으로 변경할 수 있다.

결과 값은 확률이 복수의 확률 임계치 중에서 가장 큰 확률 임계치 이상임을 나타내는 값으로, 입력 데이터가 확률에 대응하는 클래스에 매칭됨을 나타내는 긍정(positive) 값을 포함할 수 있다. 결과 값은 확률이 복수의 확률 임계치 중에서 가장 작은 확률 임계치 미만임을 나타내는 값으로, 입력 데이터가 확률에 대응하는 클래스에 매칭되지 않음을 나타내는 부정(negative) 값을 포함할 수 있다. 더 나아가서, 결과 값은 복수의 확률 임계치 중 가장 작은 확률 임계치 이상이고 상기 복수의 확률 임계치 중 가장 큰 확률 임계치 미만임을 나타내는 값으로, 교사 모델에 대응하는 학생 모델의 트레이닝에 상기 확률을 사용하지 않을 것을 나타내는 무시(ignore) 값을 포함할 수 있다. 긍정 값, 부정 값 및 무시 값은 복수의 확률 임계치로 구분되는 확률 구간에 대응될 수 있다.

프로세서(620)는 입력 데이터 및 확률 레이블을 변경한 결과를 결합하여 학생 모델에 입력될 학습 데이터를 생성할 수 있다. 프로세서(620)는 생성한 학습 데이터를 메모리(630)에 저장할 수 있다. 학습 데이터 생성 장치(610)가 학생 모델을 학습 시키는 경우, 학생 모델이 메모리(630)에 저장될 수 있고, 프로세서(620)는 학습 데이터에 기초하여 학생 모델을 학습시킬 수 있다. 학생 모델은 교사 모델보다 적은 개수의 히든 레이어를 포함하거나 또는 교사 모델 보다 적은 개수의 필터 또는 노드를 포함할 수 있다. 즉, 학생 모델은 모델 경량화(model compression)에 의해 교사 모델보다 경량화된 뉴럴 네트워크를 포함할 수 있다. 경량화된 학생 모델은 칩 형태로 ADAS(Advanced Driver Assistance System) 및 자율 주행 차량의 인식기 형태로 탑재될 수 있다.

도 7은 일실시예에 따른 데이터 인식 장치(710)의 구조를 개념적으로 도시한 도면이다.

도 7을 참고하면, 데이터 인식 장치(710)는 인식하고자 하는 대상 데이터를 저장하는 메모리(730) 및 트레이닝된 뉴럴 네트워크(즉, 학생 모델)를 이용하여 대상 데이터를 인식하는 프로세서(720)를 포함할 수 있다. 학생 모델은 학생 모델에 대응하는 교사 모델에 입력 데이터를 입력함으로써 획득된 레이블 값을 복수의 확률 임계치로 구분되는 복수의 구간 중 어느 하나로 분류한 결과에 기초하여 생성된 학습 데이터에 의해 트레이닝될 수 있다. 학생 모델은 입력 데이터에 대한 학생 모델의 출력 데이터 및 교사 모델의 출력 데이터를 정제한 결과(예를 들어, 도 2의 동작에 기초하여 변경된 레이블 값들) 사이의 손실에 기초하여 학습될 수 있다.

요약하면, 일실시예에 따른 학습 데이터 생성 장치는 사전에 학습된 교사 모델이 입력 데이터에 대응하여 출력한 출력 데이터 중에서, 교사 모델에 대응하는 학생 모델을 학습 시키기에 적합하지 않은 데이터를 탐지할 수 있다. 학생 모델을 학습 시키기에 적합하지 않은 출력 데이터가 학생 모델의 학습에 활용되지 않도록, 학습 데이터 생성 장치는 학생 모델을 학습 시키기에 적합하지 않은 출력 데이터를 미리 설정된 무시 값(ignore value)으로 변경할 수 있다. 더 나아가서, 학생 모델을 학습 시키기에 적합한 출력 데이터에 대하여, 학습 데이터 생성 장치는 출력 데이터를 그대로 학생 모델의 학습에 활용하는 것을 넘어서, 학생 모델이 교사 모델의 출력 데이터보다 개선된 결과를 출력할 수 있도록 출력 데이터를 변경할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

110: 입력 데이터
120: 교사 모델
130: 레이블 값들
140: 변경된 레이블 값들
150: 학생 모델

Claims

학습 데이터 생성 장치가 입력 데이터를 교사 모델에 입력하여, 상기 교사 모델로부터 상기 입력 데이터에 대한 레이블 값을 획득하는 단계;
상기 학습 데이터 생성 장치가 상기 레이블 값을 복수의 확률 임계치와 비교하여, 상기 레이블 값을 상기 복수의 확률 임계치로 구분되는 복수의 구간 중 어느 하나로 분류하는 단계; 및
상기 학습 데이터 생성 장치가 상기 레이블 값이 분류된 구간의 식별자 및 상기 입력 데이터를 병합하여, 상기 교사 모델에 대응하는 학생 모델-상기 학생 모델은, 상기 교사 모델과 별개의 모델임.-을 트레이닝하기 위한 학습 데이터를 생성하는 단계
를 포함하고
상기 레이블 값은,
상기 교사 모델로부터 예측된 상기 입력 데이터가 클래스들 각각에 대응하는 확률 값을 포함하고,
상기 복수의 구간은,
0보다 큰 제1 확률 임계치 이상이고, 1보다 작은 제2 확률 임계치-상기 제2 확률 임계치는, 상기 제1 확률 임계치보다 큼- 이하인 무시(ignore) 구간을 포함하고,
상기 분류하는 단계는,
상기 레이블 값이 상기 제1 확률 임계치 이상이고, 상기 제2 확률 임계치 이하인 경우, 상기 레이블 값을 상기 학생 모델의 트레이닝에 적용하지 않는 상기 무시 구간으로 분류하는,
학습 데이터 생성 방법.
제1항에 있어서,
상기 분류하는 단계는,
상기 레이블 값이 상기 제2 확률 임계치 이상인 경우, 상기 레이블 값을 상기 복수의 구간 중에서 상기 입력 데이터가 상기 레이블 값과 관련된 클래스에 대응함을 나타내는 긍정(positive) 구간으로 분류하는 학습 데이터 생성 방법.
제1항에 있어서,
상기 분류하는 단계는,
상기 레이블 값이 상기 제1 확률 임계치 이하인 경우, 상기 레이블 값을 상기 복수의 구간 중에서 상기 입력 데이터가 상기 레이블 값과 관련된 클래스에 대응하지 않음을 나타내는 부정(negative) 구간으로 분류하는 학습 데이터 생성 방법.
삭제
제1항에 있어서,
상기 학생 모델은,
상기 교사 모델에 포함된 히든 레이어의 수 이하의 히든 레이어를 포함하거나 또는 상기 교사 모델에 포함된 필터의 수 이하의 필터를 포함하는 학습 데이터 생성 방법.
데이터 인식 장치가 인식하고자 하는 대상 데이터를 수신하는 단계; 및
상기 데이터 인식 장치가 트레이닝된 학생 모델을 이용하여 상기 대상 데이터를 인식하는 단계
를 포함하고,
상기 학생 모델은,
상기 학생 모델에 대응하는 교사 모델-상기 교사 모델은, 상기 학생 모델과 별개의 모델임.-에 입력 데이터를 입력함으로써 획득된 레이블 값을 복수의 확률 임계치로 구분되는 복수의 구간 중 어느 하나로 분류한 결과에 기초하여 생성된 학습 데이터에 의해 트레이닝되고,
상기 학습 데이터는,
학습 데이터 생성 장치가 상기 학생 모델에 대응하는 교사 모델에 의해 입력 데이터가 클래스들 각각에 대응하는 확률 값을 포함하는 레이블 값을 예측하고,
상기 학습 데이터 생성 장치가 상기 레이블 값을 복수의 확률 임계치와 비교하여, 상기 레이블 값을 상기 복수의 확률 임계치로 구분되는 복수의 구간 중 어느 하나로 분류하고,
상기 학습 데이터 생성 장치가 상기 레이블 값이 분류된 구간의 식별자 및 상기 입력 데이터를 병합하여 생성되고,
상기 레이블 값이 0보다 큰 제1 확률 임계치 이상이고, 1보다 작은 제2 확률 임계치-상기 제2 확률 임계치는, 상기 제1 확률 임계치보다 큼- 이하인 무시(ignore) 구간으로 분류된 경우, 상기 레이블 값이 상기 학생 모델의 트레이닝에 적용되지 않는,
데이터 인식 방법.
삭제
제6항에 있어서,
상기 교사 모델은,
상기 학생 모델에 포함된 히든 레이어의 수 이상의 히든 레이어를 포함하거나 또는 상기 학생 모델에 포함된 필터의 수 이상의 필터를 포함하는 데이터 인식 방법.
입력 데이터를 저장하는 메모리; 및
프로세서
를 포함하고,
상기 프로세서는,
상기 입력 데이터를 하나 이상의 교사 모델에 입력하여, 상기 하나 이상의 교사 모델에 의해 결정되는 상기 입력 데이터가 복수의 클래스들 각각에 대응하는 확률 값을 포함하는 확률 레이블을 획득하고,
상기 확률 레이블에 포함된 확률들을 복수의 확률 임계치와 비교하여, 상기 확률 레이블에 포함된 확률들을 상기 복수의 확률 임계치와 비교한 결과 값으로 변경하고,
상기 입력 데이터 및 상기 변경된 확률 레이블을 병합하여, 상기 하나 이상의 교사 모델에 대응하는 학생 모델-상기 학생 모델은, 상기 교사 모델과 별개의 모델임.-을 트레이닝하기 위한 학습 데이터를 생성하고,
상기 프로세서는,
상기 확률 레이블에 포함된 확률이 0보다 큰 제1 확률 임계치 이상이고, 1보다 작은 제2 확률 임계치-상기 제2 확률 임계치는, 상기 제1 확률 임계치보다 큼- 이하인 경우, 상기 학생 모델의 트레이닝에 상기 확률을 사용하지 않을 것을 나타내는 무시(ignore) 값으로 변경하는, 학습 데이터 생성 장치.
제9항에 있어서,
상기 프로세서는,
상기 확률 레이블에 포함된 확률들 중에서 상기 제2 확률 임계치 이상인 확률을, 상기 입력 데이터가 상기 확률에 대응하는 클래스에 매칭됨을 나타내는 긍정(positive) 값으로 변경하는 학습 데이터 생성 장치.
제9항에 있어서,
상기 프로세서는,
상기 확률 레이블에 포함된 확률들 중에서 제1 확률 임계치 이하인 확률을, 상기 입력 데이터가 상기 확률에 대응하는 클래스에 매칭되지 않음을 나타내는 부정(negative) 값으로 변경하는 학습 데이터 생성 장치.
삭제
제9항에 있어서,
상기 프로세서는,
상기 입력 데이터를 복수의 교사 모델에 입력하는 경우, 상기 복수의 교사 모델을 포함하는 교사 모델 앙상블에 기초하여 상기 확률 레이블을 획득하는 학습 데이터 생성 장치.