[go: up one dir, main page]

KR102441066B1 - Vehicle voice generation system and method - Google Patents

Vehicle voice generation system and method Download PDF

Info

Publication number
KR102441066B1
KR102441066B1 KR1020170132156A KR20170132156A KR102441066B1 KR 102441066 B1 KR102441066 B1 KR 102441066B1 KR 1020170132156 A KR1020170132156 A KR 1020170132156A KR 20170132156 A KR20170132156 A KR 20170132156A KR 102441066 B1 KR102441066 B1 KR 102441066B1
Authority
KR
South Korea
Prior art keywords
voice
voice signal
signal
model
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020170132156A
Other languages
Korean (ko)
Other versions
KR20190041108A (en
Inventor
윤현진
Original Assignee
현대자동차주식회사
기아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사 filed Critical 현대자동차주식회사
Priority to KR1020170132156A priority Critical patent/KR102441066B1/en
Publication of KR20190041108A publication Critical patent/KR20190041108A/en
Application granted granted Critical
Publication of KR102441066B1 publication Critical patent/KR102441066B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Devices For Checking Fares Or Tickets At Control Points (AREA)
  • Vehicle Body Suspensions (AREA)
  • Telephone Function (AREA)

Abstract

본 발명의 차량의 음성생성 시스템은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부 및 상기 제2음성신호를 출력하는 음성출력부를 포함하여, 시스템 외부로부터 별도의 안내음성을 선택하여 추가설치하는 과정이 필요치 않아 비교적 간단하게 원하는 안내음성을 생성할 수 있다. The vehicle voice generation system of the present invention includes a voice receiver that receives at least one first voice signal from the outside, acquires text data from the received first voice signal, and generates a voice model based on the text data, , When the generation rate of the voice model is greater than or equal to a predetermined standard, a separate guide voice is selected from outside the system, including a voice processing unit for generating a second voice signal using the voice model and a voice output unit for outputting the second voice signal Therefore, it is possible to generate a desired guide voice relatively simply because no additional installation process is required.

Description

차량의 음성생성 시스템 및 방법{VOICE FORMATION SYSTEM OF VEHICLE AND METHOD OF THEREOF}Vehicle voice generation system and method

본 발명은 차량의 음성생성 시스템 및 방법에 관한 것으로, 사용자가 원하는 음성을 모방하도록 하여 사용자가 편안함을 느낄 수 있는 음성으로 안내될 수 있도록 하는 차량의 음성생성 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for generating a voice in a vehicle, and to a system and method for generating a voice in a vehicle that allows the user to be guided by a voice that can feel comfortable by imitating the voice desired by the user.

음성 인터페이스를 가진 시스템은 음성안내음을 통하여 사용자에게 적절한 서비스를 제공할 수 있다. 특히, 자동차 음성 인터페이스에서 제공하는 안내음성은 기존에 설정된 2종류 내지 3종류에 한정되어 있다. 예를들면 안내음성은 남성음성 및 여성음성을 포함할 수 있다. 따라서, 사용자는 음성안내를 받기위해서는 남성음성 및 여성음성 중 어느 하나를 선택할 수 밖에 없어 선택의 폭이 제한되는 한계가 있다.A system having a voice interface may provide an appropriate service to a user through a voice guidance sound. In particular, the guidance voice provided by the vehicle voice interface is limited to two to three types that have been previously set. For example, the guidance voice may include a male voice and a female voice. Accordingly, the user has no choice but to select either a male voice or a female voice in order to receive voice guidance, so there is a limit in the range of choices.

신규 음성안내음을 합성하기 위해서는 새로운 음성 모델을 생성하기 위한 목적의 음성 데이터베이스(3000문장 수준)를 직접 취득해야 하며, 음성모델 변환과정을 거친 후에 새로운 음색의 음성안내음을 복잡한 만드는 과정이 요구된다는 복잡한 한계가 있다. In order to synthesize a new voice guidance sound, it is necessary to directly acquire a voice database (3000 sentences level) for the purpose of creating a new voice model, and after going through the voice model conversion process, it is necessary to make a complex voice guidance sound with a new tone. There are complex limitations.

본 발명은 상술한 한계점을 극복하기 위하여 제안된 것으로, 기존에 설정되어 있는 차량 안내 음성으로 출력되지 않고, 차량 내에서 수신할 수 있는 음성을 이용하여 차량 안내음 또는 문자를 읽어주는 음성으로 출력되도록 하는데 목적이 있다.The present invention has been proposed to overcome the above-described limitations, so that it is not output as a previously set vehicle guidance voice, but as a vehicle guidance sound or a voice that reads text using a voice that can be received in the vehicle. there is a purpose to

본 발명의 차량의 음성생성 시스템은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부 및 상기 제2음성신호를 출력하는 음성출력부를 포함하는 것을 특징으로한다.The vehicle voice generation system of the present invention includes a voice receiver that receives at least one first voice signal from the outside, acquires text data from the received first voice signal, and generates a voice model based on the text data, , characterized in that it comprises a voice processing unit for generating a second voice signal by using the voice model when the generation rate of the voice model is greater than or equal to a predetermined standard, and a voice output unit for outputting the second voice signal.

그리고, 상기 제1음성신호는 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.In addition, the first voice signal is characterized in that it includes a voice signal output from a mobile terminal that is linked to the vehicle in any one of wired and wireless.

그리고, 상기 제1음성신호는 라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.And, the first voice signal is characterized in that it includes a voice signal output from any one of radio and DMB broadcasting.

그리고, 상기 음성처리부는 상기 수신된 음성을 분석하여 상기 텍스트데이터를 생성하고, 상기 텍스트데이터를 기반으로 상기 제1음성신호의 음성파형과 음소정보를 획득하고, 상기 음성파형과 상기 음소정보를 기반으로 음소단위의 상기 음성모델을 생성하고, 음소기준테이블을 기반으로 상기 음성모델의 생성율이 소정기준 이상이고, 사용자가 상기 제1음성신호를 이용하여 상기 제2음성신호의 생성할 것을 선택한 경우 상기 제2음성신호를 생성하는 것을 특징으로 한다.The voice processing unit generates the text data by analyzing the received voice, acquires a voice waveform and phoneme information of the first voice signal based on the text data, and based on the voice waveform and the phoneme information When the voice model of the phoneme unit is generated, the generation rate of the voice model is higher than a predetermined standard based on the phoneme reference table, and the user selects to generate the second voice signal using the first voice signal, the It is characterized in that the second voice signal is generated.

그리고, 상기 음성처리부는 CTC(connectionist Temporal Classification)기술을 사용하여 상기 음성파형과 상기 음소정보를 확보하는 것을 특징으로 한다.And, the voice processing unit is characterized in that it secures the voice waveform and the phoneme information by using a CTC (connectionist temporal classification) technology.

그리고, 상기 음성처리부는 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 상기 음소단위의 음성모델을 생성하는 것을 특징으로 한다.And, the speech processing unit is characterized in that it generates the phoneme unit speech model by using a hidden markov model (HMM: Hidden markov model).

그리고, 상기 제1음성신호를 이용한 상기 제2음성신호의 생성여부를 사용자로 하여금 선택하도록 디스플레이부의 화면을 제어하는 제어부를 더 포함하는 것을 특징으로 한다.And, it characterized in that it further comprises a control unit for controlling the screen of the display unit to allow the user to select whether to generate the second voice signal using the first voice signal.

그리고, 상기 제어부는 상기 제2음성신호 생성 시 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제1음성신호를 수신하도록 제어하는 것을 특징으로 한다.In addition, the control unit transmits a message inquiring whether to consent to the use of the first voice signal when the second voice signal is generated, and when the user confirms the consent to use the first voice signal, the first voice signal It is characterized in that the control to receive.

그리고, 상기 제어부는 상기 제2음성신호로 차량 내 안내음성을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 한다.And, the control unit is characterized in that it controls the voice output unit to output the in-vehicle guidance voice as the second voice signal.

그리고, 상기 제어부는 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제2음성신호로 메세지 내용을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 한다.In addition, the control unit may control the voice output unit to output the message content as the second voice signal when the user confirms the consent to use the first voice signal.

본 발명의 차량의 음성생성 방법은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계와, 상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계와, 상기 음성모델의 생성율이 소정기준 이상인 경우 제2음성신호를 생성하는 단계와, 상기 제2음성신호를 출력하는 단계를 포함하는 것을 특징으로 한다.A method of generating a voice for a vehicle according to the present invention comprises the steps of receiving at least one first voice signal from the outside, acquiring text data from the received first voice signal, and generating a voice model based on the text data. and generating a second voice signal when the generation rate of the voice model is equal to or greater than a predetermined standard, and outputting the second voice signal.

그리고, 상기 제1음성신호는 상기 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.In addition, the first voice signal is characterized in that it includes a voice signal output from a mobile terminal that is linked to the vehicle in any one of wired and wireless.

그리고, 상기 제1음성신호는 라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성을 포함하는 것을 특징으로 한다.And, the first voice signal is characterized in that it includes a voice output from any one of radio and DMB broadcasting.

그리고, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계 이후, CTC(connectionist Temporal Classification)를 사용하여 음성파형과 음소정보를 확보하는 단계를 더 포함하는 것을 특징으로 한다.And, after acquiring the text data from the received first voice signal, the method further comprises the step of securing voice waveforms and phoneme information using CTC (connectionist temporal classification).

그리고, 상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계와, 상기 확보된 음성파형과 상기 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것을 특징으로 한다.And, generating a voice model based on the text data, and generating a phoneme unit voice model using a hidden markov model (HMM) based on the secured voice waveform and the phoneme information. characterized in that

그리고, 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계 이전, 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 제1음성신호의 활용동의를 확인하는 단계를 더 포함하는 것을 특징으로 한다.And, before the step of receiving at least one or more first voice signals from the outside, transmitting a message inquiring whether to consent to the use of the first voice signal, further comprising the step of confirming the consent to use the first voice signal characterized in that

그리고, 상기 제2음성신호를 출력하는 단계는 상기 제2음성신호로 차량 내 안내음성을 출력하는 것을 특징으로 한다.The outputting of the second voice signal may include outputting an in-vehicle guidance voice as the second voice signal.

그리고, 상기 제2음성신호를 출력하는 단계는 상기 제1음성신호의 활용동의를 확인한 경우,상기 제2음성신호로 메시지 내용을 출력하는 것을 특징으로 한다.In addition, the outputting of the second voice signal is characterized in that the content of the message is output as the second voice signal when the consent to use the first voice signal is confirmed.

본 발명은 차량에서 수신할 수 있는 음성을 모방함으로써 사용자가 원하는 안내음성을 지속적으로 추가할 수 있다. 또한, 시스템 외부로부터 별도의 안내음성을 선택하여 추가설치하는 과정이 필요치 않아 비교적 간단하게 원하는 안내음성을 생성할 수 있다. 그리고, 시스템으로 입력되는 음성으로부터 실시간으로 음성모델 생성을 위한 파라미터를 추출하여 모방한 후 새로운 음성의 추가가 가능하다. The present invention can continuously add a guide voice desired by the user by imitating the voice that can be received by the vehicle. In addition, there is no need to select a separate guide voice from outside the system and additionally install it, so a desired guide voice can be generated relatively simply. And, it is possible to add a new voice after imitating the parameters for generating a voice model in real time from the voice input to the system.

도 1은 본 발명의 차량의 음성생성 시스템를 나타낸 구상도.
도 2는 본 발명의 실시예에 따라 프레임라벨링을 나타낸 도면.
도 3은 본 발명에 따른 음소기준테이블을 나타낸 도면.
도 4 및 도 5는 본 발명의 실시예에 따른 차량의 음성생성 방법을 나타낸 개략도.
도 6은 본 발명의 실시예에 따른 제2음성신호의 출력방법을 나타낸 개략도.
도 7은 본 발명의 실시예에 따른 제1음성신호의 활용동의방법을 나타낸 개략도.
도 8은 본 발명의 차량의 음성생성 방법을 나타낸 순서도.
1 is a schematic diagram showing a voice generating system for a vehicle according to the present invention.
2 is a view showing frame labeling according to an embodiment of the present invention;
3 is a view showing a phoneme reference table according to the present invention.
4 and 5 are schematic diagrams illustrating a vehicle voice generating method according to an embodiment of the present invention.
6 is a schematic diagram illustrating a method of outputting a second voice signal according to an embodiment of the present invention;
7 is a schematic diagram illustrating a method of consenting to use of a first voice signal according to an embodiment of the present invention;
8 is a flowchart illustrating a method for generating a voice in a vehicle according to the present invention.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to exemplary drawings. In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the embodiment of the present invention, if it is determined that a detailed description of a related known configuration or function interferes with the understanding of the embodiment of the present invention, the detailed description thereof will be omitted.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In describing the components of the embodiment of the present invention, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only for distinguishing the components from other components, and the essence, order, or order of the components are not limited by the terms. In addition, unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present application. does not

도 1은 본 발명의 실시예에 따른 차량의 음성생성 시스템을 나타낸 구상도이다. 도 1에 도시된 바와 같이, 본 발명의 차량의 음성생성 시스템은 음성수신부(10), 음성처리부(20), 저장부(30), 통신부(40), 제어부(50), 디스플레이부(60), 음성출력부(70)를 포함한다.1 is a conceptual diagram illustrating a vehicle voice generating system according to an embodiment of the present invention. As shown in FIG. 1 , the vehicle voice generating system of the present invention includes a voice receiving unit 10 , a voice processing unit 20 , a storage unit 30 , a communication unit 40 , a control unit 50 , and a display unit 60 . , and an audio output unit 70 .

음성수신부(10)는 차량과 유선 또는 무선으로 링크되어 있는 휴대단말기로부터 차량 내 스피커를 통하여 출력되는 제1음성신호를 수신할 수 있다. 실시예에 따르면 음성수신부(10)는 핸즈프리 통화로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 또 다른 실시예에 따르면 음성수신부(10)는 라디오, DMB 등의 방송으로부터 차량 내 스피커로 출력되는 음성을 포함하는 제1음성신호를 수신할 수 있다.The voice receiver 10 may receive a first voice signal output through a speaker in the vehicle from a mobile terminal connected to the vehicle by wire or wirelessly. According to an embodiment, the voice receiver 10 may receive the first voice signal including the voice of the other party output through the speaker in the vehicle from the hands-free call. According to another embodiment, the voice receiver 10 may receive the first voice signal including the voice output from the radio, DMB, etc. broadcast to the speaker in the vehicle.

음성처리부(20)는 제1음성신호를 기반으로 제2음성신호를 생성한다. 보다 자세하게는 음성처리부(20)는 기대값(confidence value)이 일정값 이상인 경우의 음성들에 대하여 음성처리를 할 수 있다. 여기서 기대값이 일정값 이상이면 음성수신부(10)로 수신된 음성의 인식정확도가 높은 것으로 이해될 수 있다. The voice processing unit 20 generates a second voice signal based on the first voice signal. In more detail, the voice processing unit 20 may perform voice processing on voices when a confidence value is equal to or greater than a predetermined value. Here, when the expected value is greater than or equal to a predetermined value, it may be understood that the recognition accuracy of the voice received by the voice receiver 10 is high.

음성처리부(20)는 엔진부(21), 프레임라벨링부(22), 음성모델링부(23), 판단부(24), 음성생성부(25)를 포함할 수 있다. The voice processing unit 20 may include an engine unit 21 , a frame labeling unit 22 , a voice modeling unit 23 , a determination unit 24 , and a voice generating unit 25 .

엔진부(21)는 수신된 음성에 대하여 분석(dictation)하여 텍스트데이터(text data)를 획득할 수 있다. 여기서, 분석(dictation)은 음성을 텍스트화 하는 기술(speech to text)을 기반으로 하는 음성 인식기술을 의미한다. 일반적으로 엔진부(21)는 수신음성과 발신음성을 별도 처리하며, 본 발명에서는 수신된 제1음성신호에 대하여 텍스트데이터를 획득한다.The engine unit 21 may obtain text data by dictating the received voice. Here, the analysis (dictation) refers to a speech recognition technology based on a speech to text technology. In general, the engine unit 21 separately processes the received voice and the outgoing voice, and in the present invention, text data is acquired with respect to the received first voice signal.

프레임라벨링부(22)는 획득된 텍스트데이터를 기반으로 프레임라벨링(frame labeling)한다. 프레임라벨링부(22)는 CTC(connectionist Temporal Classification)를 사용하여 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보한다. 보다 자세한 설명은 도 2의 본 발명의 실시예에 따른 프레임라벨링을 나타낸 도면을 참조한다.The frame labeling unit 22 performs frame labeling based on the acquired text data. The frame labeling unit 22 uses CTC (connectionist temporal classification) to analyze what kind of pronunciation information each segment of the first voice signal has to secure a voice waveform and phoneme information. For a more detailed description, refer to the diagram showing frame labeling according to an embodiment of the present invention of FIG. 2 .

실시예에 따르면, 수신된 음성 중 'the sound of'를 프레임라벨링하는데 있어서, 'the sound of'에 대한 음성파형(waveform), 프레임와이즈(framewise), CTC는 도 2에 도시된 바와 같이 나타날 수 있다. 본 발명에서는 프레임라벨링하는데 있어서, CTC기술을 사용하여 'the sound of'의 음성은 the는 dh,a의 음소정보를 갖고, sound는 'x,s,aw,n,d'의 음소정보를 갖고, of는 ix,v의 음소정보를 갖는 것을 알 수 있다. According to the embodiment, in frame labeling 'the sound of' among the received voices, the voice waveform, framewise, and CTC for 'the sound of' may appear as shown in FIG. 2 . have. In the present invention, in frame labeling, using CTC technology, the voice of 'the sound of' has phoneme information of dh,a, and the sound has phoneme information of 'x,s,aw,n,d'. It can be seen that , of has phoneme information of ix and v.

음성모델링부(23)는 프레임라벨링부(22)로부터 획득된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성한다. 히든 마르코브 모델은 음성 신호에 대한 강력한 모델링 능력과 높은 음성인식 정확도를 갖기 때문에 음성인식분야에서 널리 사용되고 있다. The voice modeling unit 23 generates a phoneme unit voice model using a hidden markov model (HMM) based on the voice waveform and phoneme information obtained from the frame labeling unit 22 . The Hidden Markov model is widely used in the field of speech recognition because it has strong modeling ability for speech signals and high speech recognition accuracy.

히든 마르코브 모델을 사용한 단어 인식은 학습단계 및 인식단계를 포함할 수 있다. 학습 단계에서는 HMM 파라미터를 예측하고 관측 학습 세트를 사용하여 단어사전내의 각 단어에 대해서 음소별로 히든 마르코브 모델을 갖도록 한다. 인식 단계에서는 사전내의 각 단어 모델에 대한 입력 단어의 발생 확률을 계산하고 가장 높은 확률을 갖는 단어 모델을 인식단어로서 선택한다. 인식단계에서는 비터비(Viterbi) 방식이 사용될 수 있으며, 비터비 방식은 사전에 저장된 각 단어 모델 즉, 기본 음성 모델과 입력된 발음을 비교하여 가장 잘 매칭이 되는 단어를 선택하는 효율적인 탐색기술이다. 본 발명은 음성의 스펙트럼, 피치(pitch), 길이(duration) 등을 이용하여 음성모델을 생성할 수 있다. Word recognition using the Hidden Markov model may include a learning phase and a recognition phase. In the learning stage, we predict HMM parameters and have a hidden Markov model for each phoneme for each word in the word dictionary using the observational learning set. In the recognition step, the occurrence probability of the input word for each word model in the dictionary is calculated, and the word model having the highest probability is selected as the recognition word. In the recognition step, the Viterbi method may be used, and the Viterbi method is an efficient search technology for selecting the best matching word by comparing each word model stored in the dictionary, that is, the basic speech model with the input pronunciation. According to the present invention, a voice model can be generated using a spectrum, a pitch, a duration, and the like of a voice.

판단부(24)는 모델 생성율에 대한 판단을 할 수 있다. 판단부(24)는 히든 마르코브 모델이 음소기준테이블에 근거하여 소정기준 이상 확보되었는지 판단한다.The determination unit 24 may determine the model generation rate. The determination unit 24 determines whether the hidden Markov model is secured by a predetermined standard or more based on the phoneme reference table.

판단부(24)에서 모델 확보율 판단에 대한 기준이 되는 음소기준테이블은 도 3을 참조하여 설명한다. 도 3은 본 발명에 따른 음소기준테이블을 나타낸 도면이다.A phoneme reference table serving as a reference for determining the model securing ratio in the determination unit 24 will be described with reference to FIG. 3 . 3 is a view showing a phoneme reference table according to the present invention.

도 3의 Table 1은 한국어 음소를 나타낸 것이고, Tabel 2는 영어 음소를 나타낸 것이다. 판단부(24)는 음성모델링부(23)에서 생성된 음성모델이 소정기준 이상 생성되었는지 판단한다. 모델 생성율은 도 3의 음소기준테이블을 기반으로 하여 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다. 보다 구체적으로, 수신된 제1음성신호로부터 생성된 음성모델이 음소기준테이블에 나열되어 있는 음소를 모두 포함하는 경우 모델 생성율은 100%인 것으로 이해되는 것이 바람직하다. Table 1 of FIG. 3 shows Korean phonemes, and Tabel 2 shows English phonemes. The determination unit 24 determines whether the speech model generated by the speech modeling unit 23 is generated above a predetermined standard. The model generation rate may mean a ratio of a voice model generated from the received first voice signal based on the phoneme reference table of FIG. 3 . More specifically, when the voice model generated from the received first voice signal includes all the phonemes listed in the phoneme reference table, it is preferable to understand that the model generation rate is 100%.

또한, 판단부(24)는 제1음성신호로부터 생성되지 못한 음성모델도 이미 생성된 음성모델을 이용하여 유추할 수 있다. 보다 구체적으로, 평소에 자주 사용되는 조사나 단어들은 앞뒤 단어의 상관관계를 이용하여 유추할 수 있다. 예를들어, '지금 어디야'라는 표현을 반복적으로 사용하였다면, '지금 어디야'로부터 '지_ 어디야'의 제1음성신호가 수신되는 경우 '지'와 '어' 사이에는 '금'이라는 단어가 올 수 있음을 유추하고 '금'에 대한 음성모델을 생성할 수 있다. Also, the determination unit 24 may infer a voice model that is not generated from the first voice signal by using the already generated voice model. More specifically, the commonly used surveys or words can be inferred by using the correlation between the preceding and following words. For example, if the expression 'Where are you now' is repeatedly used, when the first voice signal of 'Where are you now' is received, the word 'Gold' is formed between 'Ji' and 'Uh'. We can infer that it can come and create a negative model for 'gold'.

음성생성부(25)는 판단부(24)에서 모델 생성율이 소정기준이상인 것으로 판단되고, 제1음성신호를 이용하여 제2음성신호를 생성하는 것에 대한 사용자의 선택이 있는 경우 제2음성신호를 생성한다. The voice generator 25 generates a second voice signal when it is determined by the judgment unit 24 that the model generation rate is greater than or equal to a predetermined standard, and the user selects to generate a second voice signal using the first voice signal. create

저장부(30)는 음성모델링부(23)에서 생성된 음성모델을 저장할 수 있다. 그리고, 전화수신정보에서 상대방의 ID를 별도로 저장할 수 있다.The storage unit 30 may store the voice model generated by the voice modeling unit 23 . In addition, the other party's ID may be separately stored in the call reception information.

통신부(40)는 차량으로부터 휴대단말기로 유선 또는 무선으로 통신하도록 할 수 있다. 실시예에 따르면 통신부(40)는 차량으로부터 휴대단말기로 전화를 걸거나, 문자를 전송할 수 있고, 휴대단말기로부터 걸려온 전화를 받거나, 문자를 수신하도록 할 수 있다. The communication unit 40 may enable communication from the vehicle to the portable terminal by wire or wirelessly. According to an embodiment, the communication unit 40 may make a call from the vehicle to the portable terminal, transmit a text message, receive a call from the portable terminal, or receive a text message.

제어부(50)는 음성수신부(10)로부터 수신된 제1음성신호를 이용하여 제2음성신호를 생성할지 여부를 디스플레이부(60)에 표시하여 사용자로 하여금 선택하도록 제어할 수 있다. 또한 제어부(50)는 제2음성신호를 생성할지 여부를 선택하기 이전, 통화이력정보를 수신받아, 통화한 이력이 있는 상대방들 중에서 제2음성신호를 생성하고자 하는 대상자에게 활용동의여부를 질의하는 메세지를 전송하도록 제어할 수 있다. 예를들면, 'ooo님의 자동차에서 고객님의 목소리를 분석하여 안내음성으로 활용하고자 합니다. 동의하시겠습니까?'라는 활용동의여부를 질의하는 메세지를 전송할 수 있다. 이후 제1음성신호의 활용동의를 확인하는 경우 제1음성신호를 수신하도록 제어할 수 있다.The control unit 50 may control the user to select by displaying on the display unit 60 whether or not to generate the second voice signal using the first voice signal received from the voice receiver 10 . In addition, before selecting whether to generate the second voice signal, the control unit 50 receives call history information and inquires whether to consent to the use of the second voice signal among the counterparts with a call history. You can control the sending of messages. For example, 'We want to analyze your voice in ooo's car and use it as a guide voice. You can send a message asking whether you agree to the use of 'Do you agree?' Thereafter, when the consent to use the first voice signal is confirmed, it is possible to control the reception of the first voice signal.

또한, 제어부(50)는 제2음성신호가 생성된 경우 차량 내 전체안내음성으로 출력할지, 제1음성신호의 대상자에게 메세지를 수신하는 경우에만 메세지 내용을 출력할지를 선택할 수 있도록 디스플레이부(60)에 표시하도록 제어할 수 있다.In addition, when the second voice signal is generated, the control unit 50 can select whether to output the entire in-vehicle guidance voice or output the message content only when a message is received from the target of the first voice signal. Display unit 60 can be controlled to be displayed in

그리고, 제어부(50)는 음성출력부(70)를 제어하여 차량 내의 전체 안내음성으로 출력하도록 하거나, 제2음성신호를 생성하고자 하는 대상자에게 메세지를 수신하는 경우에만 메세지 내용을 출력하도록 할 수 있다.In addition, the control unit 50 may control the voice output unit 70 to output the entire guide voice in the vehicle, or output the message content only when a message is received from a person who wants to generate a second voice signal. .

도 4 및 도 5는 본 발명의 실시예에 따른 차량의 음성생성 방법을 나타낸 개략도이다.4 and 5 are schematic diagrams illustrating a vehicle voice generating method according to an embodiment of the present invention.

본 발명의 일 실시예에 따르면, 도 4에 도시된 바와 같이, 본 발명의 차량안내음 생성 방법은 먼저 핸즈프리통화를 통하여 상대방으로부터 수신된 제1음성신호로부터 텍스트데이터를 생성할 수 있다. 즉, 통화를 통하여 수신된 제1음성신호는 문자열로 생성될 수 있다. 그리고, 생성된 텍스트데이터를 기반으로 프레임라벨링하여 음성파형과 음소정보를 획득할 수 있다. According to an embodiment of the present invention, as shown in FIG. 4 , the method for generating a vehicle guide sound of the present invention may first generate text data from a first voice signal received from a counterpart through a hands-free call. That is, the first voice signal received through the call may be generated as a character string. Then, by frame labeling based on the generated text data, it is possible to obtain a voice waveform and phoneme information.

본 발명의 다른 실시예에 따르면, 도 5에 도시된 바와 같이, 본 발명의 차량안내음 생성 방법은 방송수신부로부터 수신된 제1음성신호로부터 텍스트데이터를 생성할 수 있다. 즉, 방송수신부로부터 수신된 제음성신호는 문자열로 생성될 수 있다. 그리고, 생성된 텍스트데이터를 기반으로 프레임라벨링하여 음성파형과 음소정보를 획득할 수 있다.According to another embodiment of the present invention, as shown in FIG. 5 , the method for generating a vehicle guide sound of the present invention may generate text data from the first voice signal received from the broadcast receiver. That is, the suppressed voice signal received from the broadcast receiver may be generated as a character string. Then, by frame labeling based on the generated text data, it is possible to obtain a voice waveform and phoneme information.

프레임라벨링은 CTC(connectionist Temporal Classification)기술을 사용하여 수신된 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보하는 것으로 이해될 수 있다. 그리고, 프레임라벨링한 후 음성모델링한다. Frame labeling can be understood as securing speech waveform and phoneme information by analyzing which pronunciation information each segment of the received first speech signal has using CTC (connectionist temporal classification) technology. Then, after frame labeling, voice modeling is performed.

음성모델링은 프레임라벨링으로부터 획득된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것으로 이해될 수 있다. 생성된 음성모델은 데이터베이스에 저장될 수 있다. Speech modeling can be understood as generating a phoneme-unit speech model using a hidden markov model (HMM) based on speech waveforms and phoneme information obtained from frame labeling. The generated speech model may be stored in a database.

음성모델이 생성되면 음소기준테이블을 기반으로 음성모델의 생성율을 판단할 수 있다. 음성모델의 생성율이 소정기준이상인 것으로 판단되는 제1음성신호에 대하여 제2음성신호를 생성할지에 대한 사용자의 선택이 있는 경우 제2음성신호를 생성한다.When the voice model is generated, the generation rate of the voice model can be determined based on the phoneme reference table. The second voice signal is generated when the user selects whether to generate the second voice signal with respect to the first voice signal determined that the generation rate of the voice model is greater than or equal to a predetermined standard.

도 4를 참조하면, 제2음성신호가 생성된 대상자의 ID는 별도로 저장할 수 있으며, 해당 ID로부터 메세지가 수신하는 경우 제2음성신호를 이용하여 메세지 내용을 출력하도록 할 수 있다. 이외에도 제2음성신호를 전체 안내음성으로 출력되도록 설정할 수 있다. Referring to FIG. 4 , the ID of the subject for which the second voice signal is generated can be stored separately, and when a message is received from the ID, the message content can be output using the second voice signal. In addition, the second voice signal may be set to be output as the entire guide voice.

도 6은 본 발명의 실시예에 따른 제2음성신호 출력방법을 나타낸 개략도이다.6 is a schematic diagram illustrating a second audio signal output method according to an embodiment of the present invention.

음소기준테이블을 기반으로 음성모델의 생성율을 판단하기 위한 테이블을 생성할 수 있다. 실시예에 따르면, 연락처에 기 저장되어 있는 사람들의 이름을 기준으로 음성모델의 생성율을 판단할 수 있다. 음성모델의 생성율은 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다. 음소기준테이블에 근거하여 음성모델의 생성율이 소정기준 이상인지 판단할 수 있다. A table for determining the generation rate of a voice model may be generated based on the phoneme reference table. According to an embodiment, the generation rate of the voice model may be determined based on the names of people previously stored in the contact list. The generation rate of the voice model may mean the ratio of the voice model generated from the received first voice signal. Based on the phoneme reference table, it may be determined whether the generation rate of the speech model is greater than or equal to a predetermined standard.

예를들어, A와 통화를 통하여 생성된 음성모델이 음소기준테이블에 나열된 음소들의 95%에 해당되는 경우 음성모델의 생성율은 95%인 것으로 이해될 수 있으며, 실시예에 따르면, 이는 음소기준테이블에 근거하여 생성된 음성모델의 비율이 소정기준 이상된 것으로 판단할 수 있다. 이는 제2음성신호를 생성할 수 있는 정도의 음성모델이 생성되는 것으로 판단할 수 있다. 이 경우 확보되지 않은 5%의 음소모델은 확보된 음성모델을 이용하여 유추할 수 있다. 이는, 평소에 자주 사용되는 조사나 단어들은 앞뒤 단어의 상관관계를 이용하여 유추할 수 있다. 예를들어, '지금 어디야'라는 표현을 반복적으로 사용하였다면, '지금 어디야'로부터 '지_ 어디야'의 제1음성신호가 수신되는 경우 '금'이라는 단어를 유추하고 음성모델을 생성할 수 있다.For example, if the voice model generated through a call with A corresponds to 95% of the phonemes listed in the phoneme reference table, it can be understood that the generation rate of the voice model is 95%, and according to the embodiment, this is the phoneme reference table It can be determined that the ratio of the generated voice model is greater than or equal to a predetermined standard based on the . It can be determined that a voice model capable of generating the second voice signal is generated. In this case, the 5% phoneme model that is not secured can be inferred using the secured phoneme model. This can be inferred by using the correlation between words before and after frequently used articles or words. For example, if the expression 'where are you now' is repeatedly used, when the first voice signal of 'where are you now' is received from 'where are you now', the word 'gold' can be inferred and a voice model can be generated. .

또한, B,C,D와 통화를 통하여 음성모델의 생성율이 87%,43%,68% 인 경우, 실시예에 따르면 이는 음소기준테이블에 근거하여 생성된 음성모델의 생성율이 소정기준 미만인 것으로 판단할 수 있다. 상술한 바와 같이 생성된 음성모델의 생성율이 소정기준 미만인 경우 제2음성신호의 생성이 불가능한 것으로 판단될 수 있다. In addition, if the generation rate of the voice model is 87%, 43%, 68% through the call with B, C, and D, according to the embodiment, it is determined that the generation rate of the voice model generated based on the phoneme reference table is less than the predetermined standard can do. As described above, when the generation rate of the generated voice model is less than a predetermined criterion, it may be determined that the generation of the second voice signal is impossible.

음성모델의 생성율이 소정기준 이상이고, 사용자의 선택이 있는 경우 제2음성신호를 생성한다. 그리고, 제2음성신호를 어떻게 출력할지 사용자로 하여금 선택하도록 음성으로 출력하거나 디스플레이에 표시할 수 있다. When the generation rate of the voice model is greater than or equal to a predetermined standard and there is a user's selection, the second voice signal is generated. In addition, the second voice signal may be outputted by voice or displayed on a display so that the user can select how to output the second voice signal.

예를들면, 'ooo님의 목소리가 자동 생성되었습니다, 안내음성으로 설정할까요? 1. 전체 안내음성으로 출력 2. 제2음성신호의 대상자으로부터 메세지를 수신하는 경우 메세지 내용을 출력'에 대하여 사용자가 1 및 2 중 어느 하나를 선택하도록 하여, 전체 안내음성을 해당음성으로 출력하도록 하거나 메시지를 수신하는 경우 제2음성신호로 메세지내용을 출력하도록 할 수 있다.For example, 'Ooo's voice has been automatically created, would you like to set it as the guidance voice? 1. Output the entire guidance voice 2. When receiving a message from the target of the second voice signal, the user selects either 1 or 2 for 'Output the message content' so that the entire guidance voice is output in the corresponding voice Alternatively, when a message is received, the content of the message may be output as a second voice signal.

도 7은 본 발명의 실시예에 따른 제1음성신호의 활용동의방법을 나타낸 개략도이다.7 is a schematic diagram illustrating a method of consenting to use of a first voice signal according to an embodiment of the present invention.

통화이력메뉴를 통하여 제2음성신호의 생성을 위한 대상자를 선택할 수 있다. 대상자는 도 6에 도시된 바와 같이, 음성모델의 확보율이 소정기준 이상인 제1음신호의 대상자일 수 있다. 사용자가 대상자를 선택한 경우, 선택된 대상자에게 제1음성신호의 활용동의여부를 질의하는 메세지를 발송할 수 있다. 예를들면 'ooo님의 자동차에서 고객님의 목소리를 분석하여 안내음성으로 활용하고자 합니다. 동의하시겠습니까?'라는 활용동의여부를 질의하는 메세지를 발송할 수 있다. 사용자가 제1음성신호의 활용동의를 확인하는 경우 제1음성신호를 수신하도록 설정할 수 있다. A target for generating the second voice signal may be selected through the call history menu. As shown in FIG. 6 , the subject may be a subject of the first sound signal in which the securing rate of the voice model is greater than or equal to a predetermined standard. When the user selects a subject, a message inquiring whether or not to agree to use the first voice signal may be sent to the selected subject. For example, 'We want to analyze your voice in ooo's car and use it as a guide voice. You can send a message asking whether you agree to the use. When the user confirms the consent to use the first voice signal, it may be set to receive the first voice signal.

도 8은 본 발명의 차량의 음성생성 방법을 나타낸 순서도이다.8 is a flowchart illustrating a method for generating a voice in a vehicle according to the present invention.

도 8에 도시된 바와 같이, 외부로부터 제1음성신호를 수신한다(S100). S100 단계는 차량과 유선 또는 무선으로 링크되어 있는 휴대단말기로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 실시예에 따르면 핸즈프리 통화로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 또 다른 실시예에 따르면 라디오, DMB 등의 방송으로부터 차량 내 스피커로 출력되는 음성을 포함하는 제1음성신호를 수신할 수 있다.As shown in FIG. 8 , a first voice signal is received from the outside ( S100 ). In step S100, a first voice signal including a voice of the other party output through a speaker in the vehicle may be received from a mobile terminal connected to the vehicle by wire or wirelessly. According to an embodiment, the first voice signal including the voice of the other party output through the speaker in the vehicle from the hands-free call may be received. According to another embodiment, it is possible to receive a first voice signal including a voice output from a broadcast such as radio or DMB through a speaker in the vehicle.

수신된 음성에 대하여 분석(dictation)하여 텍스트데이터를 획득한다(S110). S110 단계는 기대값(confidence value)이 일정값 이상인 경우의 제1음성신호들에 대하여 수행될 수 있다. 여기서 기대값이 일정값 이상이면 음성의 인식정확도가 높은 것으로 이해될 수 있다. S110 단계에서는 음성을 텍스트화 하는 기술(speech to text)을 기반으로 하는 음성 인식기술을 통하여 텍스트데이터를 획득할 수 있다. The received voice is analyzed (dictation) to obtain text data (S110). Step S110 may be performed with respect to the first voice signals when a confidence value is equal to or greater than a predetermined value. Here, when the expected value is greater than or equal to a predetermined value, it may be understood that the speech recognition accuracy is high. In step S110, text data may be acquired through speech recognition technology based on speech to text technology.

획득된 텍스트데이터를 기반으로 프레임라벨링한다(S120). S120 단계는 CTC(connectionist Temporal Classification)기술을 사용하여 수신된 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보한다. 보다 자세하게는 S120 단계는 도 2의 CTC 기술을 사용하여 수신된 'the sound of'의 음성으로부터 the는 'dh,a'의 음소정보를 확보하고, sound는 'x,s,aw,n,d'의 음소정보를 갖고, of는 ix,v의 음소정보를 확보할 수 있다.Frame labeling is performed based on the acquired text data (S120). In step S120, a speech waveform and phoneme information are obtained by analyzing which pronunciation information each segment of the received first speech signal has by using a connectionist temporal classification (CTC) technology. In more detail, step S120 secures phoneme information of 'dh,a' from the voice of 'the sound of' received using the CTC technique of FIG. 2, and the sound is 'x,s,aw,n,d' ' has phoneme information, and of can secure phoneme information of ix and v.

S120 단계에서 확보된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성한다(S130). S130 단계의 보다 자세한 설명은 도 1의 음성모델링부(23)의 설명을 참조한다.A phoneme unit speech model is generated using a hidden markov model (HMM) based on the speech waveform and phoneme information obtained in step S120 ( S130 ). For a more detailed description of step S130, refer to the description of the voice modeling unit 23 of FIG. 1 .

S130 단계에서 생성된 음성모델의 생성율이 소정기준 이상인지 판단한다(S140). 음성모델의 생성율은 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다.It is determined whether the generation rate of the voice model generated in step S130 is greater than or equal to a predetermined standard (S140). The generation rate of the voice model may mean the ratio of the voice model generated from the received first voice signal.

음성모델의 생성율이 소정기준 이상이고, 제2음성신호의 생성여부에 대하여 사용자의 선택이 있는 경우 제2음성신호를 생성한다(S150). S140 단계에서 음성모델의 생성율이 소정기준 미만인 경우 S100 단계를 수행할 수 있다. When the generation rate of the voice model is greater than or equal to a predetermined standard and there is a user's selection as to whether to generate the second voice signal, the second voice signal is generated (S150). If the generation rate of the voice model is less than a predetermined criterion in step S140, step S100 may be performed.

제2음성신호를 출력한다(S160). S160 단계는 실시예에 따르면 사용자로 하여금 제2음성신호를 어떤방식으로 출력할지 선택하도록, 선택여부에 대한 질문을 음성으로 출력하거나 디스플레이에 표시할 수 있다. A second audio signal is output (S160). In step S160, according to an embodiment, a question about whether to select may be outputted by voice or displayed on the display so that the user may select how to output the second voice signal.

예를들면, S160 단계는 'ooo님의 목소리가 자동 생성되었습니다, 안내음성으로 설정할까요? 1. 전체 안내음성으로 출력 2. 제2음성신호의 대상자으로부터 메세지를 수신하는 경우 메세지 내용을 출력'에 대하여 사용자가 1 및 2 중 어느 하나를 선택하도록 하여, 전체 안내음성을 해당음성으로 출력하도록 하거나 메시지를 수신하는 경우 제2음성신호로 메세지내용을 출력하도록 할 수 있다.For example, in step S160, 'ooo's voice has been automatically created, should I set it as the guidance voice? 1. Output the entire guidance voice 2. When receiving a message from the target of the second voice signal, the user selects either 1 or 2 for 'Output the message content' so that the entire guidance voice is output in the corresponding voice Alternatively, when a message is received, the content of the message may be output as a second voice signal.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. The above description is merely illustrative of the technical spirit of the present invention, and various modifications and variations will be possible without departing from the essential characteristics of the present invention by those skilled in the art to which the present invention pertains.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The protection scope of the present invention should be construed by the following claims, and all technical ideas within the equivalent range should be construed as being included in the scope of the present invention.

음성수신부 10
음성처리부 20
엔진부 21
프레임라벨링부 22
음성모델링부 23
판단부 24
음성생성부 25
저장부 30
통신부 40
제어부 50
디스플레이부 60
음성출력부 70
voice receiver 10
voice processing unit 20
engine part 21
Frame labeling unit 22
Voice Modeling Unit 23
judging unit 24
voice generator 25
storage 30
communication department 40
control 50
display unit 60
audio output unit 70

Claims (18)

외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부;
상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부; 및
상기 제2음성신호를 출력하는 음성출력부를 포함하는 것을 특징으로 하되,
상기 음성모델의 생성율은 음소기준테이블에 나열되어 있는 음소가 상기 제1음성신호로부터 생성된 음성모델에 포함되는 비율을 나타내는 차량의 음성생성 시스템.
a voice receiver configured to receive at least one first voice signal from the outside;
A voice for acquiring text data from the received first voice signal, generating a voice model based on the text data, and generating a second voice signal using the voice model when the generation rate of the voice model is greater than or equal to a predetermined standard processing unit; and
It characterized in that it comprises a voice output unit for outputting the second voice signal,
The voice model generation rate represents a ratio in which the phonemes listed in the phoneme reference table are included in the voice model generated from the first voice signal.
청구항 1에 있어서,
상기 제1음성신호는
차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
The method according to claim 1,
The first audio signal is
A voice generating system for a vehicle, characterized in that it includes a voice signal output from a mobile terminal that is linked to the vehicle by any one of wired and wireless.
청구항 1에 있어서,
상기 제1음성신호는
라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
The method according to claim 1,
The first audio signal is
A voice generating system for a vehicle, characterized in that it includes a voice signal output from any one of radio and DMB broadcasting.
청구항 1에 있어서,
상기 음성처리부는
상기 수신된 음성을 분석하여 상기 텍스트데이터를 생성하고, 상기 텍스트데이터를 기반으로 상기 제1음성신호의 음성파형과 음소정보를 획득하고, 상기 음성파형과 상기 음소정보를 기반으로 음소단위의 상기 음성모델을 생성하고, 음소기준테이블을 기반으로 상기 음성모델의 생성율이 소정기준 이상이고, 사용자가 상기 제1음성신호를 이용하여 상기 제2음성신호의 생성할 것을 선택한 경우 상기 제2음성신호를 생성하는 것을 특징으로 하는 차량의 음성생성 시스템.
The method according to claim 1,
The voice processing unit
The received voice is analyzed to generate the text data, a voice waveform and phoneme information of the first voice signal are acquired based on the text data, and the voice in phoneme units based on the voice waveform and the phoneme information. A model is generated, and the second speech signal is generated when the generation rate of the speech model is greater than or equal to a predetermined standard based on the phoneme reference table and the user selects to generate the second speech signal using the first speech signal. A vehicle voice generation system, characterized in that
청구항 4에 있어서,
상기 음성처리부는
CTC(connectionist Temporal Classification)기술을 사용하여 상기 음성파형과 상기 음소정보를 확보하는 것을 특징으로 하는 차량의 음성생성 시스템.
5. The method according to claim 4,
The voice processing unit
The speech generation system of a vehicle, characterized in that the speech waveform and the phoneme information are secured by using a connectionist temporal classification (CTC) technology.
청구항 4에 있어서,
상기 음성처리부는
히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 상기 음소단위의 음성모델을 생성하는 것을 특징으로 하는 차량의 음성생성 시스템.
5. The method according to claim 4,
The voice processing unit
A voice generating system for a vehicle, characterized in that the voice model of the phoneme unit is generated by using a hidden markov model (HMM).
청구항 1에 있어서,
상기 제1음성신호를 이용한 상기 제2음성신호의 생성여부를 사용자로 하여금 선택하도록 디스플레이부의 화면을 제어하는 제어부를 더 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
The method according to claim 1,
and a controller for controlling a screen of the display unit to allow a user to select whether to generate the second voice signal using the first voice signal.
청구항 7에 있어서,
상기 제어부는
상기 제2음성신호 생성 시 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제1음성신호를 수신하도록 제어하는 것을 특징으로 하는 차량의 음성생성 시스템.
8. The method of claim 7,
the control unit
When the second voice signal is generated, a message asking whether to agree to use the first voice signal is transmitted, and when the user confirms the consent to use the first voice signal, controlling to receive the first voice signal A vehicle voice generation system characterized by the
청구항 7에 있어서,
상기 제어부는
상기 제2음성신호로 차량 내 안내음성을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 하는 차량의 음성생성 시스템.
8. The method of claim 7,
the control unit
and controlling the voice output unit to output an in-vehicle guidance voice as the second voice signal.
청구항 8에 있어서,
상기 제어부는
상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제2음성신호로 수신된 메세지 내용을 출력하도록 상기 음성출력부를 제어하는 차량의 음성생성 시스템.
9. The method of claim 8,
the control unit
When the user confirms the consent to use the first voice signal, the voice generating system of the vehicle controls the voice output unit to output the content of the message received as the second voice signal.
외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계;
상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계;
상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계;
상기 음성모델의 생성율이 소정기준 이상인 경우 제2음성신호를 생성하는 단계; 및
상기 제2음성신호를 출력하는 단계를 포함하는 것을 특징으로 하되,
상기 음성모델의 생성율은 음소기준테이블에 나열되어 있는 음소가 상기 제1음성신호로부터 생성된 음성모델에 포함되는 비율을 나타내는 차량의 음성생성 방법.
Receiving at least one first voice signal from the outside;
obtaining text data from the received first voice signal;
generating a voice model based on the text data;
generating a second speech signal when the generation rate of the speech model is greater than or equal to a predetermined standard; and
It characterized in that it comprises the step of outputting the second voice signal,
The generation rate of the speech model represents a ratio in which the phonemes listed in the phoneme reference table are included in the speech model generated from the first speech signal.
청구항 11에 있어서,
상기 제1음성신호는
상기 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
12. The method of claim 11,
The first audio signal is
and a voice signal output from a mobile terminal linked to the vehicle by any one of wired and wireless.
청구항 11에 있어서,
상기 제1음성신호는
라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성을 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
12. The method of claim 11,
The first audio signal is
A vehicle voice generating method, comprising a voice output from any one of radio and DMB broadcasting.
청구항 11에 있어서,
상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계 이후,
CTC(connectionist Temporal Classification)를 사용하여 음성파형과 음소정보를 확보하는 단계를 더 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
12. The method of claim 11,
After obtaining text data from the received first voice signal,
The method of generating a voice in a vehicle, characterized in that it further comprises the step of using CTC (connectionist temporal classification) to obtain a voice waveform and phoneme information.
청구항 14에 있어서,
상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계;
상기 확보된 음성파형과 상기 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것을 특징으로 하는 차량의 음성생성 방법.
15. The method of claim 14,
generating a voice model based on the text data;
and generating a phoneme-unit speech model using a hidden markov model (HMM) based on the secured speech waveform and the phoneme information.
청구항 11에 있어서,
외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계 이전,
상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 제1음성신호의 활용동의를 확인하는 단계를 더 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
12. The method of claim 11,
Before receiving at least one or more first voice signals from the outside,
The method of claim 1, further comprising: transmitting a message inquiring whether to agree to use the first voice signal and confirming consent to use the first voice signal.
청구항 11에 있어서,
상기 제2음성신호를 출력하는 단계는
상기 제2음성신호로 차량 내 안내음성을 출력하는 것을 특징으로 하는 차량의 음성생성 방법.
12. The method of claim 11,
The step of outputting the second voice signal
The vehicle voice generating method, characterized in that outputting an in-vehicle guidance voice as the second voice signal.
청구항 16에 있어서,
상기 제2음성신호를 출력하는 단계는
상기 제1음성신호의 활용동의를 확인한 경우, 상기 제2음성신호로 수신된 메시지 내용을 출력하는 것을 특징으로 하는 차량의 음성생성 방법.
17. The method of claim 16,
The step of outputting the second voice signal
and outputting the message content received as the second voice signal when the consent to use the first voice signal is confirmed.
KR1020170132156A 2017-10-12 2017-10-12 Vehicle voice generation system and method Active KR102441066B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170132156A KR102441066B1 (en) 2017-10-12 2017-10-12 Vehicle voice generation system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170132156A KR102441066B1 (en) 2017-10-12 2017-10-12 Vehicle voice generation system and method

Publications (2)

Publication Number Publication Date
KR20190041108A KR20190041108A (en) 2019-04-22
KR102441066B1 true KR102441066B1 (en) 2022-09-06

Family

ID=66282860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170132156A Active KR102441066B1 (en) 2017-10-12 2017-10-12 Vehicle voice generation system and method

Country Status (1)

Country Link
KR (1) KR102441066B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330442A (en) * 2005-05-27 2006-12-07 Kenwood Corp Voice guidance system, character figure, portable terminal apparatus, voice guiding device and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020166A (en) * 2008-07-11 2010-01-28 Ntt Docomo Inc Voice synthesis model generation device and system, communication terminal, and voice synthesis model generation method
US9589565B2 (en) * 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
GB2516942B (en) * 2013-08-07 2018-07-11 Samsung Electronics Co Ltd Text to Speech Conversion
KR102311922B1 (en) * 2014-10-28 2021-10-12 현대모비스 주식회사 Apparatus and method for controlling outputting target information to voice using characteristic of user voice
KR102371188B1 (en) * 2015-06-30 2022-03-04 삼성전자주식회사 Apparatus and method for speech recognition, and electronic device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330442A (en) * 2005-05-27 2006-12-07 Kenwood Corp Voice guidance system, character figure, portable terminal apparatus, voice guiding device and program

Also Published As

Publication number Publication date
KR20190041108A (en) 2019-04-22

Similar Documents

Publication Publication Date Title
US10380992B2 (en) Natural language generation based on user speech style
CN107895578B (en) Voice interaction method and device
CN110232912B (en) Speech recognition arbitration logic
US9497317B2 (en) Bluetooth headset with an audio table
US9202465B2 (en) Speech recognition dependent on text message content
US7706510B2 (en) System and method for personalized text-to-voice synthesis
US9570066B2 (en) Sender-responsive text-to-speech processing
EP1994529B1 (en) Communication device having speaker independent speech recognition
US9082414B2 (en) Correcting unintelligible synthesized speech
US20180074661A1 (en) Preferred emoji identification and generation
US9865249B2 (en) Realtime assessment of TTS quality using single ended audio quality measurement
US20190147855A1 (en) Neural network for use in speech recognition arbitration
US20180075842A1 (en) Remote speech recognition at a vehicle
KR102836970B1 (en) Electronic device and Method for controlling the electronic device thereof
KR20070026452A (en) Method and apparatus for voice interactive messaging
KR20230135396A (en) Method for dialogue management, user terminal and computer-readable medium
KR20150017662A (en) Method, apparatus and storing medium for text to speech conversion
CN114530149A (en) Vehicle and control method thereof
JP2003177790A (en) Terminal device, server device, and voice recognition method
US10002611B1 (en) Asynchronous audio messaging
EP1110207B1 (en) A method and a system for voice dialling
KR20210079004A (en) A computing apparatus and a method of operating the computing apparatus
CN107767862B (en) Voice data processing method, system and storage medium
EP1804237A1 (en) System and method for personalized text to voice synthesis
CN117238275B (en) Speech synthesis model training method, device and synthesis method based on common sense reasoning

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

A201 Request for examination
PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

D13-X000 Search requested

St.27 status event code: A-1-2-D10-D13-srh-X000

D14-X000 Search report completed

St.27 status event code: A-1-2-D10-D14-srh-X000

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4