KR20250126241A - Multilateral Real-Time Voice Recognition Method - Google Patents
Multilateral Real-Time Voice Recognition MethodInfo
- Publication number
- KR20250126241A KR20250126241A KR1020240022220A KR20240022220A KR20250126241A KR 20250126241 A KR20250126241 A KR 20250126241A KR 1020240022220 A KR1020240022220 A KR 1020240022220A KR 20240022220 A KR20240022220 A KR 20240022220A KR 20250126241 A KR20250126241 A KR 20250126241A
- Authority
- KR
- South Korea
- Prior art keywords
- terminals
- real
- idl
- time
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/003—Arrangements for allocating sub-channels of the transmission path
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 다자간 실시간 음성인식 방법에 관한 것으로, 소정 공간내에서 상이한 언어를 사용하는 다수가 자신의 단말기를 사용하여 대화를 함에 있어서 실시간으로 타인의 음성을 통번역하여 동일 장소내에서 서로간의 의사소통이 실시간으로 가능하도록 하는 다자간 실시간 음성인식 방법에 관한 것이다.
본 발명에서 제안하는 소정 공간내에서 상이한 모국어를 사용하는 N명(N은 2 이상의 자연수)이 가각각이 소정의 통번역 앱이 각기 설치된 단말기(N 개의 단말기)를 통하여 실시간 대화를 가능하게 하는 다자간 실시간 음성인식 방법은,
상기 N개의 단말기 각각에 설치된 상기 통번역 앱이 활성화되어 상기 소정 공간내에 설치된 게이트웨이를 통하여 서버와 연동되는 단계;
상기 서버의 다중 IDL 에이전트 모듈에서 상기 N개의 단말기 각각에 대하여 N개의 IDL 채널을 할당하는 단계;
상기 N개의 단말기 각각에 할당된 상기 N개의 IDL 채널이 상호 연동되어 상기 N개의 단말기간의 통신 네트워크를 상호 연동시키는 단계;
상기 N개의 단말기 각각을 통하여 적어도 1인 이상의 음성 정보가 순차적으로 입력되면 상기 음성 정보는 상기 게이트웨이를 통하여 상기 서버의 상기 다중 IDL 에이전트 모듈로 순차 전송되고, 상기 음성 정보가 입력된 단말기에 대응하는 상기 N개의 IDL 채널로 순차적으로 전송되며, 상기 음성 정보가 전송된 상기 N개의 IDL 채널과 연동되는 나머지 모든 단말기 각각의 N개의 IDL 채널에 순차적으로 전송된 후 상기 게이트웨이를 통하여 상기 음성 정보가 입력된 단말기와 통신 네트워크로 연결되는 나머지 모든 단말기에 상기 음성 정보가 순차적으로 전송되어 실시간 다자간 음성 정보 전달이 가능한 것을 특징으로 한다.
본 발명을 실시하는 경우, 소정 공간내에서 상이한 언어를 사용하는 다수가 자신의 단말기를 사용하여 대화를 함에 있어서 실시간으로 타인의 음성을 통번역하여 동일 장소내에서 서로간의 의사소통이 실시간으로 가능하다는 이점이 있다.The present invention relates to a multi-party real-time speech recognition method, which enables real-time communication between multiple people speaking different languages within a given space by translating and interpreting each other's voices in real time while they are conversing using their own terminals, thereby enabling real-time communication between them within the same space.
The multi-party real-time speech recognition method proposed in the present invention enables real-time conversation between N people (N is a natural number greater than or equal to 2) who speak different native languages within a given space through terminals (N terminals) each having a given translation app installed.
A step in which the translation app installed on each of the N terminals is activated and linked to the server through a gateway installed in the designated space;
A step of allocating N IDL channels to each of the N terminals in the multi-IDL agent module of the above server;
A step of interconnecting the N IDL channels assigned to each of the N terminals to interconnect the communication networks between the N terminals;
When at least one person's voice information is sequentially input through each of the N terminals, the voice information is sequentially transmitted to the multi-IDL agent module of the server through the gateway, sequentially transmitted to the N IDL channels corresponding to the terminals into which the voice information was input, and sequentially transmitted to the N IDL channels of each of all remaining terminals linked to the N IDL channels into which the voice information was transmitted, and then the voice information is sequentially transmitted to all remaining terminals connected to the terminal into which the voice information was input through the gateway via a communication network, thereby enabling real-time multi-party voice information transmission.
When the present invention is implemented, there is an advantage in that a number of people speaking different languages within a given space can communicate with each other in real time by translating each other's voices in real time using their own terminals.
Description
본 발명은 다자간 실시간 음성인식 방법에 관한 것으로, 소정 공간내에서 상이한 언어를 사용하는 다수가 자신의 단말기를 사용하여 대화를 함에 있어서 실시간으로 타인의 음성을 통번역하여 동일 장소내에서 서로간의 의사소통이 실시간으로 가능하도록 하는 다자간 실시간 음성인식 방법에 관한 것이다.The present invention relates to a multi-party real-time speech recognition method, which enables real-time communication between multiple people speaking different languages within a given space by translating and interpreting each other's voices in real time while they are conversing using their own terminals, thereby enabling real-time communication between them within the same space.
학술대회 및 비즈니스를 원활히 추진하는데 가장 큰 어려움 중 하나는 언어이다. 아무리 오랜 기간 외국어를 공부했다 하더라도, 외국어로 발표하는 것은 쉽지 않은 일이다. 모국어로 발표하고 이를 통역자가 동시에 통역해 준다면 훨씬 부담감이 줄어들 것이고 질문에 대해 쉽게 답변이 가능하며, 나아가 비즈니스 측면에서 좋은 결과도 이끌어 낼 수 있다. 하지만 동시통역자를 필요한 시기에 구하기 어렵고 해당 장소에 동행해야 하며 그것도 국외라면 상당한 비용이 소요된다. 따라서 이용자가 언제 어디서든지 동시통역 서비스를 제공받을 수 있는 이용자와 동시통역자간 실시간 동시통역 연계 기술이 필요하다.One of the biggest challenges in smoothly conducting academic conferences and business meetings is language. Even with extensive foreign language study, presenting in a foreign language can be challenging. Presenting in your native language and having an interpreter simultaneously interpret your presentation can significantly reduce the burden, facilitate easier question-answering, and even lead to positive business outcomes. However, simultaneous interpreters are difficult to find in a timely manner, and must be present at the appropriate venue, often at significant cost if overseas. Therefore, real-time simultaneous interpretation technology is needed, enabling users to access simultaneous interpretation services anytime, anywhere.
이러한 문제는 여행지에서 만나는 현지인과의 대화, 또는 전화 등을 이용한 외국인과의 대화에서도 발생할 수 있다.These problems can also arise when talking to locals you meet while traveling, or when talking to foreigners over the phone.
이 때문에 다국어 대화를 실시간으로 번역 내지 통역해주는 다양한 프로그램이 개발되어 앱 또는 웹에서 제공되고 있다.For this reason, various programs that translate or interpret multilingual conversations in real time have been developed and are available as apps or on the web.
그런데, 대부분의 통번역 프로그램의 경우, 화자가 말을 끝내는 시점을 판정한 후 그때까지 화자가 말한 내용을 소정의 외국어로 번역 내지 통역하는 방식을 취하고 있다. However, most translation programs determine when the speaker has finished speaking and then translate or interpret what the speaker has said up to that point into a designated foreign language.
예컨대, 널리 알려진 구글 또는 파파고 통번역 시스템 또는 휴대 단말기에 탑재되어 사용하는 통번역 앱의 경우 1:1 통번역 위주의 시스템으로 구성되어 있다는 한계가 있다. For example, the widely known Google or Papago translation systems or translation apps installed on mobile devices have limitations in that they are structured as systems focused on 1:1 translation.
또한, 동일 공간 내에서 상이한 모국어를 사용하는 다수가 대화를 하는 경우에도 1:1 통번역 방식이 대부분이고 설혹 다자간의 대화가 동시에 발생하는 경우에도 순차적 통번역이 가능할 뿐 다자간의 대화시 실시간 통번역은 가능하지 않다는 문제점을 있다.In addition, even when multiple people speaking different native languages are conversing in the same space, the 1:1 interpretation and translation method is mostly used, and even when multiple people are conversing simultaneously, only sequential interpretation and translation is possible, and real-time interpretation and translation is not possible during multiple people's conversations.
통상, 동일 공간 내에서 다수가 대화하는 경우 적어도 한명 이상의 발화자가 있는데 동일 모국어를 사용하는 경우에는 아무런 문제가 되지 않으나 상이한 모국어를 사용하여 통번역이 필요한 경우에는 실시간으로 다자간에 통번역이 제공되는 방법이 사실상 전무하다Normally, when multiple people are talking in the same space, there is at least one speaker, and if they speak the same native language, there is no problem. However, when different native languages are used and interpretation is required, there is virtually no way to provide interpretation and translation in real time to multiple parties.
이에 본 발명에서는 소정 공간내에서 상이한 모국어를 사용하는 다수가 대화를 함에 있어서 다자간의 대화를 실시간으로 통번역하여 제공할 수 있는 방법을 제안하고자 한다.Accordingly, the present invention proposes a method for providing real-time interpretation and translation of multi-party conversations when multiple people speaking different native languages are having a conversation within a given space.
본 발명에서는 소정 공간내에서 상이한 언어를 사용하는 다수가 자신의 단말기를 사용하여 대화를 함에 있어서 실시간으로 타인의 음성을 통번역하여 동일 장소내에서 서로간의 의사소통이 실시간으로 가능하도록 하는 다자간 실시간 음성인식 방법을 제안하고자 한다. The present invention proposes a multi-party real-time speech recognition method that enables real-time communication between multiple people speaking different languages within a given space by translating and interpreting each other's voices in real time while they are conversing using their own terminals, thereby enabling real-time communication between them within the same space.
본 발명에서 제안하는 소정 공간내에서 상이한 모국어를 사용하는 N명(N은 2 이상의 자연수)이 가각각이 소정의 통번역 앱이 각기 설치된 단말기(N 개의 단말기)를 통하여 실시간 대화를 가능하게 하는 다자간 실시간 음성인식 방법은, The multi-party real-time speech recognition method proposed in the present invention enables real-time conversation between N people (N is a natural number greater than or equal to 2) who speak different native languages within a given space through terminals (N terminals) each having a given translation app installed.
상기 N개의 단말기 각각에 설치된 상기 통번역 앱이 활성화되어 상기 소정 공간내에 설치된 게이트웨이를 통하여 서버와 연동되는 단계;A step in which the translation app installed on each of the N terminals is activated and linked to the server through a gateway installed in the designated space;
상기 서버의 다중 IDL 에이전트 모듈에서 상기 N개의 단말기 각각에 대하여 N개의 IDL 채널을 할당하는 단계;A step of allocating N IDL channels to each of the N terminals in the multi-IDL agent module of the above server;
상기 N개의 단말기 각각에 할당된 상기 N개의 IDL 채널이 상호 연동되어 상기 N개의 단말기간의 통신 네트워크를 상호 연동시키는 단계; A step of interconnecting the N IDL channels assigned to each of the N terminals to interconnect the communication networks between the N terminals;
상기 N개의 단말기 각각을 통하여 적어도 1인 이상의 음성 정보가 순차적으로 입력되면 상기 음성 정보는 상기 게이트웨이를 통하여 상기 서버의 상기 다중 IDL 에이전트 모듈로 순차 전송되고, 상기 음성 정보가 입력된 단말기에 대응하는 상기 N개의 IDL 채널로 순차적으로 전송되며, 상기 음성 정보가 전송된 상기 N개의 IDL 채널과 연동되는 나머지 모든 단말기 각각의 N개의 IDL 채널에 순차적으로 전송된 후 상기 게이트웨이를 통하여 상기 음성 정보가 입력된 단말기와 통신 네트워크로 연결되는 나머지 모든 단말기에 상기 음성 정보가 순차적으로 전송되어 실시간 다자간 음성 정보 전달이 가능한 것을 특징으로 한다.When at least one person's voice information is sequentially input through each of the N terminals, the voice information is sequentially transmitted to the multi-IDL agent module of the server through the gateway, sequentially transmitted to the N IDL channels corresponding to the terminals into which the voice information was input, and sequentially transmitted to the N IDL channels of each of all remaining terminals linked to the N IDL channels into which the voice information was transmitted, and then the voice information is sequentially transmitted to all remaining terminals connected to the terminal into which the voice information was input through the gateway via a communication network, thereby enabling real-time multi-party voice information transmission.
본 발명을 실시하는 경우, 소정 공간내에서 상이한 언어를 사용하는 다수가 자신의 단말기를 사용하여 대화를 함에 있어서 실시간으로 타인의 음성을 통번역하여 동일 장소내에서 서로간의 의사소통이 실시간으로 가능하다는 이점이 있다.When the present invention is implemented, there is an advantage in that a number of people speaking different languages within a given space can communicate with each other in real time by translating each other's voices in real time using their own terminals.
도 1은 본 발명에 따른 다자간 실시간 음성인식 방법을 가능하게 하는 V-TOT(Voice-Time In Target) 방법을 설명하는 개념도이다.
도 2는 본 발명에 따른 다자간 실시간 음성인식 방법을 가능하게 하는 다중 IDL 에이전트 모듈의 기능을 설명하는 도면이다.
도 3은 본 발명에 따른 음성 인식을 통한 실시간 번역 및 대화 방법을 설명하기 위한 개념도의 일예이다.
도 4는 본 발명에 따른 음성 인식을 통한 실시간 번역 및 대화 방법의 실시예이다.FIG. 1 is a conceptual diagram illustrating a V-TOT (Voice-Time In Target) method that enables a multi-party real-time speech recognition method according to the present invention.
FIG. 2 is a drawing illustrating the function of a multi-IDL agent module that enables a multi-party real-time speech recognition method according to the present invention.
FIG. 3 is an example of a conceptual diagram for explaining a real-time translation and conversation method using voice recognition according to the present invention.
Figure 4 is an embodiment of a real-time translation and conversation method using voice recognition according to the present invention.
이하, 본 발명의 기술적 사상인 다자간 실시간 음성인식 방법에 대하여 설명하기로 한다.Hereinafter, the multi-party real-time speech recognition method, which is the technical idea of the present invention, will be described.
참고로, 본 발명에서 제안하는 다자간 실시간 음성인식 방법은 소정의 통번역 앱이 설치되어 있는 단말기를 통한 대화에 적용 가능하다, 여기서,본 발명의 단말기는 서버와의 통신에 의하여 연동되는 스마트폰, 컴퓨터, 태블릿 등을 모두 포함한다. For reference, the multi-party real-time speech recognition method proposed in the present invention can be applied to conversations through terminals having a predetermined translation app installed. Here, the terminals of the present invention include all smartphones, computers, tablets, etc. that are linked through communication with a server.
먼저, 본 발명을 실시하기 위해서는 소정의 통번역 앱이 설치되어 있는 단말기 소지자가 소정의 공간내에서 대화하는 경우에 적용된다. First, in order to implement the present invention, it is applied when a terminal holder having a predetermined translation app installed converses within a predetermined space.
여기서, 소정의 공간내에서 대화하는 복수의 단말기 소지자는 적어도 한명 이상이 외국어 사용자인 경우를 상정하며, 모두가 상이한 모국어를 사용하는 외국인들의 모임인 경우도 가능하다.Here, it is assumed that among the multiple terminal holders conversing within a given space, at least one is a foreign language speaker, and it is also possible that the group is comprised of foreigners who all speak different native languages.
도 1은 본 발명에 따른 다자간 실시간 음성인식 방법을 가능하게 하는 V-TOT(Voice-Time In Target) 방법을 설명하는 개념도이다.FIG. 1 is a conceptual diagram illustrating a V-TOT (Voice-Time In Target) method that enables a multi-party real-time speech recognition method according to the present invention.
본 발명에 따른 인공지능 기반 음성인식 기술은 음성 입력 시 ①음성 스트리밍, ②음성을 텍스트로 변환, ③변환된 텍스트를 대응하는 외국어 언어로 번역으로 이루어지는 3가지 프로세스가 필요하다The artificial intelligence-based voice recognition technology according to the present invention requires three processes: ① voice streaming, ② voice conversion into text, and ③ translation of the converted text into a corresponding foreign language when voice input is performed.
본 발명에 따른 인공지능 음성인식에 사용되는 Bidirectional RNN(양방향 순환 신경망)기술의 병렬화를 통해 1인 이상의 다자 음성인식이 가능하도록 하였다. Multi-person voice recognition of one or more people is made possible through parallelization of the Bidirectional RNN (bidirectional recurrent neural network) technology used in artificial intelligence voice recognition according to the present invention.
본 발명에 따른 Bidirectional RNN(양방향 순환 신경망) 기술의 병렬화의 핵심은 V-TOT (Voice-Time On Target (음성 동시 탄착 기술))이다. The core of the parallelization of the Bidirectional RNN (bidirectional recurrent neural network) technology according to the present invention is V-TOT (Voice-Time On Target).
도 2는 본 발명에 따른 다자간 실시간 음성인식 방법을 가능하게 하는 다중 IDL 에이전트 모듈의 기능을 설명하는 도면이다. FIG. 2 is a drawing illustrating the function of a multi-IDL agent module that enables a multi-party real-time speech recognition method according to the present invention.
도 2에 도시된 바와 같이, 본 발명에서는 소정 공간내에 소정 통번역 앱이 설치되어 있는 다수개의 단말기를 통하여 각자가 자신의 모국어로 대화를 하는 경우를 설명하기로 한다. As illustrated in Figure 2, the present invention will explain a case where each person converses in his or her native language through a plurality of terminals in which a predetermined translation app is installed within a predetermined space.
도 2에서는 3명이 각자 단말기를 통하여 대화하는 경우를 상정하였으나 그 이상의 복수명의 다자간 대화도 동일하다In Figure 2, we assume that three people are talking through their own terminals, but the same applies to multi-party conversations with more than one person.
도 2의 시스템에서 3명의 발화자 각각은 자신의 단말기를 소지한다.In the system of Figure 2, each of the three speakers carries its own terminal.
상기 각 단말기는 소정 공간내에 설치되어 있는 음성인식 게이트웨이와 연동되게 된다. Each of the above terminals is connected to a voice recognition gateway installed within a designated space.
음성 인식 게이트웨이는 서버와 연동되며, 도시된 바와 같이 본 발명의 서버에는 다중 IDL 에이전트가 제공된다.The voice recognition gateway is connected to a server, and as illustrated, the server of the present invention is provided with multiple IDL agents.
본 발명의 다중 IDL 에이전트는 각 단말기마다 소정 갯수의 IDL 채널을 제공하게 된다. The multi-IDL agent of the present invention provides a predetermined number of IDL channels to each terminal.
여기서 각 단말기마다 제공되는 IDL 채널의 객수는 소정 공간내에서 대화에 참여하는 단말기의 갯수와 동일하다. 참고로, 도 2의 경우 각 단말기마다 제공되는 IDL 채널의 수는 3개이다. 대화도중 예컨대 1명이 추가로 참여하여 단말기의 갯수가 4대가 되는 경우 각 단말기마다 제공되는 IDL 채널은 4개로 변경되어 할당된다. Here, the number of IDL channels provided to each terminal is equal to the number of terminals participating in the conversation within the given space. For reference, in the case of Figure 2, the number of IDL channels provided to each terminal is three. If, for example, one additional person joins the conversation, bringing the number of terminals to four, the number of IDL channels provided to each terminal changes to four and is then allocated.
서버에서는 각 단말기마다 할당되는 3개의 IDL 채널들을 상호 연동시켜 통신이 가능하도록 한다. The server enables communication by interconnecting the three IDL channels assigned to each terminal.
이후, 단말기 소지자 중 적어도 한명 이상이 대화를 시도하는 경우 각자의 음성 정보는 자신이 소지한 단말기를 통하여 게이트웨이로 전송되고 서버로 전달될 것이다. Afterwards, if at least one of the terminal holders attempts to have a conversation, each person's voice information will be transmitted to the gateway through the terminal they are holding and then forwarded to the server.
서버에서는 각 단말기마다 할당된 3개의 IDL 채널이 형성되어 있고 이들 IDL 채털은 다른 단말기 각각의 IDL 채널과 연결되어 있으므로 각 단말기를 통하여 순차적으로 입력되는 음성 정보는 다중 IDL 에이전트에서 순차 처리된 후 서로 연동되어 있는 단말기를 통하여 전달된다. 이때 통번역은 도 3 및 도 4에 설명한 방식으로 처리되게 되며, 이러한 방식에 의하여 특정 공간내에서 상이한 모국어를 사용하는 다자간의 실시간 대화가 가능해진다. On the server, three IDL channels are formed, each assigned to a terminal, and these IDL channels are connected to the IDL channels of each other terminal. Therefore, voice information sequentially input through each terminal is sequentially processed by multiple IDL agents and then transmitted through the terminals that are interconnected. At this time, interpretation and translation are processed in the manner described in Figures 3 and 4, and this method enables real-time conversations between multiple parties using different native languages within a specific space.
이러한 본 발명의 기술적 사상을 요약하여 정리하면 다음과 같다. The technical idea of the present invention can be summarized as follows.
먼저, 도 2에서 설명하는 본 발명은 소정 공간내에서 상이한 모국어를 사용하는 N명(N은 2 이상의 자연수)이 가각각이 소정의 통번역 앱이 각기 설치된 단말기(N 개의 단말기)를 통하여 실시간 대화를 가능하게 하는 다자간 실시간 음성인식 방법에 관한 것이다. First, the present invention described in FIG. 2 relates to a multi-party real-time speech recognition method that enables real-time conversation between N people (N is a natural number greater than or equal to 2) who use different native languages within a given space through terminals (N terminals) each having a predetermined translation app installed.
본 발명의 실시는 다음의 순서로 진행되게 된다 The implementation of the present invention proceeds in the following order.
1 단계 : 상기 N개의 단말기 각각에 설치된 상기 통번역 앱이 활성화되어 상기 소정 공간내에 설치된 게이트웨이를 통하여 서버와 연동되는 단계Step 1: The translation app installed on each of the above N terminals is activated and linked to the server through the gateway installed in the above designated space.
2 단계 ; 상기 서버의 다중 IDL 에이전트 모듈에서 상기 N개의 단말기 각각에 대하여 N개의 IDL 채널을 할당하는 단계Step 2; A step of allocating N IDL channels to each of the N terminals in the multi-IDL agent module of the server.
3단계 : 상기 N개의 단말기 각각에 할당된 상기 N개의 IDL 채널이 상호 연동되어 상기 N개의 단말기간의 통신 네트워크를 상호 연동시키는 단계 Step 3: A step in which the N IDL channels assigned to each of the N terminals are interconnected to interconnect the communication networks between the N terminals.
4단계 : 상기 N개의 단말기 각각을 통하여 적어도 1인 이상의 음성 정보가 순차적으로 입력되면 상기 음성 정보는 상기 게이트웨이를 통하여 상기 서버의 상기 다중 IDL 에이전트 모듈로 순차 전송되고, 상기 음성 정보가 입력된 단말기에 대응하는 상기 N개의 IDL 채널로 순차적으로 전송되며, 상기 음성 정보가 전송된 상기 N개의 IDL 채널과 연동되는 나머지 모든 단말기 각각의 N개의 IDL 채널에 순차적으로 전송된 후 상기 게이트웨이를 통하여 상기 음성 정보가 입력된 단말기와 통신 네트워크로 연결되는 나머지 모든 단말기에 상기 음성 정보가 순차적으로 전송되어 실시간 다자간 음성 정보 전달이 가능한 단계.Step 4: When at least one person's voice information is sequentially input through each of the N terminals, the voice information is sequentially transmitted to the multi-IDL agent module of the server through the gateway, sequentially transmitted to the N IDL channels corresponding to the terminals into which the voice information was input, and sequentially transmitted to the N IDL channels of each of all remaining terminals linked to the N IDL channels into which the voice information was transmitted, and then the voice information is sequentially transmitted to all remaining terminals connected to the terminal into which the voice information was input through a communication network through the gateway, thereby enabling real-time multi-party voice information transmission.
위와 같은 방법을 실시하는 경우 상이한 모국어를 사용하는 다자간에 실시간의 대화 및 통번역이 가능해짐을 알 수 있다. By implementing the above method, it can be seen that real-time conversation and interpretation/translation becomes possible between multiple parties who speak different native languages.
다음, 전술한 다중 LDL 모듈을 통하여 전송된 음성 정보를 다자간 통번역으로 실시간 제공하기 위한 본 발명의 음성 인식을 통한 실시간 번역 및 대화 방법을 가능하게 하는 기능을 갖는 서버에 대하여 설명하기로 한다Next, a server having a function that enables real-time translation and conversation method through voice recognition of the present invention to provide real-time multi-party interpretation and translation of voice information transmitted through the aforementioned multiple LDL modules will be described.
본 발명의 서버는 인공지능 학습된 자동음성인식 시스템 (ASR : Automatic Speech Recognition)을 구비하며, 본 발명의 자동음성인식 시스템은 적어도 음향 추출기, 음향 처리기, 어휘 처리기, 언어 처리기 등을 포함한다. 본 발명에서 실시하는 ASR은 단말기를 통하여 입력되는 음성에 대하여 VAD 모듈을 거치도록 하고 있다. 여기서 VAD(Voice Activity Detection) 모듈은 단말기를 통하여 입력되는 정보 중에서 배경 잡음과 묵음 정보(묵음 시간), 그리고 음성 정보를 구분할 수 있도록 학습되어 있다. 본 발명에서는 VAD 모듈을 활용함으로써 배경 잡음을 제거함과 아울러 묵음 정보를 획들할 수 있으며 이러한 묵음 정보는 본 발명의 실시간 통번역에 있어서 중요한 기능을 수행하게 되며 입력되는 음성 입력의 종점(구술 문장의 끝맺음)을 판단하기도 한다.The server of the present invention is equipped with an automatic speech recognition system (ASR) learned by artificial intelligence, and the automatic speech recognition system of the present invention includes at least an audio extractor, an audio processor, a vocabulary processor, a language processor, etc. The ASR implemented in the present invention passes the voice input through the terminal through the VAD module. Here, the VAD (Voice Activity Detection) module is trained to be able to distinguish background noise, silence information (silent time), and voice information among the information input through the terminal. In the present invention, by utilizing the VAD module, background noise can be removed and silence information can be acquired, and this silence information performs an important function in the real-time interpretation and translation of the present invention, and also determines the end point (end of a spoken sentence) of the input voice input.
이러한 본 발명의 VAD 모듈에 의하여 단말기를 통하여 서버로 전송되는 정보 중에서 음성 정보만이 추출되어 후술되는 ASR로 전달되게 된다.By means of the VAD module of the present invention, only voice information is extracted from the information transmitted to the server through the terminal and transmitted to the ASR described below.
도 3에는 본 발명에 따른 음성 인식을 통한 실시간 번역 및 대화 방법을 설명하기 위한 개념도의 일예가 도시되어 있으며, 도 4에는 본 발명에 따른 음성 인식을 통한 실시간 번역 및 대화 방법의 실시예가 도시되어 있다.FIG. 3 illustrates an example of a conceptual diagram for explaining a real-time translation and conversation method using voice recognition according to the present invention, and FIG. 4 illustrates an embodiment of a real-time translation and conversation method using voice recognition according to the present invention.
본 발명에 있어서, ASR의 일 구성인 음향 추출기(예컨대, MFCC기반의 음향추출기)는 서버와 연동되는 단달기를 통하여 입력된 음성 정보 수신하여, 음성 정보의 고유한 특징을 추출한 데이터 정보(스펙트로그램 정보)를 생성한다In the present invention, a sound extractor (e.g., an MFCC-based sound extractor), which is a component of ASR, receives voice information input through a single unit linked to a server and generates data information (spectrogram information) that extracts unique features of the voice information.
다음, 본 발명의 음향 처리기는 Conformer model기반의 음향처리기로 구성될 수 있으며, 음향 추추출기의 스펙트로그램 정보를 수신하여 해당 스펙트로그램 정보의 음성 특징을 분석한 후 해당 음성 특징과 유사도가 가장 높은 발음 텍스트를 추출한다. Next, the sound processor of the present invention can be configured as a sound processor based on a Conformer model, receives spectrogram information from an acoustic extractor, analyzes voice features of the spectrogram information, and then extracts a pronunciation text having the highest similarity to the voice features.
다음, 본 발명의 어휘 처리기는 인공지능으로 학습된 어휘 사전 모듈을 구비하며, 음향 처리기를 통하여 수신되는 발음 텍스트를 학습된 어휘 사전 모듈과 비교하여 가장 유사도가 높은 실제 어휘 텍스트로 변환시킨다. Next, the vocabulary processor of the present invention is equipped with a vocabulary dictionary module learned by artificial intelligence, and compares the pronunciation text received through the sound processor with the learned vocabulary dictionary module to convert it into an actual vocabulary text with the highest similarity.
여기서, 실제 어휘 텍스트란 발음 텍스트 정보를 통번역에 용이한 표준어 텍스트로 변환시키거나, 부정확인 발음 텍스트 정보를 추정 보완하여 정확한 의미를 갖는 실제 어휘 텍스트로 변환시키는 과정을 의미한다.Here, actual vocabulary text refers to the process of converting pronunciation text information into standard language text that is easy to translate or converting unconfirmed pronunciation text information into actual vocabulary text with accurate meaning by estimating and supplementing it.
예컨대, 음향 처리기의 발음 텍스트 정보가 " 여기가 어덴교"인 경우, 음향 처리기에서는 "여기가 어디인가요"와 같이 표준어에 매칭될 수 있는 실제 어휘 텍스트로 변환시키는 기능을 수행한다.For example, if the pronunciation text information of the sound processor is "This is Eden-gyo," the sound processor performs the function of converting it into an actual vocabulary text that can be matched to the standard language, such as "Where is this?"
여기서, 본 발명의 음향 처리기는, 예컨대 "안녕하십니까, 말좀 물읍시다, 요 밥집 잘하는데가 어덴교?” 라는 텍스트 정보에 대하여 일예로 "안녕하십니까, 말씀 좀 묻겠습니다. 여기 밥집 잘하는 곳이 어디입니까?” 형태의 텍스트로 변환시키는 기능을 수행하며, 이러한 본 발명의 음향 처리기는 단순히 단어만 추론하여 소정의 텍스트로 변환시키는 것이 아니라 입력된 텍스트 정보의 단어, 문장, 문단 단위 추론, 및 연산 등을 통하여 표준화된 텍스트로 변환시킬 수 있다.Here, the sound processor of the present invention performs a function of converting text information such as "Hello, may I ask you something. Where is a good restaurant around here?" into text in the form of "Hello, may I ask you something. Where is a good restaurant around here?", and the sound processor of the present invention does not simply infer words and convert them into a predetermined text, but can convert the input text information into a standardized text through word, sentence, paragraph unit inference and operations.
다음, 본 발명의 언어 처리기는(예컨대, 은닉마코프모델(Hidden Markov Models, HMMs)기반의 언어 처리기)는 순차적으로 입력되는 실제 어휘 텍스트 정보를 실제 언어구조에 맞게 조합한 후 전체 텍스트 정보를 산출하는 기능을 수행한다. Next, the language processor of the present invention (e.g., a language processor based on Hidden Markov Models (HMMs)) performs a function of combining sequentially input actual vocabulary text information to match an actual language structure and then producing entire text information.
한편, 본 발명의 서버는 실시간 대화 번역 즉 실시간 통역을 실시하기 위하여 실시간 대화 번역기를 추가로 구비한다. Meanwhile, the server of the present invention additionally has a real-time conversation translator to perform real-time conversation translation, i.e., real-time interpretation.
본 발명의 실시간 대화 번역기는 어휘 처리기로부터 출력되는 실제 어휘 텍스트 정보를 수신하여 번역하는 기능을 수행한다.The real-time conversation translator of the present invention performs a function of receiving and translating actual vocabulary text information output from a vocabulary processor.
본 발명의 실시간 번역은 단말기를 통하여 입력되는 음성 정보의 마지막 종결전 순차 번역이 가능하도록 다음과 같은 기능을 수행하게 된다. The real-time translation of the present invention performs the following functions to enable sequential translation of voice information input through a terminal before its final conclusion.
먼저, 본 발명의 실시간 대화 번역기는 어휘 처리기로부터 수신되는 실제 어휘 텍스트 정보의 구두점(구어체의 끝맺음, 구어체의 한문장을 의미한다), 품사와 문장을 분석하는 기능을 구비한다.First, the real-time conversation translator of the present invention has a function of analyzing punctuation (meaning the ending of a colloquial sentence, a colloquial sentence), parts of speech, and sentences of actual vocabulary text information received from a vocabulary processor.
본 발명의 실시간 대화 번역기에서는 어휘 처리기로부터 수신되는 실제 어휘 텍스트 정보가 조건문인지 여부를 판단하는 기능과, 부사 또는 부사구인지 여부를 판단하는 기능과, 순차적으로 입력되는 실제 어휘 텍스트 정보 중 술어부인지 여부, 그리고 문장의 종점을 나타내는 구두점 부분이 포함되어 있는지 판단하는 기능등을 구비한다.The real-time conversation translator of the present invention is provided with a function for determining whether actual vocabulary text information received from a vocabulary processor is a conditional sentence, a function for determining whether it is an adverb or an adverbial phrase, a function for determining whether actual vocabulary text information sequentially input is a predicate, and a function for determining whether a punctuation mark indicating the end of a sentence is included.
예컨대, 본 발명의 실시간 번역 처리기에서 판단한 실제 어휘 텍스트 정보가 조건문에 해당하는 경우, 이를 실시간으로 영어 등과 같은 외국어로 번역하여 출력할 수 있다. For example, if the actual vocabulary text information judged by the real-time translation processor of the present invention corresponds to a conditional sentence, it can be translated into a foreign language such as English and output in real time.
또한, 본 발명의 실시간 번역 처리기에서 판단한 실제 어휘 텍스트 정보가 기학습되어 있는 부사 또는 부사구에 해당하는 경우, 이를 실시간으로 영어 등과 같은 외국어로 번역하여 출력할 수 있다. In addition, if the actual vocabulary text information judged by the real-time translation processor of the present invention corresponds to a pre-learned adverb or adverbial phrase, it can be translated into a foreign language such as English and output in real time.
또한, 본 발명의 실시간 번역 처리기에서 판단한 실제 어휘 텍스트 정보에 술어부가 포함되어 있는 경우, 술어부까지 포함하는 실제 어휘 텍스트 정보를 실시간으로 영어 등과 같은 외국어로 번역하여 출력한다In addition, if the actual vocabulary text information determined by the real-time translation processor of the present invention includes a predicate, the actual vocabulary text information including the predicate is translated into a foreign language such as English in real time and output.
또한, 본 발명의 실시간 번역 처리기에서 판단한 실제 어휘 텍스트 정보에 구두점이 있는 문장이라고 판단되는 경우, 구두점까지 포함하는 실제 어휘 텍스트 정보를 실시간으로 영어 등과 같은 외국어로 번역하여 출력한다.In addition, if the real vocabulary text information judged by the real-time translation processor of the present invention is determined to be a sentence with punctuation marks, the real vocabulary text information including punctuation marks is translated into a foreign language such as English in real time and output.
위에서 설명한 번역은, 조건문, 부사 또는 부사구, 술어부가 포함된 경우의 문장, 구두점이 포함되어 있는 문장 각각에 대하여 독립적으로 순차 번역이 이루어지게 된다.The translation described above is performed independently and sequentially for each sentence containing a conditional sentence, an adverb or adverbial phrase, a predicate, or a sentence containing punctuation.
예컨대, "내일 만약 비가 온다면, 야외 나들이 가는 것을 자제해야 한다"라는 정보에 대하여 조건문인 "내일 만약 비가 온다면"에 대하여 먼저 번역이 이루어지고, 구두점을 포함하는 다음 문장인 "야외 나들이 가는 것을 자제해야 한다"에 대하여 순차 번역이 진행되는 방식이다. For example, for the information "If it rains tomorrow, you should refrain from going on outings," the conditional sentence "If it rains tomorrow" is translated first, and then the next sentence, which includes punctuation, "You should refrain from going on outings," is translated sequentially.
여기서, 만약 "내일"을 부사 또는 "부사구"로 판단하는 경우, "내일"을 번역 번역한 후 "만약 비가 온다면"을 순차 번력할 수 있다.Here, if "tomorrow" is judged as an adverb or "adverbial phrase", "tomorrow" can be translated and then "if it rains" can be translated sequentially.
이를 구체적으로 설명하면 다음과 같다.To explain this in detail, it is as follows.
예컨대 실시간 번역 처리기로 순차 입력되는 실제 어휘 텍스트 정보가 다음과 같다고 가정하자.For example, let's assume that the actual vocabulary text information sequentially input into the real-time translation processor is as follows.
단말기를 통하여 입력된 대화 내용이 "그리고, 재미있게 대화를 나누고 싶다면 상대방의 입장에서 생각을 해야지"라고 하면, 실제 어휘 텍스트 정보는 순차적으로 다음과 같을 수 있다. If the conversation entered through the terminal is "And, if you want to have an interesting conversation, you have to think from the other person's perspective," the actual vocabulary text information can be sequentially as follows.
1. 그리고1. And
2. 재미있게2. Have fun
3. 대화를3. Conversation
4. 나누고4. Share
5. 싶다면5. If you want
6. 상대방의6. The other party's
7. 입장에서7. From the position
8. 생각을8. Thinking
9. 해야지9. I have to do it
여기서 위 대화 내용을 영어로 번역한 경우 다음과 같은 문장이 될 수 있을 것이다. If the above conversation were translated into English, it would be something like this:
"And if you want to have a fun conversation, you have to think from the other person's point of view""And if you want to have a fun conversation, you have to think from the other person's point of view"
그런데, 본 발명에서는 실시간으로 번역하기 위하여 대화의 내용을 다음과 같은 방법과 같이 끊어 가면서 실시간으로 번역하게 된다.However, in the present invention, in order to translate in real time, the content of the conversation is translated in real time by breaking it up in the following manner.
먼저, 본 발명에 있어서, "그리고"는 부사이므로 이에 대응하는 외국어(예컨대 영어)인 And 로 번역하여 실시간 출력한다.First, in the present invention, “and” is an adverb, so it is translated into the corresponding foreign language (e.g., English) word “And” and output in real time.
다음 "재미있게" 또한 부사이므로 이에 대응하는 외국어인 funny 를 실시간으로 출력할 수도 있다. Next, since "fun" is also an adverb, you can output the corresponding foreign word, funny, in real time.
다음, 조건문인 "대화를 나누고 싶다면"를 "if you want to have a conversation"로 번역하여 실시간 출력할 수 있다. 참고로, 이 경우는 술어를 포함한 직전 텍스트 정보를 포함하여 번역한 경우에 해당할 수도 있다. Next, the conditional statement "If you want to have a conversation" can be translated into "if you want to have a conversation" and output in real time. Note that this may also apply if the translation includes the preceding text information, including the predicate.
다음, "상대방의 입장에서"는 "from the other person's point of view"로 번역하여 실시간 출력할 수 있다. 참고로, 이 경우는 부사구로 판정한 경우에 해당한다Next, "from the other person's perspective" can be translated as "from the other person's point of view" and displayed in real time. Note that this case is considered an adverbial phrase.
다음, 술어부를 포함하는 "생각을 해야지"는 "you have to think about it"로 번역하여 실시간 출력할 수 있다. 참고로, 이 경우는 술어(해야지)를 포함한 직전 텍스트 정보를 포함하여 번역한 경우의 일예이다. Next, "I have to think about it" (which includes a predicate) can be translated into "you have to think about it" and output in real time. Note that this is an example of a translation that includes the preceding text information, including the predicate ("I have to think about it").
결과적으로 화자의 상대방은 실시간으로, "and, funny, if you want to have a conversation, from the other person's point of view, you have to think about it"이라는 문장을 듣을 수 있다. As a result, the speaker's counterpart can hear, in real time, the sentence, "and, funny, if you want to have a conversation, from the other person's point of view, you have to think about it."
물론, 위 문장은 정확한 번역 문장과는 다소 차이가 있을 수 있다.Of course, the above sentence may differ somewhat from the exact translation.
그러나 본 발명 방법을 실시하는 경우, 화자가 말하고자 하는 내용의 범위 내에서 실시간으로 상대방에게 충분하게 의사를 전달할 수 있다. 충분한 의사 전달 가능 여부는 실시간 번역 처리기의 문단 분석 능력에 따라 차이가 있을 수 있다. 그러나, 본 발명에서 제안하는 방법을 실시하는 경우, 화자 및 그 상대방은 상이한 어어를 사용하는 경우에도 실시간으로 상대가 하는 말의 의미를 이해할 수 있고 따라서 실시간적으로 응답을 할 수 있다는 이점을 가진다. However, when implementing the method of the present invention, the speaker can sufficiently convey his/her intentions to the other party in real time within the scope of his/her intended message. Whether sufficient communication is possible may vary depending on the paragraph analysis capabilities of the real-time translation processor. However, implementing the method proposed in the present invention offers the advantage of allowing both the speaker and the other party to understand the meaning of the other party's speech in real time, even when using different languages, and thus respond in real time.
예컨대, 화자의 대화를 실시간 통번역하여 상대방에게 제공할 수 있으므로, 상대방은 화자의 대화 중간에 자신의 의사를 실시간으로 전달할 수 있는 이점이 있다For example, since the speaker's conversation can be translated in real time and provided to the other party, the other party has the advantage of being able to convey their thoughts in real time during the speaker's conversation.
즉, 본 본 발명에서 제안하는 단말기를 통하여 입력되는 음성 정보를 ASR을 통하여 표준화한 후, 번역기를 거쳐 텍스트로 변환시키되, 텍스트를 분석하여 조선문, 부사, 부사구, 술어부, 구두점 등을 판정하여 해당 텍스트를 실시간 순차 통번역하여 다른 단말기로 출력하는 경우, 대화의 단절없이 실시간으로 상호간의 의사를 파악할 수 있다는 이점이 있다.That is, if the voice information input through the terminal proposed in the present invention is standardized through ASR, and then converted into text through a translator, and the text is analyzed to determine Korean characters, adverbs, adverbial phrases, predicates, punctuation, etc., and the text is sequentially translated in real time and output to another terminal, there is an advantage in that the intention of both parties can be understood in real time without any interruption in the conversation.
Claims (1)
상기 N개의 단말기 각각에 설치된 상기 통번역 앱이 활성화되어 상기 소정 공간내에 설치된 게이트웨이를 통하여 서버와 연동되는 단계;
상기 서버의 다중 IDL 에이전트 모듈에서 상기 N개의 단말기 각각에 대하여 N개의 IDL 채널을 할당하는 단계;
상기 N개의 단말기 각각에 할당된 상기 N개의 IDL 채널이 상호 연동되어 상기 N개의 단말기간의 통신 네트워크를 상호 연동시키는 단계;
상기 N개의 단말기 각각을 통하여 적어도 1인 이상의 음성 정보가 순차적으로 입력되면 상기 음성 정보는 상기 게이트웨이를 통하여 상기 서버의 상기 다중 IDL 에이전트 모듈로 순차 전송되고, 상기 음성 정보가 입력된 단말기에 대응하는 상기 N개의 IDL 채널로 순차적으로 전송되며, 상기 음성 정보가 전송된 상기 N개의 IDL 채널과 연동되는 나머지 모든 단말기 각각의 N개의 IDL 채널에 순차적으로 전송된 후 상기 게이트웨이를 통하여 상기 음성 정보가 입력된 단말기와 통신 네트워크로 연결되는 나머지 모든 단말기에 상기 음성 정보가 순차적으로 전송되어 실시간 다자간 음성 정보 전달이 가능한 것을 특징으로 하는 다자간 실시간 음성인식 방법.A multi-party real-time speech recognition method that enables real-time conversation between N people (N is a natural number greater than or equal to 2) who speak different native languages within a given space through terminals (N terminals) each with a given translation app installed.
A step in which the translation app installed on each of the N terminals is activated and linked to the server through a gateway installed in the designated space;
A step of allocating N IDL channels to each of the N terminals in the multi-IDL agent module of the above server;
A step of interconnecting the N IDL channels assigned to each of the N terminals to interconnect the communication networks between the N terminals;
A multi-party real-time speech recognition method characterized in that when at least one person's voice information is sequentially input through each of the N terminals, the voice information is sequentially transmitted to the multi-IDL agent module of the server through the gateway, sequentially transmitted to the N IDL channels corresponding to the terminals into which the voice information was input, and sequentially transmitted to the N IDL channels of each of all remaining terminals linked to the N IDL channels into which the voice information was transmitted, and then the voice information is sequentially transmitted to all remaining terminals connected to the terminal into which the voice information was input through a communication network through the gateway, thereby enabling real-time multi-party speech information transmission.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020240022220A KR20250126241A (en) | 2024-02-16 | 2024-02-16 | Multilateral Real-Time Voice Recognition Method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020240022220A KR20250126241A (en) | 2024-02-16 | 2024-02-16 | Multilateral Real-Time Voice Recognition Method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20250126241A true KR20250126241A (en) | 2025-08-25 |
Family
ID=96914937
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020240022220A Pending KR20250126241A (en) | 2024-02-16 | 2024-02-16 | Multilateral Real-Time Voice Recognition Method |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20250126241A (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20140001431A (en) | 2012-06-27 | 2014-01-07 | (주)모토닉 | Direct injection type liquefied petroleum-gas injection system and control method thereof |
| KR20180021969A (en) | 2016-08-22 | 2018-03-06 | 한성대학교 산학협력단 | Detection kit and its manufacturing method for hazardous substance based on water soluble polymer scaffold |
-
2024
- 2024-02-16 KR KR1020240022220A patent/KR20250126241A/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20140001431A (en) | 2012-06-27 | 2014-01-07 | (주)모토닉 | Direct injection type liquefied petroleum-gas injection system and control method thereof |
| KR20180021969A (en) | 2016-08-22 | 2018-03-06 | 한성대학교 산학협력단 | Detection kit and its manufacturing method for hazardous substance based on water soluble polymer scaffold |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111128126B (en) | Multi-language intelligent voice conversation method and system | |
| US20030115059A1 (en) | Real time translator and method of performing real time translation of a plurality of spoken languages | |
| US9646001B2 (en) | Machine translation (MT) based spoken dialog systems customer/machine dialog | |
| CA2510663A1 (en) | A real time translator and method of performing real time translation of a plurality of spoken word languages | |
| US20030061029A1 (en) | Device for conducting expectation based mixed initiative natural language dialogs | |
| CN109256133A (en) | A kind of voice interactive method, device, equipment and storage medium | |
| GB2423403A (en) | Distributed language processing system and method of outputting an intermediary signal | |
| JP2011504624A (en) | Automatic simultaneous interpretation system | |
| US20190121860A1 (en) | Conference And Call Center Speech To Text Machine Translation Engine | |
| CN113488026B (en) | Speech understanding model generation method based on pragmatic information and intelligent speech interaction method | |
| US20170221481A1 (en) | Data structure, interactive voice response device, and electronic device | |
| JPH07129594A (en) | Automatic interpreter system | |
| KR20200134573A (en) | Conversation Contextual Learning Based Automatic Translation Device and Method | |
| KR101233655B1 (en) | Apparatus and method of interpreting an international conference based speech recognition | |
| KR20200081925A (en) | System for voice recognition of interactive robot and the method therof | |
| Furui et al. | Ubiquitous speech processing | |
| WO2024212692A1 (en) | Spoken language learning method and apparatus, device, and storage medium | |
| KR20250126241A (en) | Multilateral Real-Time Voice Recognition Method | |
| Buck | An overview of listening comprehension | |
| JP6985311B2 (en) | Dialogue implementation programs, devices and methods that control response utterance generation by aizuchi determination | |
| Neto et al. | The development of a multi-purpose spoken dialogue system. | |
| TWM556360U (en) | Video-based synchronous translation system | |
| KR20250023224A (en) | Real-time translation and conversation methods through speech recognition | |
| US20170185587A1 (en) | Machine translation method and machine translation system | |
| KR102248701B1 (en) | Automatic Interpreting of Multilingual Voice Interpretations To control the timing, end, and provision of certain information in chatting with a given voice |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |