JP2021022928A - Artificial intelligence-based automatic response method and system - Google Patents
Artificial intelligence-based automatic response method and system Download PDFInfo
- Publication number
- JP2021022928A JP2021022928A JP2020124156A JP2020124156A JP2021022928A JP 2021022928 A JP2021022928 A JP 2021022928A JP 2020124156 A JP2020124156 A JP 2020124156A JP 2020124156 A JP2020124156 A JP 2020124156A JP 2021022928 A JP2021022928 A JP 2021022928A
- Authority
- JP
- Japan
- Prior art keywords
- user
- artificial intelligence
- automatic response
- processor
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】 人工知能基盤の自動応答方法およびシステムを提供する。
【解決手段】 人工知能基盤の自動応答方法は、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記発話音声の中間結果(mid results)を利用して意図(intent)を分析した後に返答を生成する段階、および前記発話音声に対して前記返答を送出する段階を含む。
【選択図】 図5PROBLEM TO BE SOLVED: To provide an automatic response method and a system of an artificial intelligence base.
An artificial intelligence-based automatic response method analyzes an intention by using a stage of receiving a utterance voice of the user by connecting a call with the user and an intermediate result (mid results) of the utterance voice. This includes a step of generating a reply and a step of sending the reply to the spoken voice.
[Selection diagram] Fig. 5
Description
以下の説明は、人工知能(AI)を基盤とした自動応答システム(ARS)に関する。 The following description relates to an automatic response system (ARS) based on artificial intelligence (AI).
情報通信技術の発達によって情報化社会が進展しており、社会、文化、および経済などのようなあらゆる分野においてインターネットが重要かつ必須な媒体となりつつある。 With the development of information and communication technology, the information society is advancing, and the Internet is becoming an important and indispensable medium in all fields such as society, culture, and economy.
各種企業に問い合わせ、予約、配達などを要請するためには、ユーザが企業に直接電話をかけたり、代行企業を通じて要請事項を伝達したりするオフライン方式がある。 In order to make inquiries, make reservations, deliveries, etc. to various companies, there is an offline method in which a user calls the company directly or conveys the request through an agency company.
オフライン方式よりも改善された方法としては、インターネット技術の発達に基づいてウェブサイトから関連企業の顧客センターに接続する方式や、スマートフォンなどのようなモバイル技術の発達に基づいてARS方式を利用する方法、顧客センターのアプリ(App、Application)をインストールして実行させることで、必要な事項を処理できるようになった。 Improvements over the offline method include connecting from a website to a customer center of a related company based on the development of Internet technology, and using the ARS method based on the development of mobile technology such as smartphones. , By installing and running the customer center application (App, Application), it has become possible to process necessary items.
例えば、特許文献1(公開日2019年3月29日)には、人工知能に基づき、顧客に画面上で顧客センター接続サービスを提供する技術が開示されている。 For example, Patent Document 1 (publication date: March 29, 2019) discloses a technique for providing a customer center connection service on a screen to a customer based on artificial intelligence.
ユーザ発話に対する中間結果(mid results)から発話の意味を把握して返答を予め準備しておくことにより、返答を迅速に提供することができる方法およびシステムを提供する。 By grasping the meaning of the utterance from the intermediate results (mid results) for the user utterance and preparing the reply in advance, a method and a system capable of promptly providing the reply are provided.
返答が送出される途中にユーザ発話による音声信号が受信される場合、返答の送出を中断することができる方法およびシステムを提供する。 Provided are a method and a system capable of interrupting the sending of a reply when a voice signal uttered by a user is received while the reply is being sent.
ユーザ発話の速度に合わせて応答速度を異にして提供することができる方法およびシステムを提供する。 Provided are a method and a system capable of providing different response speeds according to the speed of user utterance.
リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することができる方法およびシステムを提供する。 Provide methods and systems that can use real-time translation to translate into the language spoken by the user and provide a response.
コンピュータシステムが実行する人工知能基盤の自動応答方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記少なくとも1つのプロセッサにより、前記発話音声の中間結果(mid results)を利用して意図(intent)を分析した後に返答を生成する段階、および前記少なくとも1つのプロセッサにより、前記発話音声に対して前記返答を送出する段階を含む、人工知能基盤の自動応答方法を提供する。 An artificial intelligence-based automatic response method performed by a computer system, wherein the computer system comprises at least one processor configured to execute a computer-readable instruction contained in the memory of the artificial intelligence infrastructure. The automatic response method is a stage in which the user is connected to a call by the at least one processor to receive the spoken voice of the user, and the at least one processor utilizes the intermediate results (mid results) of the spoken voice. Provided is an artificial intelligence-based automatic response method including a step of generating a response after analyzing an intention and a step of sending the response to the spoken voice by the at least one processor.
一側面によると、前記生成する段階は、自動応答サービスの会話ログからサンプル文章を抽出する段階、および前記サンプル文章から語尾を除いた文章を学習データとして利用する会話学習により、前記中間結果から前記意図を分析する段階を含んでよい。 According to one aspect, the generation step is the step of extracting a sample sentence from the conversation log of the automatic response service, and the conversation learning using the sentence excluding the ending from the sample sentence as learning data. It may include a step of analyzing the intent.
他の側面によると、前記生成する段階は、前記中間結果として取得した音節単位で前記意図を分析する段階を含んでよい。 According to another aspect, the generation step may include a step of analyzing the intent on a syllable basis obtained as the intermediate result.
また他の側面によると、前記生成する段階は、前記中間結果を利用した意図分析結果に対するコンフィデンス(confidence)に基づいて前記返答の生成時点を決定する段階を含んでよい。 According to another aspect, the generation step may include a step of determining the generation time of the response based on the confidence of the intention analysis result using the intermediate result.
また他の側面によると、前記生成する段階は、前記中間結果を利用した意図分析結果に対するコンフィデンスが、語尾を除いた文章を利用した会話学習によって決定された閾値に達する時点に、前記返答を予め生成する段階を含んでよい。 According to another aspect, in the generation stage, the response is made in advance when the confidence for the intention analysis result using the intermediate result reaches the threshold value determined by the conversation learning using the sentence excluding the ending. It may include a step of generation.
さらに他の側面によると、前記送出する段階は、前記発話音声からエンドポイント(end point)が感知されれば、前記返答を音声信号で送出してよい。 According to still another aspect, the sending step may send the response as a voice signal if an endpoint is detected from the spoken voice.
コンピュータシステムが実行する人工知能基盤の自動応答方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記少なくとも1つのプロセッサにより、前記発話音声に対して返答を送出する段階、および前記少なくとも1つのプロセッサにより、前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する段階を含む、人工知能基盤の自動応答方法を提供する。 An artificial intelligence-based automatic response method performed by a computer system, wherein the computer system comprises at least one processor configured to execute a computer-readable instruction contained in the memory of the artificial intelligence infrastructure. The automatic response method includes a step of receiving the spoken voice of the user by connecting a call with the user by the at least one processor, a step of sending a reply to the spoken voice by the at least one processor, and the step of sending a reply to the spoken voice. Provided is an artificial intelligence-based automatic response method including a step of interrupting the transmission of the response if the spoken voice of the user is received while the response is being transmitted by at least one processor.
一側面によると、前記中断する段階は、前記ユーザの発話音声が受信されれば、前記返答の送出を即刻にまたはフェードアウト(fade−out)を適用した後に中断してよい。 According to one aspect, the suspending step may be interrupted immediately after the user's spoken voice is received or after applying fade-out.
他の側面によると、前記中断する段階は、非言語的(non−verbal)表現を分類して学習する段階、および前記返答が送出される途中に受信された発話音声が前記学習された非言語的表現に該当する場合には前記返答の送出を維持し、前記学習された非言語的表現に該当しない場合には前記返答の送出を中断する段階を含んでよい。 According to another aspect, the interrupting step is a step of classifying and learning non-verbal expressions, and the learned non-verbal speech received while the response is being sent. It may include a step of maintaining the sending of the reply when it corresponds to the target expression and interrupting the sending of the reply when it does not correspond to the learned nonverbal expression.
また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記発話音声の認識結果として返答に必要な情報が足りない場合、前記情報を誘導するための問い返しの質問を提供する段階をさらに含んでよい。 According to another aspect, the automatic response method of the artificial intelligence base is a question-and-answer method for guiding the information when the information required for the response is insufficient as the recognition result of the spoken voice by the at least one processor. It may further include the step of asking a question.
また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記発話音声の認識結果によって複数の意図が認識された場合、意図の認識順にしたがって各意図に対する返答を順に提供する段階をさらに含んでよい。 According to another aspect, when a plurality of intentions are recognized by the recognition result of the spoken voice by the at least one processor, the automatic response method of the artificial intelligence base responds to each intention according to the recognition order of the intentions. It may further include the steps of providing in sequence.
また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記ユーザの発話速度を認識する段階、および前記少なくとも1つのプロセッサにより、前記ユーザの発話速度によって前記返答の発話速度を決定する段階をさらに含んでよい。 According to another aspect, the automatic response method of the artificial intelligence base is a step of recognizing the utterance speed of the user by the at least one processor, and the response by the utterance speed of the user by the at least one processor. It may further include a step of determining the speaking speed of.
さらに他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記ユーザの発話言語を認識する段階、および前記少なくとも1つのプロセッサにより、自動応答サービスのための言語モデルを前記ユーザの発話言語に対応する言語モデルに切り換える段階をさらに含んでよい。 According to yet another aspect, the artificial intelligence-based automatic response method is a stage of recognizing the user's utterance language by the at least one processor, and a language model for the automatic response service by the at least one processor. May further include the step of switching to a language model corresponding to the user's utterance language.
前記人工知能基盤の自動応答方法をコンピュータに実行させるためのプログラムが記録されている、非一時なコンピュータ読み取り可能な記録媒体を提供する。 Provided is a non-temporary computer-readable recording medium in which a program for causing a computer to execute the automatic response method of the artificial intelligence base is recorded.
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、前記発話音声の中間結果を利用して意図を分析した後に返答を生成する過程、および前記発話音声に対して前記返答を送出する過程を処理する、コンピュータシステムを提供する。 A computer system comprising at least one processor configured to execute a computer-readable instruction contained in memory, said at least one processor producing the user's uttered voice by connecting the user to a call. Provided is a computer system that processes a process of receiving, a process of generating a response after analyzing an intention using an intermediate result of the spoken voice, and a process of sending the reply to the spoken voice.
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、前記発話音声に対して返答を送出する過程、および前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する過程を処理する、コンピュータシステムを提供する。 A computer system comprising at least one processor configured to execute a computer-readable instruction contained in memory, said at least one processor producing the user's spoken voice by connecting the user to a call. A computer system that processes a process of receiving, a process of sending a reply to the spoken voice, and a process of interrupting the sending of the reply if the user's spoken voice is received while the reply is being sent. I will provide a.
本発明の実施形態によると、ユーザ発話に対する中間結果から発話の意味を把握し、発話が終わる前に返答を予め準備しておくことにより、返答を迅速に提供することができる。 According to the embodiment of the present invention, the response can be provided promptly by grasping the meaning of the utterance from the intermediate result for the user utterance and preparing the response in advance before the end of the utterance.
本発明の実施形態によると、返答が送出される途中にユーザ発話による音声信号が受信される場合に返答の送出を中断することにより、実際に人間と通話するような形態を実現することができる。 According to the embodiment of the present invention, it is possible to realize a form in which a person actually talks to a person by interrupting the transmission of the response when a voice signal uttered by the user is received during the transmission of the response. ..
本発明の実施形態によると、ユーザ発話の速度に合わせて応答速度を異にして提供することにより、ユーザの発話速度に適合するインタラクションによって適したサービスを提供することができる。 According to the embodiment of the present invention, by providing different response speeds according to the user's utterance speed, it is possible to provide a service suitable for an interaction suitable for the user's utterance speed.
本発明の実施形態によると、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することにより、言語に制限されずにサービスへのアクセス性と利便性を高めることができる。 According to an embodiment of the present invention, real-time translation is used to translate into the language spoken by the user and provide a response, thereby improving accessibility and convenience of the service without being restricted by the language. it can.
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
本発明の実施形態は、人工知能(AI)を基盤とした自動応答システム(ARS)に関する。 Embodiments of the present invention relate to an automatic response system (ARS) based on artificial intelligence (AI).
本明細書で具体的に開示される事項を含む実施形態は、人工知能を基盤として実際に人間と会話するような形態で実現された自動応答システムを提供することができ、これによってユーザとのより自然な通話を実現しながら、問い合わせ、予約、配達注文などを迅速かつ便利に処理することができる。 The embodiments including the matters specifically disclosed in the present specification can provide an automatic response system realized in a form of actually talking with a human being based on artificial intelligence, whereby with a user. Inquiries, reservations, delivery orders, etc. can be processed quickly and conveniently while realizing a more natural call.
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。 FIG. 1 is a diagram showing an example of a network environment according to an embodiment of the present invention. The network environment of FIG. 1 shows an example including a plurality of electronic devices 110, 120, 130, 140, a plurality of servers 150, 160, and a network 170. Such FIG. 1 is merely an example for explaining the invention, and the number of electronic devices and the number of servers are not limited as in FIG.
複数の電子機器110、120、130、140は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、AIスピーカ、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどがある。一例として、図1では、電子機器110としてAIスピーカを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータシステムのうちの1つを意味してよい。 The plurality of electronic devices 110, 120, 130, 140 may be fixed terminals or mobile terminals realized by a computer system. Examples of a plurality of electronic devices 110, 120, 130, 140 include AI speakers, smartphones, mobile phones, navigation systems, PCs (personal computers), notebook PCs, digital broadcasting terminals, PDAs (Personal Digital Assistants), and PMPs (PMPs (Personal Digital Assistants). There are Portable Multimedia Players, tablets, game consoles, wearable devices, IoT (internet of things) devices, VR (virtual reality) devices, AR (augmented reality) devices, and the like. As an example, in FIG. 1, an AI speaker is shown as an electronic device 110, but in the embodiment of the present invention, the electronic device 110 substantially utilizes a wireless or wired communication method, and another device 110 is used via a network 170. It may mean one of a variety of physical computer systems capable of communicating with electronics 120, 130, 140 and / or servers 150, 160.
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。 The communication method is not limited, and not only the communication method using the communication network (for example, mobile communication network, wired Internet, wireless Internet, broadcasting network, satellite network, etc.) that can be included in the network 170, but also the device. Short-range wireless communication between them may be included. For example, the network 170 includes a PAN (personal area network), a LAN (local area network), a CAN (campus area network), a MAN (metoropolitan area network), a WAN (wide network), etc. It may include any one or more of the networks. Further, network 170 may include, but is limited to, any one or more of network topologies including bus networks, star networks, ring networks, mesh networks, star-bus networks, tree or hierarchical networks, and the like. Will not be done.
サーバ150、160は、それぞれ、複数の電子機器110、120、130、140とネットワーク170を介して通信して、命令、コード、ファイル、コンテンツ、サービスなどを提供する、1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第1サービスを提供するシステムであってよく、サーバ160も、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第2サービスを提供するシステムであってよい。より具体的な例として、サーバ150は、複数の電子機器110、120、130、140においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス(一例として、自動応答サービスなど)を第1サービスとして複数の電子機器110、120、130、140に提供してよい。他の例として、サーバ160は、上述したアプリケーションのインストールおよび実行のためのファイルを複数の電子機器110、120、130、140に配布するサービスを第2サービスとして提供してよい。 The servers 150, 160 are communicated with a plurality of electronic devices 110, 120, 130, 140 via a network 170, respectively, by one or more computer devices that provide instructions, codes, files, contents, services, and the like. It may be realized. For example, the server 150 may be a system that provides the first service to a plurality of electronic devices 110, 120, 130, 140 connected via the network 170, and the server 160 may also be a plurality of systems connected via the network 170. It may be a system that provides a second service to electronic devices 110, 120, 130, 140. As a more specific example, the server 150 passes through an application which is a computer program installed and executed in a plurality of electronic devices 110, 120, 130, 140, and a service (automatic response as an example) intended by the application. (Service, etc.) may be provided to a plurality of electronic devices 110, 120, 130, 140 as a first service. As another example, the server 160 may provide a service as a second service that distributes files for installing and executing the above-mentioned application to a plurality of electronic devices 110, 120, 130, 140.
図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、電子機器に対する例として電子機器110の内部構成およびサーバ150の内部構成について説明する。また、他の電子機器120、130、140やサーバ160も、上述した電子機器110またはサーバ150と同一または類似の内部構成を有してよい。 FIG. 2 is a block diagram for explaining the internal configurations of the electronic device and the server according to the embodiment of the present invention. FIG. 2 describes the internal configuration of the electronic device 110 and the internal configuration of the server 150 as examples for the electronic device. Further, the other electronic devices 120, 130, 140 and the server 160 may have the same or similar internal configuration as the electronic device 110 or the server 150 described above.
電子機器110およびサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、非一時的なコンピュータ読み取り可能な記録媒体であってよく、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような非一時的な大容量記録装置を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブのような非一時的な大容量記録装置は、メモリ211、221とは区分される別の非一時的な記録装置として電子機器110やサーバ150に含まれてもよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器110においてインストールされて実行されるブラウザや、特定のサービスの提供のために電子機器110にインストールされたアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。 The electronics 110 and server 150 may include memory 211,221, processors 212,222, communication modules 213 and 223, and input / output interfaces 214 and 224. The memories 211 and 221 may be non-temporary computer-readable recording media, and may be a RAM (random access memory), a ROM (read only memory), a disk drive, an SSD (solid state drive), or a flash memory (flash memory). ) Etc. may be included in a non-temporary mass recording device. Here, a non-temporary large-capacity recording device such as a ROM, SSD, flash memory, or disk drive is used in the electronic device 110 or the server 150 as another non-temporary recording device that is separated from the memories 211 and 221. May be included. Further, the memory 211 and 221 are installed in the operating system and at least one program code (for example, a browser installed and executed in the electronic device 110, or installed in the electronic device 110 to provide a specific service. Code for applications etc.) may be recorded. Such software components may be loaded from a computer-readable recording medium separate from the memories 211 and 221. Such other computer-readable recording media may include computer-readable recording media such as floppy® drives, disks, tapes, DVD / CD-ROM drives, memory cards, and the like. In other embodiments, software components may be loaded into memory 211 and 221 through communication modules 213 and 223 that are not computer readable recording media. For example, at least one program is a computer program installed by a file provided via network 170 by a file distribution system (eg, server 160 described above) that distributes developer or application installation files (eg, described above). It may be loaded into the memory 211 or 221 based on the application.
プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。 Processors 212 and 222 may be configured to process instructions in a computer program by performing basic arithmetic, logic, and input / output operations. Instructions may be provided to processors 212 and 222 by memory 211, 221 or communication modules 213 and 223. For example, processors 212 and 222 may be configured to execute instructions received according to program code recorded in a recording device such as memory 211 and 221.
通信モジュール213、223は、ネットワーク170を介して電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、電子機器110および/またはサーバ150が他の電子機器(一例として、電子機器120)または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、電子機器110のプロセッサ212がメモリ211のような記録装置に記録されたプログラムコードにしたがって生成した要求が、通信モジュール213の制御にしたがってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て電子機器110の通信モジュール213を通じて電子機器110に受信されてよい。例えば、通信モジュール213を通じて受信されたサーバ150の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、電子機器110がさらに含むことのできる記録媒体(上述した非一時的な記録装置)に記録されてよい。 The communication modules 213 and 223 may provide a function for the electronic device 110 and the server 150 to communicate with each other via the network 170, and the electronic device 110 and / or the server 150 may provide another electronic device (as an example). , Electronic device 120) or another server (as an example, server 160) may provide a function for communicating. As an example, a request generated by the processor 212 of the electronic device 110 according to a program code recorded in a recording device such as a memory 211 may be transmitted to the server 150 via the network 170 under the control of the communication module 213. On the contrary, control signals, instructions, contents, files, etc. provided under the control of the processor 222 of the server 150 are received by the electronic device 110 through the communication module 213 of the electronic device 110 via the communication module 223 and the network 170. May be done. For example, control signals, instructions, contents, files, etc. of the server 150 received through the communication module 213 may be transmitted to the processor 212 and the memory 211, and the contents, files, etc. may be further included in the electronic device 110. It may be recorded on a medium (the non-temporary recording device described above).
入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、スピーカ、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、電子機器110と1つの装置で構成されてもよい。また、サーバ150の入力/出力インタフェース224は、サーバ150に接続するかサーバ150が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。より具体的な例として、電子機器110のプロセッサ212がメモリ211にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150や電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されてよい。 The input / output interface 214 may be a means for an interface with the input / output device 215. For example, an input device may include a device such as a keyboard, mouse, microphone, camera, and an output device may include a device such as a display, speaker, haptic feedback device, and the like. As another example, the input / output interface 214 may be a means for an interface with a device such as a touch screen in which functions for input and output are integrated into one. The input / output device 215 may be composed of an electronic device 110 and one device. Also, the input / output interface 224 of the server 150 may be a means for connecting to the server 150 or for interfacing with a device (not shown) for input or output that the server 150 can include. As a more specific example, when the processor 212 of the electronic device 110 processes an instruction of a computer program loaded in the memory 211, a service screen or content configured by using data provided by the server 150 or the electronic device 120. May be displayed on the display through the input / output interface 214.
また、他の実施形態において、電子機器110およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器110がAIスピーカである場合、一般的にAIスピーカが含んでいる各種センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器110にさらに含まれるように実現されてよい。 Also, in other embodiments, the electronic device 110 and the server 150 may include more components than the components of FIG. However, most prior art components need not be clearly illustrated. For example, the electronic device 110 may be implemented to include at least a portion of the input / output devices 215 described above, and may further include other components such as transceivers, cameras, various sensors, databases, and the like. It may be. As a more specific example, when the electronic device 110 is an AI speaker, various sensors generally included in the AI speaker, a camera module, various physical buttons, buttons using a touch panel, input / output ports, and vibrations. Various components, such as a speaker for, may be realized to be further included in the electronic device 110.
自動応答システムは、ユーザとの会話に基づいてレストラン、宿泊施設、航空券、映画、公演、病院(診療)、旅行などに関する各種情報を伝達する自動応答サービスプラットフォームを提供するものである。 The automatic response system provides an automatic response service platform that transmits various information related to restaurants, accommodation facilities, airline tickets, movies, performances, hospitals (medical treatment), travel, etc. based on conversations with users.
以下では、一例として、レストランの店員に代わってユーザと自然に通話をしながら、レストランへの問い合わせ、予約、配達注文などを処理することについて説明するが、これは一例に過ぎず、これに限定されてはならず、自動応答システムの使用が可能な企業や分野のすべてに適用可能である。 In the following, as an example, processing inquiries, reservations, delivery orders, etc. to the restaurant while naturally talking to the user on behalf of the restaurant clerk will be described, but this is only an example and is limited to this. It should not be, and it is applicable to all companies and fields where the automatic response system can be used.
図3は、本発明の一実施形態における、AI自動応答システムを説明するための例示図である。 FIG. 3 is an exemplary diagram for explaining the AI automatic response system according to the embodiment of the present invention.
例えば、本発明の実施形態に係るAI自動応答システム300は、図1と図2を参照しながら説明したサーバ150上に実現されてよい。 For example, the AI automatic response system 300 according to the embodiment of the present invention may be realized on the server 150 described with reference to FIGS. 1 and 2.
図3を参照すると、AI自動応答システム300は、複数の企業31〜33に対する問い合わせ、予約、配達注文などを処理するための自動応答サービスを提供するものであってよい。 Referring to FIG. 3, the AI automatic response system 300 may provide an automatic response service for processing inquiries, reservations, delivery orders, and the like to a plurality of companies 31 to 33.
AI自動応答システム300は、電話機能(call)やチャットボット(chatbot)による通話によってユーザ301との人工知能会話を提供してよく、ユーザ301との会話に基づき、ユーザ301が望む情報を提供したり、ユーザ301の要求を企業31〜33に伝達したりしてよい。 The AI automatic answering system 300 may provide an artificial intelligence conversation with the user 301 by a telephone function (call) or a chatbot (chatbot) call, and provides the information desired by the user 301 based on the conversation with the user 301. Alternatively, the request of the user 301 may be transmitted to the companies 31 to 33.
AI自動応答システム300は、企業31〜33と関連する自動応答サービスを提供するために、各企業31〜33別の企業情報が含まれたデータベースシステム(図示せず)と1つのシステムで実現されてもよいし、あるいは連動可能な別のシステムで実現されてもよい。AI自動応答システム300は、企業情報に基づき、ユーザ301が望む情報を提供したり、ユーザ301の要求を処理したりしてよい。 The AI automatic response system 300 is realized by a database system (not shown) containing company information for each company 31 to 33 and one system in order to provide an automatic response service related to the companies 31 to 33. It may be realized by another system that can be linked. The AI automatic response system 300 may provide the information desired by the user 301 or process the request of the user 301 based on the company information.
例えば、AI自動応答システム300は、ユーザ301との会話に基づいて動作するインタフェースが含まれた電子機器110から、ユーザ301の発話による音声入力「企業Aに注文可能ですか?」を受信したとする。これにより、AI自動応答システム300は、電子機器110から受信されたユーザ301の音声入力「企業Aに注文可能ですか?」を認識および分析した後、企業情報に基づいて返答「現在、注文可能です。メニューをお伝えください。」を生成し、生成された返答を音声信号によって電子機器110に送出してよい。AI自動応答システム300は、ユーザ301との会話に基づき、ユーザ301の要求、例えば、選択されたメニューや数量などをまとめた後、まとめた情報を該当の企業(31〜33のうちの1つ)に伝達してよい。 For example, the AI automatic response system 300 receives a voice input "Can I order from company A?" By the user 301 from the electronic device 110 including an interface that operates based on the conversation with the user 301. To do. As a result, the AI automatic response system 300 recognizes and analyzes the voice input "Is it possible to order from company A?" Of the user 301 received from the electronic device 110, and then responds based on the company information "Currently, it is possible to order." Please tell me the menu. ”And the generated response may be sent to the electronic device 110 by voice signal. The AI automatic response system 300 summarizes the requests of the user 301, for example, the selected menu and the quantity, based on the conversation with the user 301, and then puts the summarized information into the corresponding company (one of 31 to 33). ) May be transmitted.
以下では、人工知能基盤の自動応答方法およびシステムの具体的な実施形態について説明する。 In the following, the automatic response method of the artificial intelligence base and the specific embodiment of the system will be described.
図4は、本発明の一実施形態における、AI自動応答システムが含むことのできる構成要素の例を示した図である。 FIG. 4 is a diagram showing an example of components that can be included in the AI automatic response system according to the embodiment of the present invention.
本実施形態に係るサーバ150は、企業と関連する自動応答サービスを提供するプラットフォームの役割を担う。特に、サーバ150は、人工知能を基盤として実際に人間と会話するような形態で実現されたAI自動応答システム300を含んでよい。 The server 150 according to the present embodiment plays the role of a platform for providing an automatic response service related to a company. In particular, the server 150 may include an AI automatic response system 300 realized in a form of actually talking with a human being based on artificial intelligence.
AI自動応答システム300は、図4に示すように、ゲートウェイ401、音声認識機410、ダイアログマネージャ420、返答生成器430、音声合成器440、感知部450、および翻訳機460を含んでよい。 As shown in FIG. 4, the AI automatic response system 300 may include a gateway 401, a voice recognizer 410, a dialog manager 420, a response generator 430, a speech synthesizer 440, a sensing unit 450, and a translator 460.
ゲートウェイ401は、電子機器110にインストールされたアプリケーションの電話機能やチャットボットによって電子機器110のユーザの音声入力を受信する役割をする受信端(RX)と、ARS応答によって電子機器110に返答音声を送出する役割をする送信端(TX)とを含んでよい。また、ゲートウェイ401には、返答音声の送出を制御するためのソケットコントローラ(socket controller)が含まれてよい。 The gateway 401 has a receiving end (RX) that plays a role of receiving a voice input of a user of the electronic device 110 by a telephone function of an application installed in the electronic device 110 or a chatbot, and a response voice to the electronic device 110 by an ARS response. It may include a transmitting end (TX) that serves to transmit. Further, the gateway 401 may include a socket controller (socket controller) for controlling the transmission of the response voice.
音声認識機410、ダイアログマネージャ420、返答生成器430、音声合成器440、感知部450、および翻訳機460は、サーバ150のプロセッサ222の構成要素として含まれてよい。実施形態によって、プロセッサ222の構成要素は、選択的にプロセッサ222に含まれても除外されてもよい。また、実施形態によって、プロセッサ222の構成要素は、プロセッサ222の機能の表現のために分離されても併合されてもよい。 The speech recognizer 410, the dialog manager 420, the response generator 430, the speech synthesizer 440, the sensing unit 450, and the translator 460 may be included as components of the processor 222 of the server 150. Depending on the embodiment, the components of processor 222 may be selectively included or excluded from processor 222. Also, depending on the embodiment, the components of processor 222 may be separated or merged to represent the functionality of processor 222.
このようなプロセッサ222およびプロセッサ222の構成要素は、以下で説明されるAI自動応答方法の実行のために、制御命令による演算を直接処理してもよいし、またはサーバ150を制御してもよい。例えば、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。 Such processors 222 and components of processor 222 may directly process operations by control instructions or control server 150 for execution of the AI autoresponder method described below. .. For example, the processor 222 and the components of the processor 222 may be implemented to execute an instruction by the code of the operating system included in the memory 221 and the code of at least one program.
ここで、プロセッサ222の構成要素は、サーバ150に記録されたプログラムコードが提供する命令にしたがってプロセッサ222によって実行される、プロセッサ222の互いに異なる機能(different functions)の表現であってよい。例えば、サーバ150が電子機器110から受信された音声入力を認識するように上述した命令にしたがってサーバ150を制御するプロセッサ222の機能的表現として、音声認識機410が利用されてよい。 Here, the components of the processor 222 may be representations of different functions of the processor 222 that are executed by the processor 222 according to the instructions provided by the program code recorded in the server 150. For example, the voice recognizer 410 may be used as a functional representation of the processor 222 that controls the server 150 according to the instructions described above so that the server 150 recognizes the voice input received from the electronic device 110.
プロセッサ222は、サーバ150の制御と関連する命令がロードされたメモリ221から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明するAI自動応答方法をプロセッサ222が実行するように制御するための命令を含んでよい。 The processor 222 may read the necessary instructions from the memory 221 in which the instructions related to the control of the server 150 are loaded. In this case, the read instruction may include an instruction for controlling the processor 222 to execute the AI automatic response method described below.
以下のAI自動応答方法は、図に示した順に発生しなくてもよく、段階の一部が省略されたり追加の過程がさらに含まれたりしてもよい。 The following AI auto-responder methods may not occur in the order shown in the figure, and some of the steps may be omitted or additional steps may be included.
図5は、本発明の一実施形態における、AI自動応答方法の一例を示したフローチャートである。 FIG. 5 is a flowchart showing an example of the AI automatic response method according to the embodiment of the present invention.
段階510で、プロセッサ222は、語尾を除いた文章と該当の文章に対する返答を含んだ学習データセットを利用して会話学習を実行してよい。AI自動応答システム300とユーザとの会話のためには、語尾を除いた文章を学習データ水準にラベリングした後、ラベリングされた学習データをディープラーニングや機械学習によって学習して会話学習モデルを構築してよい。このとき、学習文章それぞれに対し、確率の高い返答も学習データセットとしてともに構成して会話学習に利用してよい。 At step 510, processor 222 may perform conversational learning using a learning data set that includes a sentence without endings and a response to the sentence. For conversation between the AI automatic response system 300 and the user, after labeling the sentences excluding the ending to the learning data level, the labeled learning data is learned by deep learning or machine learning to build a conversation learning model. You can. At this time, a response with a high probability may be configured together as a learning data set for each learning sentence and used for conversation learning.
図6は、本発明の一実施形態における、学習文章の例を説明するための図である。 FIG. 6 is a diagram for explaining an example of a learning sentence in one embodiment of the present invention.
例えば、図6を参照すれば、自動応答サービスで登場する会話ログからサンプル文章601を抽出してよく、抽出されたサンプル文章から語尾を除いた文章を学習文章602として活用してよい。例えば、サンプル文章「今週の土曜日、レストランの予約は可能ですか?」から語尾「ですか?」を除いた残りの文章「今週の土曜日、レストランの予約は可能?」を学習文章として利用してよい。語尾を除いた残りの文章を学習させることにより、会話の途中である言葉が終わる前に、どのような返答をすべきかを示す正解セットが予め分かるように学習することができる。文章を終わらせる語末語尾を意味する終結語尾だけでなく、接続節に入っている接続語尾、埋め込み節に入っている転成語尾などの非終結語尾、あるいは核心キーワード以外の残りの構成要素を除いた文章を学習文章として活用することも可能である。 For example, referring to FIG. 6, the sample sentence 601 may be extracted from the conversation log appearing in the automatic response service, and the sentence obtained by removing the ending from the extracted sample sentence may be used as the learning sentence 602. For example, using the remaining sentence "Is it possible to reserve a restaurant this Saturday?" Excluding the ending "?" From the sample sentence "Is it possible to reserve a restaurant this Saturday?" As a learning sentence. Good. By learning the rest of the sentences excluding the endings, it is possible to learn in advance a set of correct answers that indicate what kind of response should be made before the end of a word in the middle of a conversation. Excludes not only the closing ending, which means the ending ending of a sentence, but also the connecting ending contained in the connecting clause, the non-ending ending such as the transposed ending contained in the embedded clause, or the remaining components other than the core keywords. It is also possible to utilize sentences as learning sentences.
言い換えれば、AI自動応答システム300は、語尾を除いた文章を学習させて事前に構築された会話学習モデルを含むものである。 In other words, the AI automatic response system 300 includes a conversation learning model constructed in advance by learning sentences excluding endings.
再び図5において、段階520で、音声認識機410は、電子機器110のユーザと通話が繋がれば、ゲートウェイ401を介して電子機器110からユーザの発話音声をリアルタイムストリームで受信してよく、このとき、音声認識機410は、受信された発話音声をSTT(speech to text)によってテキストにリアルタイムで変換してダイアログマネージャ420に伝達してよい。 Again, in step 520, in FIG. 5, the voice recognizer 410 may receive the user's uttered voice in a real-time stream from the electronic device 110 via the gateway 401 if a call is connected to the user of the electronic device 110. At this time, the voice recognition device 410 may convert the received utterance voice into text by STT (speech to text) in real time and transmit it to the dialog manager 420.
段階530で、ダイアログマネージャ420は、音声認識機410から伝達されたテキストに対し、自然語理解(NLU)技術と会話学習に基づいてユーザ意図(intent)を分析してよい。特に、ダイアログマネージャ420は、テキストの音節単位でユーザの意図を把握してよい。つまり、ダイアログマネージャ420は、ユーザの言葉が終わってから最終結果(final results)として取得する文章単位ではなく、リアルタイムテキスト変換によって中間結果として取得する音節単位に区切ってユーザ意図を把握してよい。ダイアログマネージャ420は、言葉が終わる前の中間結果の段階で、ユーザ発話の意味を予め把握してよい。 At step 530, the dialog manager 420 may analyze the user's intention on the text transmitted from the speech recognizer 410 based on natural language understanding (NLU) technology and conversation learning. In particular, the dialog manager 420 may grasp the user's intention in units of syllables of text. That is, the dialog manager 420 may grasp the user's intention by dividing it into syllable units acquired as intermediate results by real-time text conversion, instead of sentence units acquired as final results after the user's words are finished. The dialog manager 420 may grasp the meaning of the user's utterance in advance at the stage of the intermediate result before the end of the word.
段階540で、返答生成器430は、意図分析結果に基づいて返答を予め生成してよい。特に、返答生成器430は、中間結果を利用した意図分析結果に対するコンフィデンス(confidence)に基づいて返答生成時点を決定してよい。一例として、返答生成器430は、言葉が終わる前の中間結果の段階で、意図分析結果のコンフィデンスが事前に定められた閾値以上となるときに、該当の時点にユーザ意図に対応する返答を予め生成してよい。返答生成時点を決定するためのコンフィデンスは、語尾を除いた文章を利用した会話学習によって決定されてよく、例えば、中間結果に対するコンフィデンスが最終結果と比べて誤差範囲内にある数値を見つけ出す過程を繰り返した後、繰り返しの過程によって得られた値の統計値に基づいて返答生成時点を決定するためのコンフィデンス閾値を決定してよい。 At step 540, the response generator 430 may pre-generate a response based on the intent analysis result. In particular, the response generator 430 may determine the response generation time point based on the confidence of the intention analysis result using the intermediate result. As an example, the response generator 430 preliminarily sends a response corresponding to the user's intention at the corresponding time point when the confidence of the intention analysis result becomes equal to or higher than a predetermined threshold value at the stage of the intermediate result before the end of the word. May be generated. The confidence for determining the response generation time may be determined by conversation learning using sentences excluding the ending. For example, the process of finding a numerical value whose confidence for the intermediate result is within the error range compared to the final result is repeated. After that, the confidence threshold for determining the response generation time may be determined based on the statistical value of the value obtained by the iterative process.
図7および図8は、本発明の一実施形態における、ユーザの発話音声に対する中間結果を利用してユーザの意図を分析する過程を説明するための例示図である。 7 and 8 are illustrations for explaining a process of analyzing a user's intention by using an intermediate result for a user's spoken voice in one embodiment of the present invention.
図7を参照すると、ユーザの発話音声「両親を連れて行く予定なのですが、年配の方におすすめのメニューはありますか?」に対して言葉が終わる前の中間結果に基づいてユーザ意図を分析する場合、「両親」、「年配」、「メニュー」まで把握したときに返答を生成することのできる閾値のコンフィデンスが出現してよい。ユーザの言葉が終わる前、つまり、ユーザが語尾「ありますか?」を発する時間に、予め返答を生成しておくことが可能となる。 Referring to FIG. 7, the user's intention is analyzed based on the intermediate result before the end of the word for the user's utterance voice "I am planning to take my parents. Is there a recommended menu for elderly people?" In that case, a threshold confidence that can generate a response when the "parents", "elderly", and "menu" are grasped may appear. It is possible to generate a response in advance before the end of the user's words, that is, at the time when the user issues the ending "is there?".
他の例として、図8を参照すると、予約のための自動応答サービスの場合、ユーザの発話音声「今週の土曜日、3人で予約お願いします。」に対し、中間結果に基づいてユーザ意図を分析するようになるが、このとき、意図分析結果により、予約と関連して事前に定められた必要な情報(情報スロット)がすべて満たされれば、返答を生成することのできるコンフィデンスに達したと判断し、ユーザの言葉が終わる前、つまり、ユーザが語尾「お願いします。」を発する時間に、予め返答を生成しておくことが可能となる。 As another example, referring to FIG. 8, in the case of the automatic response service for reservation, the user's intention is set based on the intermediate result for the user's utterance voice "Please make a reservation with three people this Saturday." It will be analyzed, but at this time, if the intention analysis result meets all the necessary information (information slot) predetermined in relation to the reservation, it has reached the confidence that a reply can be generated. It is possible to generate a reply in advance before the user's words are finished, that is, before the user issues the ending "please."
再び図5において、段階550で、音声合成器440は、段階540で生成された返答を音声信号として合成した後、ユーザの言葉が終われば、ゲートウェイ401を介して電子機器110に送出してよい。一例として、音声合成器440は、ユーザの発話音声からエンドポイント(end point)が感知される場合にユーザの言葉が終わったと判断してよく、このとき、発話音声が感知されない状態が事前に定められた一定時間以上に維持される場合、エンドポイントとして認識してよい。音声合成器440は、ユーザの言葉が終わる前に中間結果によって生成された返答を予め音声信号として合成しておき、ユーザの言葉が終われば、返答音声を電子機器110に送出してよい。 Again in FIG. 5, at step 550, the voice synthesizer 440 may synthesize the response generated in step 540 as a voice signal and then send it to the electronic device 110 via the gateway 401 when the user's words are finished. .. As an example, the voice synthesizer 440 may determine that the user's words have ended when the endpoint (end point) is detected from the user's spoken voice, and at this time, the state in which the spoken voice is not detected is predetermined. If it is maintained for more than a certain period of time, it may be recognized as an endpoint. The voice synthesizer 440 may synthesize the response generated by the intermediate result as a voice signal in advance before the user's words are finished, and send the reply voice to the electronic device 110 when the user's words are finished.
したがって、AI自動応答システム300は、ユーザの言葉が終わる前に中間結果からユーザ意図を把握し、ユーザが語尾を発する時間に返答を予め生成および合成した後、ユーザの言葉が終われば、予め準備しておいた返答を提供することにより、応答をより迅速に提供することができる。 Therefore, the AI automatic response system 300 grasps the user's intention from the intermediate result before the end of the user's words, generates and synthesizes the response in advance at the time when the user utters the end, and then prepares in advance when the user's words are finished. By providing the prepared response, the response can be provided more quickly.
図9は、本発明の一実施形態における、AI自動応答方法の他の例を示したフローチャートである。以下のAI自動応答方法は、上述した段階550に含まれてよい。 FIG. 9 is a flowchart showing another example of the AI automatic response method according to the embodiment of the present invention. The following AI automatic response method may be included in step 550 described above.
段階901で、ダイアログマネージャ420は、音声合成器440から電子機器110に返答音声が送出されている間に、ユーザの発話音声が受信されるかを持続的にチェックしてよい。 At step 901, the dialog manager 420 may continually check whether the user's spoken voice is received while the response voice is being sent from the speech synthesizer 440 to the electronic device 110.
段階902で、音声合成器440は、返答音声が送出されている途中にユーザの発話音声が受信されれば、返答音声の送出を中断してよい。 In step 902, the voice synthesizer 440 may interrupt the transmission of the response voice if the user's spoken voice is received while the response voice is being transmitted.
AI自動応答システム300は、基本的に、ゲートウェイ401として受信端(RX)と送信端(TX)とが共存する構造を含んでよく、このとき、ゲートウェイ401には、ユーザの発話音声の受信と返答音声の送出を制御するためのソケットコントローラが含まれてよい。AI自動応答システム300は、送信端(TX)から返答音声を送出している途中に受信端(RX)にユーザの発話音声による音声信号が入力されれば、送信端(TX)から送出する音声信号を中断してよい。 The AI automatic response system 300 may basically include a structure in which the receiving end (RX) and the transmitting end (TX) coexist as the gateway 401, and at this time, the gateway 401 receives the voice spoken by the user. A socket controller may be included to control the transmission of the response voice. The AI automatic response system 300 transmits a voice signal from the transmitting end (TX) if a voice signal based on the user's spoken voice is input to the receiving end (RX) while the response voice is being transmitted from the transmitting end (TX). The signal may be interrupted.
一例として、音声合成器440は、ユーザの発話音声が入力されれば、送出中であった返答音声を直ぐに中断してよい。他の例として、音声合成器440は、ユーザの発話音声が入力されれば、送出中であった返答音声に対して定められた長さのフェードアウト(fade−out)を適用した後、返答音声を中断してよい。 As an example, the voice synthesizer 440 may immediately interrupt the response voice that was being transmitted when the user's spoken voice is input. As another example, the speech synthesizer 440, when the user's spoken voice is input, applies a predetermined length of fade-out to the reply voice being transmitted, and then the reply voice. May be interrupted.
返答音声の送出途中に受信されるすべての発話音声に対して返答音声を中断するのではなく、非言語的(non−verbal)フィルタを利用して選択的に返答音声を中断してよい。 Instead of interrupting the response voice for all spoken voices received during the transmission of the response voice, the reply voice may be selectively interrupted by using a non-verbal filter.
図10は、本発明の一実施形態における、返答の送出を中断する過程の他の例を説明するための図である。 FIG. 10 is a diagram for explaining another example of the process of interrupting the transmission of the response in one embodiment of the present invention.
図10を参照すると、段階1001で、感知部450は、無視しなければならない音声として非言語的表現をフィルタリングするために、返答音声の送出途中に受信された発話音声が非言語的形態の表現であるかを判断してよい。感知部450は、返答送出途中に返答送出を中断しなくてもよいコンティニュ語(continuer)として非言語的表現を判断してよく、さらに、非言語的表現をユーザの意図を把握しなくてもよいものとして判断してよい。 Referring to FIG. 10, in step 1001, the sensing unit 450 expresses the non-verbal form of the spoken voice received during the transmission of the response voice in order to filter the non-verbal expression as the voice that must be ignored. You may judge whether it is. The sensing unit 450 may determine the non-verbal expression as a continuer that does not have to interrupt the response transmission during the response transmission, and further, the non-verbal expression does not grasp the user's intention. You may judge that it is also good.
図11は、本発明の一実施形態における、返答送出を中断しない例外状況を説明するための図である。 FIG. 11 is a diagram for explaining an exceptional situation in which response transmission is not interrupted in one embodiment of the present invention.
例えば、図11を参照すれば、[はい、ええ、はいはい、・・・]のような同意や首肯の表現、あるいは[うん、ああ、あ、・・・]のような各種感嘆詞などを非言語的表現として分類し、このような非言語的表現を学習してよい。この他にも、非言語的表現の一例として感情表現が含まれた音声を学習してよく、このとき、声の波形や言葉の終端の特徴を分析して疑問符と終止符を区分することによって感情の高まりまで把握してよい。感知部450は、非言語的表現の学習結果に基づき、返答音声の送出途中に受信された発話音声が非言語的表現に該当するかを判断してよい。 For example, referring to FIG. 11, non-verbal expressions such as [yes, yeah, yes, yes, ...] or various exclamations such as [yes, ah, ah, ...] You may classify as linguistic expressions and learn such non-verbal expressions. In addition to this, you may learn a voice that includes emotional expressions as an example of nonverbal expressions, and at this time, emotions are separated by analyzing the waveform of the voice and the characteristics of the end of the word and separating the question mark and the end. You may grasp the rise of. The sensing unit 450 may determine whether the spoken voice received during the transmission of the response voice corresponds to the non-verbal expression based on the learning result of the non-verbal expression.
再び図10において、段階1002で、音声合成器440は、受信された発話音声が非言語的表現に該当する場合には、無視しなければならない音声であると判断して返答音声の送出をそのまま維持し、非言語的表現に該当しない発話音声が受信される場合には、無視してはならない意味のある音声と判断して返答音声の送出を中断してよい。 Again, in FIG. 10, at step 1002, the speech synthesizer 440 determines that the received spoken voice is a voice that should be ignored when it corresponds to a non-verbal expression, and sends the reply voice as it is. If the spoken voice that does not correspond to the non-verbal expression is received, it may be judged that the voice is meaningful and should not be ignored, and the transmission of the reply voice may be interrupted.
したがって、AI自動応答システム300は、返答が送出されている途中にユーザ発話による音声信号が受信される場合、返答の送出を中断することにより、実際に人間と通話するような形態を実現することができる。 Therefore, the AI automatic response system 300 realizes a form in which a person actually talks to a person by interrupting the transmission of the response when the voice signal uttered by the user is received while the response is being transmitted. Can be done.
ダイアログマネージャ420は、自動応答サービスで人間と行うような自然な会話をサポートするために、失敗区間に対する適切な対応を提供してよい。一例として、ダイアログマネージャ420は、音声認識のための結果情報量が足りない場合、例えば、認識された意図(インテント)が足りないか、サービスと関連するスロットの情報が足りない場合、該当の情報に関する発話を誘導するための問い返しの質問を提供してよい。 The dialog manager 420 may provide an appropriate response to the failure interval to support natural conversations such as those with humans in the auto attendant service. As an example, the dialog manager 420 is applicable when the amount of result information for voice recognition is insufficient, for example, when the recognized intention (intent) is insufficient or the information of the slot related to the service is insufficient. You may provide a question-and-answer question to guide the speech about the information.
他の例として、ダイアログマネージャ420は、音声認識のための結果情報量が多すぎる場合、例えば、2つ以上の意図が一度に認識される場合、意図を明確にするために、返答に先立ち、ユーザに該当の意図を確認するための質問を提供してよい。例えば、ユーザ発話「年配の方におすすめのメニューがあれば、今週の土曜日にレストランを予約したいです」から「おすすめメニュー」の意図と「予約」の意図とが同時に把握された場合、「先ずはおすすめメニューをご案内してから、ご予約を承ってもよいですか?」のように、ユーザコンファームのための質問を提供してよい。 As another example, if the amount of result information for speech recognition is too large, for example, if two or more intents are recognized at once, the dialog manager 420 prior to replying to clarify the intents. You may ask the user a question to confirm the intent. For example, if the intention of the "recommended menu" and the intention of the "reservation" are grasped at the same time from the user utterance "If there is a recommended menu for the elderly, I would like to reserve a restaurant this Saturday", "First May I ask you a question for user confirmation, such as "Can I make a reservation after guiding you to the recommended menu?"
また、質問が異なる意図を含む場合、例えば「子供用の椅子はありますか?」のようなユーザ発話から、椅子があるかに対して答えるだけでなく、子供連れの予約であるかについて追加で質問してよい。 Also, if the question contains different intents, for example, from a user utterance such as "Do you have a chair for children?", Not only will you answer whether you have a chair, but you will also be asked if you are booking with children. You may ask a question.
また他の例として、ダイアログマネージャ420は、音声認識のための結果情報量が多すぎる場合、例えば、2つ以上の意図が一度に認識される場合、返答を意図別に順に提供してよい。例えば、それぞれの意図に、意図認識順にしたがってナンバリング(1つ目、2つ目など)を適用して順に返答を提供してよい。ユーザ発話「年配の方におすすめのメニューがあれば、今週の土曜日にレストランを予約したいです」に対し、「1つ目、ご年配のお客さまのおすすめメニューとして韓定食コースをご用意しております。2つ目、今週の土曜日の何時にご予約をご希望ですか?」のように、返答を意図別に順に提供してよい。 As another example, the dialog manager 420 may provide replies in order according to intention when the amount of result information for voice recognition is too large, for example, when two or more intentions are recognized at one time. For example, each intent may be given a response in order by applying numbering (first, second, etc.) according to the order of intent recognition. In response to the user's utterance "If there is a recommended menu for elderly people, I would like to reserve a restaurant this Saturday", "First, we have a Korean set meal course as a recommended menu for elderly customers. Second, what time do you want to make a reservation this Saturday? ”, You may provide the responses in order according to your intention.
ユーザ発話「予約したいのですが、駐車場はありますか?」のようなユーザ発話の場合、駐車場があれば予約をするという意味として捉えることもできるし、駐車場がなければ車は利用しないが、予約はしたいという意味として捉えることもできる。本発明では、このような多様なユーザの意図を考慮しながら返答を提供することができる。 User utterance In the case of a user utterance such as "I want to make a reservation, do you have a parking lot?", It can be understood as meaning that if there is a parking lot, it means making a reservation, and if there is no parking lot, the car will not be used. However, it can also be understood as meaning that you want to make a reservation. In the present invention, it is possible to provide a response while considering such various user intentions.
また他の例として、ダイアログマネージャ420は、単位時間内、あるいは連続的に定められた回数以上にまったく同じであるか類似する返答が繰り返される場合、失敗区間に対する対応として情報量によって処理してよい。さらに他の例として、ダイアログマネージャ420は、以前の会話文脈を反映したマルチターン会話手法に基づいて返答を提供してよい。この他にも、システム発話の定義問題、自然語理解(NLU)エラーなどに対して適切な対応を提供することにより、いかなる状況でも実際に人間と通話するような自然な会話形態を実現することができる。 As another example, the dialog manager 420 may process by the amount of information as a response to a failure interval when exactly the same or similar responses are repeated within a unit time or continuously more than a predetermined number of times. .. As yet another example, Dialog Manager 420 may provide a response based on a multi-turn conversation technique that reflects the previous conversation context. In addition to this, by providing appropriate responses to system utterance definition problems, natural language understanding (NLU) errors, etc., it is possible to realize a natural conversation form that actually talks to humans in any situation. Can be done.
また、ダイアログマネージャ420は、音声認識機410によってユーザの発話速度を認識してよく、ユーザの発話速度に合わせて応答速度を異にして適用してよい。一例として、ダイアログマネージャ420は、ユーザの発話速度に比例して返答音声の発話速度を決定してよく、例えば、速く質問するユーザであれば質問速度に合わせて速く応答してよい。 Further, the dialog manager 420 may recognize the user's utterance speed by the voice recognition device 410, and may apply different response speeds according to the user's utterance speed. As an example, the dialog manager 420 may determine the utterance speed of the response voice in proportion to the utterance speed of the user. For example, a user who asks a fast question may respond quickly according to the question speed.
したがって、AI自動応答システム300は、ユーザ発話速度に合わせて応答速度を異にして提供することにより、ユーザ発話速度に合ったインタラクションによって適したサービスを提供することができる。 Therefore, the AI automatic response system 300 can provide a service suitable for interaction according to the user's utterance speed by providing different response speeds according to the user's utterance speed.
さらに、ダイアログマネージャ420は、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して自動応答サービスを提供してよい。ダイアログマネージャ420は、少なくとも1つの言語モデルを含む翻訳機460を含むか、連動可能な形態で構成されてよく、ユーザの発話言語と対応する言語モデルに切り換えてリアルタイム翻訳による自動応答サービスを提供してよい。一例として、翻訳機460は、韓国語モデル、英語モデル、日本語モデルが維持されてよく、感知部450は、言語を設定するためのウェイクアップワード(wakeup word)としてユーザの発話音声のうちから先頭部分の言語を感知してよい。このとき、ダイアログマネージャ420は、ウェイクアップワードに基づいてユーザの発話言語を認識してよく、ユーザの発話言語に該当する言語モデルに分岐して自動応答サービスを提供してよい。例えば、ダイアログマネージャ420は、ユーザ発話の最初の一言として
(外1)
が認識されれば韓国語モデルとして、「hello(もしもしに該当する英語)」が認識されれば英語モデルとして、「もしもし」が認識されれば日本語モデルとして、翻訳機460の言語モデルを分岐して自動応答サービスを提供してよい。言い換えれば、ダイアログマネージャ420は、外国人と電話が繋がった場合でも、最初の発話の言語を感知し、該当の言語モデルを利用してレストランへの問い合わせや予約、配達注文などのための自動応答サービスを提供することができる。
Further, the dialog manager 420 may use real-time translation to translate into the language spoken by the user and provide an automatic response service. The dialog manager 420 may include a translator 460 containing at least one language model, or may be configured in an interlocking manner, and may switch to a language model corresponding to the user's utterance language to provide an automatic response service by real-time translation. You can. As an example, the translator 460 may maintain a Korean model, an English model, and a Japanese model, and the sensing unit 450 may be used as a wakeup word for setting a language from among the spoken voices of the user. It may sense the language of the first part. At this time, the dialog manager 420 may recognize the user's utterance language based on the wakeup word, and may branch to the language model corresponding to the user's utterance language to provide the automatic response service. For example, the dialog manager 420 is the first word of the user's utterance (outside 1).
If is recognized, it is a Korean model, if "hello (English corresponding to)" is recognized, it is an English model, and if "Hello" is recognized, it is a Japanese model, and the language model of the translator 460 is branched. And provide an automatic response service. In other words, Dialog Manager 420 senses the language of the first utterance, even when a foreigner is connected to the phone, and uses that language model to automatically respond to restaurant inquiries, reservations, delivery orders, etc. Can provide services.
したがって、AI自動応答システム300は、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することにより、言語に制限されずに、サービスへのアクセス性と利便性を高めることができる。 Therefore, the AI automatic response system 300 enhances accessibility and convenience to the service without being restricted by the language by translating into the language spoken by the user using real-time translation and providing the response. be able to.
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The devices described above may be implemented by hardware components, software components, and / or combinations of hardware components and software components. For example, the apparatus and components described in the embodiments include a processor, a controller, an ALU (arithmetic logic unit), a digital signal processor, a microcomputer, an FPGA (field program gate array), a PLU (programmable log unit), a microprocessor, and the like. Alternatively, it may be implemented using one or more general purpose computers or special purpose computers, such as various devices capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the OS. The processing device may also respond to the execution of the software, access the data, and record, manipulate, process, and generate the data. For convenience of understanding, one processor may be described as being used, but those skilled in the art may appreciate that the processor may include multiple processing elements and / or multiple types of processing elements. You can understand. For example, a processor may include multiple processors or one processor and one controller. Other processing configurations, such as parallel processors, are also possible.
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 The software may include computer programs, code, instructions, or a combination of one or more of these, configuring the processing equipment to operate at will, or instructing the processing equipment independently or collectively. You may do it. The software and / or data is embodied in any type of machine, component, physical device, computer recording medium or device to be interpreted based on the processing device or to provide instructions or data to the processing device. Good. The software is distributed on a computer system connected by a network and may be recorded or executed in a distributed state. The software and data may be recorded on one or more computer-readable recording media.
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。 The method according to the embodiment may be implemented in the form of program instructions that can be executed by various computer means and recorded on a computer-readable medium. Here, the medium may be one that continuously records a computer-executable program, or one that temporarily records it for execution or download. In addition, the medium may be a variety of recording or storage means in the form of a combination of single or multiple hardware, and is not limited to a medium directly connected to a computer system, but is distributed over a network. It may exist. Examples of media include hard disks, floppy (registered trademark) disks, and magnetic media such as magnetic tape, optical media such as CD-ROMs and DVDs, optomagnetic media such as floptic discs, and It may include a ROM, a RAM, a flash memory, and the like, and may be configured to record program instructions. In addition, other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various other software, servers, and the like.
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and modifications from the above description. For example, the techniques described may be performed in a different order than the methods described, and / or components such as the systems, structures, devices, circuits described may be in a form different from the methods described. Appropriate results can be achieved even if they are combined or combined, or confronted or replaced by other components or equivalents.
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Therefore, even different embodiments belong to the attached claims as long as they are equivalent to the claims.
300:AI自動応答システム
401:ゲートウェイ
410:音声認識器
420:ダイアログマネージャ
430:返答生成器
440:音声合成器
450:感知部
460:翻訳機
300: AI automatic response system 401: Gateway 410: Speech recognizer 420: Dialog manager 430: Response generator 440: Speech synthesizer 450: Sensing unit 460: Translator
Claims (16)
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記人工知能基盤の自動応答方法は、
前記少なくとも1つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、
前記少なくとも1つのプロセッサにより、前記発話音声の中間結果を利用して意図を分析した後に返答を生成する段階、および
前記少なくとも1つのプロセッサにより、前記発話音声に対して前記返答を送出する段階
を含む、
人工知能基盤の自動応答方法。 An artificial intelligence-based automatic response method executed by a computer system.
The computer system includes at least one processor configured to execute computer-readable instructions contained in memory.
The automatic response method of the artificial intelligence base is
The stage of receiving the spoken voice of the user by connecting the user with the call by the at least one processor.
This includes a step of generating a response after analyzing the intention by using the intermediate result of the spoken voice by the at least one processor, and a step of sending the response to the spoken voice by the at least one processor. ,
An automatic response method based on artificial intelligence.
自動応答サービスの会話ログからサンプル文章を抽出する段階、および
前記サンプル文章から語尾を除いた文章を学習データとして利用する会話学習により、前記中間結果から前記意図を分析する段階
を含む、
請求項1に記載の人工知能基盤の自動応答方法。 The generation stage is
This includes a step of extracting a sample sentence from the conversation log of the automatic response service and a step of analyzing the intention from the intermediate result by conversation learning using the sentence excluding the ending from the sample sentence as learning data.
The automatic response method of the artificial intelligence base according to claim 1.
前記中間結果として取得した音節単位で前記意図を分析する段階を含む、
請求項1に記載の人工知能基盤の自動応答方法。 The generation stage is
Including the step of analyzing the intention in syllable units acquired as the intermediate result.
The automatic response method of the artificial intelligence base according to claim 1.
前記中間結果を利用した意図分析結果に対するコンフィデンスに基づいて前記返答の生成時点を決定する段階を含む、
請求項1に記載の人工知能基盤の自動応答方法。 The generation stage is
Including the step of determining the generation time of the response based on the confidence in the intention analysis result using the intermediate result.
The automatic response method of the artificial intelligence base according to claim 1.
前記中間結果を利用した意図分析結果に対するコンフィデンスが、語尾を除いた文章を利用した会話学習によって決定された閾値に達する時点に、前記返答を予め生成する段階を含む、
請求項1に記載の人工知能基盤の自動応答方法。 The generation stage is
The step of generating the response in advance is included when the confidence for the intention analysis result using the intermediate result reaches the threshold value determined by the conversation learning using the sentence excluding the ending.
The automatic response method of the artificial intelligence base according to claim 1.
前記発話音声からエンドポイントが感知されれば、前記返答を音声信号で送出することを特徴とする、
請求項1に記載の人工知能基盤の自動応答方法。 The sending stage is
When the endpoint is detected from the spoken voice, the response is transmitted as a voice signal.
The automatic response method of the artificial intelligence base according to claim 1.
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記人工知能基盤の自動応答方法は、
前記少なくとも1つのプロセッサにより、ユーザの通話が繋がることにより前記ユーザの発話音声を受信する段階、
前記少なくとも1つのプロセッサにより、前記発話音声に対して返答を送出する段階、および
前記少なくとも1つのプロセッサにより、前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する段階
を含む、
人工知能基盤の自動応答方法。 An artificial intelligence-based automatic response method executed by a computer system.
The computer system includes at least one processor configured to execute computer-readable instructions contained in memory.
The automatic response method of the artificial intelligence base is
The stage of receiving the utterance voice of the user by connecting the user's call by the at least one processor.
When the at least one processor sends a response to the spoken voice, and the at least one processor receives the user's spoken voice while the reply is being sent, the reply is sent. Including the stage of interrupting
An automatic response method based on artificial intelligence.
前記ユーザの発話音声が受信されれば、前記返答の送出を、即時にまたはフェードアウトを適用した後に中断することを特徴とする、
請求項7に記載の人工知能基盤の自動応答方法。 The interrupting stage is
When the spoken voice of the user is received, the transmission of the reply is interrupted immediately or after applying the fade-out.
The automatic response method of the artificial intelligence base according to claim 7.
非言語的表現を分類して学習する段階、および
前記返答が送出される途中に受信された発話音声が前記学習された非言語的表現に該当する場合には前記返答の送出を維持し、前記学習された非言語的表現に該当しない場合には前記返答の送出を中断する段階を含む、
請求項7に記載の人工知能基盤の自動応答方法。 The interrupting stage is
The stage of classifying and learning non-verbal expressions, and if the spoken voice received during the transmission of the response corresponds to the learned non-verbal expression, the transmission of the response is maintained, and the above. Including the step of interrupting the sending of the reply when it does not correspond to the learned non-verbal expression.
The automatic response method of the artificial intelligence base according to claim 7.
前記少なくとも1つのプロセッサにより、前記発話音声の認識結果として返答に必要な情報が足りない場合、前記情報を誘導するための問い返しの質問を提供する段階をさらに含む、
請求項1または7に記載の人工知能基盤の自動応答方法。 The automatic response method of the artificial intelligence base is
Further comprising providing a question-and-answer question to guide the information if the at least one processor lacks the information required for the response as a result of recognizing the spoken voice.
The method for automatically responding to the artificial intelligence base according to claim 1 or 7.
前記少なくとも1つのプロセッサにより、前記発話音声の認識結果によって複数の意図が認識された場合、意図認識順にしたがって各意図に対する返答を順に提供する段階をさらに含む、
請求項1または7に記載の人工知能基盤の自動応答方法。 The automatic response method of the artificial intelligence base is
When a plurality of intentions are recognized by the recognition result of the spoken voice by the at least one processor, a step of providing a response to each intention in order of intention recognition is further included.
The method for automatically responding to the artificial intelligence base according to claim 1 or 7.
前記少なくとも1つのプロセッサにより、前記ユーザの発話速度を認識する段階、および
前記少なくとも1つのプロセッサにより、前記ユーザの発話速度によって前記返答の発話速度を決定する段階
をさらに含む、
請求項1または7に記載の人工知能基盤の自動応答方法。 The automatic response method of the artificial intelligence base is
The step further includes a step of recognizing the utterance speed of the user by the at least one processor, and a step of determining the utterance speed of the response by the utterance speed of the user by the at least one processor.
The method for automatically responding to the artificial intelligence base according to claim 1 or 7.
前記少なくとも1つのプロセッサにより、前記ユーザの発話言語を認識する段階、および
前記少なくとも1つのプロセッサにより、自動応答サービスのための言語モデルを前記ユーザの発話言語に対応する言語モデルに切り換える段階
をさらに含む、
請求項1または7に記載の人工知能基盤の自動応答方法。 The automatic response method of the artificial intelligence base is
It further includes a step of recognizing the user's spoken language by the at least one processor and a step of switching the language model for the automatic response service to the language model corresponding to the user's spoken language by the at least one processor. ,
The method for automatically responding to the artificial intelligence base according to claim 1 or 7.
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記少なくとも1つのプロセッサは、
ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、
前記発話音声の中間結果を利用して意図を分析した後に返答を生成する過程、および
前記発話音声に対して前記返答を送出する過程
を処理する、
コンピュータシステム。 It ’s a computer system,
Contains at least one processor configured to execute computer-readable instructions contained in memory.
The at least one processor
The process of receiving the user's spoken voice by connecting with the user,
It processes the process of generating a response after analyzing the intention using the intermediate result of the spoken voice, and the process of sending the response to the spoken voice.
Computer system.
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記少なくとも1つのプロセッサは、
ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、
前記発話音声に対して返答を送出する過程、および
前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する過程
を処理する、
コンピュータシステム。 It ’s a computer system,
Contains at least one processor configured to execute computer-readable instructions contained in memory.
The at least one processor
The process of receiving the user's spoken voice by connecting with the user,
Processes the process of sending a reply to the spoken voice, and the process of interrupting the sending of the reply if the user's spoken voice is received while the reply is being sent.
Computer system.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2019-0089399 | 2019-07-24 | ||
| KR1020190089399A KR102170088B1 (en) | 2019-07-24 | 2019-07-24 | Method and system for auto response based on artificial intelligence |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021022928A true JP2021022928A (en) | 2021-02-18 |
| JP7113047B2 JP7113047B2 (en) | 2022-08-04 |
Family
ID=73006448
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020124156A Active JP7113047B2 (en) | 2019-07-24 | 2020-07-21 | AI-based automatic response method and system |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7113047B2 (en) |
| KR (1) | KR102170088B1 (en) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113571038A (en) * | 2021-07-14 | 2021-10-29 | 北京小米移动软件有限公司 | Voice conversation method, device, electronic equipment and storage medium |
| CN113643696A (en) * | 2021-08-10 | 2021-11-12 | 阿波罗智联(北京)科技有限公司 | Voice processing method, device, equipment, storage medium and program |
| WO2023097745A1 (en) * | 2021-12-03 | 2023-06-08 | 山东远联信息科技有限公司 | Deep learning-based intelligent human-computer interaction method and system, and terminal |
| CN116567148A (en) * | 2022-09-20 | 2023-08-08 | 小沃科技有限公司 | A control method, device, medium and electronic equipment for an intelligent outbound call |
| WO2024101615A1 (en) * | 2022-11-08 | 2024-05-16 | 한국전자기술연구원 | Turnfree conversation method and device |
| CN118427334A (en) * | 2024-07-04 | 2024-08-02 | 零犀(北京)科技有限公司 | A message processing method, program product, electronic device and storage medium for large model calling service |
| JP2025049110A (en) * | 2023-09-20 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
| JP2025049209A (en) * | 2023-09-21 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102640944B1 (en) * | 2022-04-05 | 2024-02-23 | 에스케이텔레콤 주식회사 | Method and device for providing automatic call service |
| KR102490519B1 (en) * | 2022-07-21 | 2023-01-19 | 주식회사 라피치 | Automatic response system and method with privacy protection function to encrypt in response to sender's text data |
| KR20250023225A (en) * | 2023-08-09 | 2025-02-18 | 주식회사 노틸러스 | Method and system for generating contents using language model |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Spoken dialogue system |
| JP2006293830A (en) * | 2005-04-13 | 2006-10-26 | Fuji Xerox Co Ltd | Question answering system, data retrieval method, and computer program |
| JP2018017936A (en) * | 2016-07-28 | 2018-02-01 | 国立研究開発法人情報通信研究機構 | Voice dialogue device, server device, voice dialogue method, voice processing method and program |
| JP2018151631A (en) * | 2017-03-10 | 2018-09-27 | サウンドハウンド,インコーポレイテッド | Speech-enabled system including domain disambiguation |
| JP2018160798A (en) * | 2017-03-23 | 2018-10-11 | 沖電気工業株式会社 | COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM |
| WO2019098038A1 (en) * | 2017-11-15 | 2019-05-23 | ソニー株式会社 | Information processing device and information processing method |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101627402B1 (en) * | 2014-03-26 | 2016-06-03 | 포항공과대학교 산학협력단 | Device for analyzing natural language incrementally, adaptive answering machine and method using the device |
| KR20190004495A (en) * | 2017-07-04 | 2019-01-14 | 삼성에스디에스 주식회사 | Method, Apparatus and System for processing task using chatbot |
| KR20190008663A (en) * | 2017-07-17 | 2019-01-25 | 삼성전자주식회사 | Voice data processing method and system supporting the same |
| KR102428782B1 (en) * | 2017-12-29 | 2022-08-03 | 엘지전자 주식회사 | Washer and operation method of the same |
-
2019
- 2019-07-24 KR KR1020190089399A patent/KR102170088B1/en active Active
-
2020
- 2020-07-21 JP JP2020124156A patent/JP7113047B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Spoken dialogue system |
| JP2006293830A (en) * | 2005-04-13 | 2006-10-26 | Fuji Xerox Co Ltd | Question answering system, data retrieval method, and computer program |
| JP2018017936A (en) * | 2016-07-28 | 2018-02-01 | 国立研究開発法人情報通信研究機構 | Voice dialogue device, server device, voice dialogue method, voice processing method and program |
| JP2018151631A (en) * | 2017-03-10 | 2018-09-27 | サウンドハウンド,インコーポレイテッド | Speech-enabled system including domain disambiguation |
| JP2018160798A (en) * | 2017-03-23 | 2018-10-11 | 沖電気工業株式会社 | COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM |
| WO2019098038A1 (en) * | 2017-11-15 | 2019-05-23 | ソニー株式会社 | Information processing device and information processing method |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113571038A (en) * | 2021-07-14 | 2021-10-29 | 北京小米移动软件有限公司 | Voice conversation method, device, electronic equipment and storage medium |
| CN113643696A (en) * | 2021-08-10 | 2021-11-12 | 阿波罗智联(北京)科技有限公司 | Voice processing method, device, equipment, storage medium and program |
| WO2023097745A1 (en) * | 2021-12-03 | 2023-06-08 | 山东远联信息科技有限公司 | Deep learning-based intelligent human-computer interaction method and system, and terminal |
| CN116567148A (en) * | 2022-09-20 | 2023-08-08 | 小沃科技有限公司 | A control method, device, medium and electronic equipment for an intelligent outbound call |
| WO2024101615A1 (en) * | 2022-11-08 | 2024-05-16 | 한국전자기술연구원 | Turnfree conversation method and device |
| JP2025049110A (en) * | 2023-09-20 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
| JP2025049209A (en) * | 2023-09-21 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
| CN118427334A (en) * | 2024-07-04 | 2024-08-02 | 零犀(北京)科技有限公司 | A message processing method, program product, electronic device and storage medium for large model calling service |
Also Published As
| Publication number | Publication date |
|---|---|
| KR102170088B1 (en) | 2020-10-26 |
| JP7113047B2 (en) | 2022-08-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7113047B2 (en) | AI-based automatic response method and system | |
| AU2021286360B2 (en) | Systems and methods for integrating third party services with a digital assistant | |
| CN111226224B (en) | Method and electronic device for translating speech signals | |
| JP6535349B2 (en) | Contextual Interpretation in Natural Language Processing Using Previous Dialogue Acts | |
| US11151332B2 (en) | Dialog based speech recognition | |
| US9805718B2 (en) | Clarifying natural language input using targeted questions | |
| JP2020140210A (en) | How and system to handle unintentional queries in a conversational system | |
| JP5142720B2 (en) | Interactive conversational conversations of cognitively overloaded users of devices | |
| US10956480B2 (en) | System and method for generating dialogue graphs | |
| JP2021533397A (en) | Speaker dialification using speaker embedding and a trained generative model | |
| JP2020530581A (en) | Providing command bundle suggestions for automated assistants | |
| CN109388691A (en) | Method and system for generating conversation agent | |
| CN110741363A (en) | Processing natural language using machine learning to determine slot values based on slot descriptors | |
| McTear et al. | Voice application development for Android | |
| CN116724306A (en) | Multi-feature balancing for natural language processors | |
| JP2020154076A (en) | Reasoner, learning method and learning program | |
| US20250104702A1 (en) | Conversational Artificial Intelligence Platform | |
| CN111916088A (en) | Voice corpus generation method and device and computer readable storage medium | |
| KR20230120787A (en) | Heathcare Service of Elderly Based on Chat-bot | |
| Manojkumar et al. | AI-based virtual assistant using python: a systematic review | |
| CN112837683A (en) | Voice service method and device | |
| McTear | Rule-based dialogue systems: Architecture, methods, and tools | |
| Gupta et al. | Desktop voice assistant | |
| US20220180865A1 (en) | Runtime topic change analyses in spoken dialog contexts | |
| US20250106321A1 (en) | Interactive Voice Response Transcoding |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200721 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210412 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210817 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211116 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220215 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220725 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7113047 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |