KR20180121120A - 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 - Google Patents
음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 Download PDFInfo
- Publication number
- KR20180121120A KR20180121120A KR1020170055419A KR20170055419A KR20180121120A KR 20180121120 A KR20180121120 A KR 20180121120A KR 1020170055419 A KR1020170055419 A KR 1020170055419A KR 20170055419 A KR20170055419 A KR 20170055419A KR 20180121120 A KR20180121120 A KR 20180121120A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- voice
- text
- purchase
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Recommending goods or services
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Managing shopping lists, e.g. compiling or processing purchase lists
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Electronic shopping [e-shopping] utilising user interfaces specially adapted for shopping
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
음성, 텍스트, 시각적 인터페이스를 결합하여 새롭고 직관적인 방법으로 모바일 기기로 물건을 구매할 수 있는 시스템에 관한 것으로서, 사용자가 모바일 기기를 통해 주문하고 싶은 제품 목록을 녹음하고 이를 음성인식을 통해 고객사 재고목록과 연동시켜 주문을 쉽게 완료하는 머신러닝(기계학습) 기반 음성인식 방법이 제시된다. 본 발명에서 제안하는 음성, 텍스트, 시각적 인터페이스를 결합하여 새롭고 직관적인 방법으로 모바일 기기로 물건을 구매할 수 있는 방법은 크게 3가지, 일반적인 음성인식 시스템을 구축하는 단계, 서비스 상황에(Task-domain)에 최적화된 음성인식 시스템을 구축하는 단계, 음성을 이용한 주문 시스템을 구축하는 단계로 구성된다.
Description
본 발명은 머신러닝(기계학습) 기반 음성 주문 시스템에 관한 것으로서, 더욱 상세하게는 사용자가 모바일 기기를 통해 주문하고 싶은 제품 목록을 녹음하고 이를 음성인식을 통해 고객사 재고목록과 연동시켜 주문을 쉽게 완료하는 시스템에 관한 것이다.
애플의 Siri(2011)로부터 시작해서 마이크로소프트의 Cortana(2014), 아마존의 Alexa/Echo(2014), 구글 어시스턴트(2016), 삼성의 Bixby(2017) 순으로 이어지는 음성 기반의 "어시스턴트" 시스템이 꾸준히 주류 기술 트렌드의 하나로 자리 잡았으며, 이러한 시스템의 대부분은 여전히 정보 제공이나 통화 시 음성명령(예 : 홍길동에게 전화 걸어줘)에 중점을 두고 있으며 Amazon의 Alexa/Echo 이외에는 전자상거래와 연동된 형태가 없다. 구글, 마이크로소프트, IBM이 Nuance에 도전할 수 있는 API를 모두 공개하면서 클라우드 기반 STT(음성 텍스트 변환) 시스템이 지난 몇 년 동안 널리 보급되었고, 또한 더 높은 음성인식 정확도를 위해서 많은 오픈소스 도구들이 개발되었고 이를 이용하면 일반적인 STT를 만들 수 있는 장벽이 많이 낮아졌다.
본 발명이 이루고자 하는 기술적 과제는 전자상거래 영역에서 사용자의 음성뿐만 아니라 제품 관련 데이터를 기반으로 사용자의 요청을 해석하는 Deep Neural Network(인공 신경망) 기반 인공지능 엔진을 개발하여 사용자의 니즈에 맞춤화된 음성인식이 탑재된 음성 주문 시스템을 제공하는데 있다.
본 발명에서 제안하는 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템은 음향모델(Acoustic Model)을 위한 준비를 하는 단계, 언어모델(Language Model) 구축을 위한 준비를 하는 단계, 발음사전(Pronunciation Lexicon) 구축을 위한 준비를 하는 단계, 언어모델을 최적화 하는 단계, 음향 모델을 최적화하는 단계, 인공지능 기반 주문 확인 시스템을 구축하는 단계, 기존 구매이력과 소비패턴 분석을 통한 주문상품을 추천하는 단계, 음성인식 성능 개선을 위한 데이터 구축 단계, 사용자를 위한 어플리케이션 개발 단계로 구성된다.
본 발명의 실시예들에 따르면 음성, 텍스트, 시각적 인터페이스를 통해 여러 옵션을 비교하는 데 따르는 어려움에서 균형을 맞출 수 있다. 음성은 어플리케이션을 사용하는 것보다 수 천 개의 항목을 더 쉽게 검색할 수 있는 반면, 시각적인 인터페이스는 단지 몇 가지 항목에 대해서만 최종 비교를 용이하게 한다. 음성으로 주문하는 시스템이 제대로 이뤄지려면 사용자의 음성 주문 요청을 해당 제품목록과 정확하게 연결 시키는 것이다. 실제 소음이 많고 사용자가 명확하게 발음하지 않으면 인식 오류율이 25%를 초과할 수 있다. 음성, 텍스트, 시각적 인터페이스를 결합하고 사용자에 대한 구매이력 데이터 및 Deep Neural Network(인공 신경망) 기반 특정 분야에 맞춤화된 음성인식을 제공함으로써 새로운 차원의 소비자 경험을 만들어 낼 수 있다.
본 발명의 실시예들을 참조하여 상세히 설명될 것이다. 도면들을 참조하여 여기서 설명되는 실시예들은 예시적 이고, 설명을 위한 것이며 본 발명을 대체적으로 이해하기 위해 사용된다. 실시예들은 본 발명을 한정하기 위한 것으로 이해되어서는 안된다. 동일하거나 유사한 요소들 및 동일하거나 또는 유사한 기능들을 가지는 요소들은 상세한 설명들 전체에서 유사한 참조 부호들에 의해 지시된다.
본 발명은 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 을 제공하는데, 이것은 다양한 어플리케이션 및 모바일 기기를 통하여 연동시킬 수 있다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 발명의 실시예에 따른 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 시스템 간의 관계를 개괄적으로 설명하기 위한 도면이다.
1단계는 일반적인 음성인식 시스템 구축이다.
1. 음향모델(Acoustic Model)을 위한 준비를 한다.
- 가능한 한 많은 출처를 통해서 사람들이 실제로 이야기하는 대화 형식의 고품질 오디오를 수집한다.
- 오디오 데이터 듣고 받아쓰기를 한다.
- 오픈소스 사이트를 통한 사람들의 자발적인 녹음 참여 유도한다.
2. 언어모델(Language Model)구축을 위한 준비를 한다.
- Web-crawling 을 이용한 다양한 주제의 문장 수집 및 말뭉치를 구축한다.
3. 발음사전(Pronunciation Lexicon) 구축을 위한 준비를 한다.
- 한국어 표준 발음법에 근거하여 주어진 단어를 발음으로 바꾸어주는 소프트웨어 개발
- 표준 발음과 다른 다양한 발음의 변화 고려
- 언어모델의 위해 구축된 말뭉치를 data-driven 방식으로 분석하여 한국어의 형태소 단위로 분석
- 형태소 단위 분석을 통해 발음사전에 포함 되어야할 어휘 추출
- 추출된 어휘에 대해 다양한 발음으로 변환
2단계는 서비스 상황에(Task-domain) 최적화된 음성인식 시스템 구축이다.
1. 언어모델 최적화
- 음성인식이 적용될 서비스 상황의 말뭉치 수집, Task-domain corpus 구축
- 대화형 문장들 수집, 주문전화 녹취 받아쓰기 등등
- 1단계에서 모아진 다양한 주제의 말뭉치에서 Task-domain에 적용 가능한 문장 추출 및 Task-domain 말뭉치에 추가
- Web-crawling 을 통해 다양한 문장을 추출하고 해당 문장이 Task-domain에 적용가능한지 판단하여 지속적으로 Task-domain 말뭉치를 키워나가도록 자동화
- Task-domain 말뭉치를 키워 나갈수록 Task-domain에 맞는 발음사전 구축
2. 음향모델최적화:
- 실제 Task-domain 오디오 수집 및 받아쓰기
- 사투리를 사용하는 사용자들이 많은 서비스 상황에서 음성인식이 잘 되도록 실제 주문 전화 녹취 오디오 데이터를 이용하여 음향모델을 최적화
3. 실제 주문 상황에서 사용하기 위한 개발
- 오디오 인터페이스 정의 및 구축
3단계는 음성을 이용한 주문 시스템 구축이다.
음성인식을 통해 얻어진 텍스트를 기존의 자연어처리 기술과 결합하여 인공지능기반 음성 주문 확인 시스템을 아래와 같이 구현한다.
Deep Neural Network에 들어갈 입력물은 사용자 음성 주문 내용 텍스트 변환 데이터, 제품 재고목록 데이터, 사용자 구매이력 데이터, 구매예측모델을 통과한 사용자 구매예측 데이터이며 출력물은 어플리케이션 내에서 시각적인 텍스트로 표현된다.
이상에서 본 발명의 일 실시예에 대하여 설명하였으나, 본 발명의 사상은 본 명세서에 제시되는 실시 예에 제한 되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시 예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 권리범위 내에 든다고 할 것이다.
Claims (2)
- 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템에 있어서,
데이터가 입력되는 경로는 2가지이다.
모바일 기기에서 어플리케이션을 활성화시키고 녹음 버튼을 눌러서 주문 내용을 녹음하는 단계;
녹음된 오디오 데이터가 ASR(자동음성인식 시스템)으로 들어오는 단계;
상기 ASR(자동음성인식 시스템)이 오디오 데이터를 텍스트로 변환하는 단계;
다른 한 경로에서는 사용자 통합 구매 데이터가 구매예측모델에 들어오는 단계;
구매예측 모델을 통과한 데이터가 구매예측 데이터로 변환되어 나오는 단계;
양쪽 경로를 통해 나온 사용자 주문 내용 텍스트 데이터, 제품 재고목록 데이터, 사용자 구매이력 데이터, 구매예측모델을 통과한 사용자 구매예측 데이터가 주문 번역 뉴럴네트워크(인공 신경망)로 들어오는 단계;
주문 번역 뉴럴네트워크(인공 신경망)을 통해 나온 데이터가 어플리케이션에 노출되는 단계;
를 포함하는, 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 - 제 1항에 있어서,
상기 주문 번역 뉴럴네트워크(인공 신경망)는,
정확히 동작하는 음성 주문 시스템(Voice Ordering System)이 되기 위해서 고객의 주문이 가능한한정확하게 분석되는, 단순히 고객의 음성을 인식하여 텍스트로 전환하는 것이 아닌 인공지능 기반 DNN(딥뉴럴네트워크)를 사용, 사용자 음성 주문 내용 텍스트 변환 데이터, 제품 재고목록 데이터, 사용자 구매이력 데이터, 구매예측모델을 통과한 사용자 구매예측 데이터를 효과적으로 분석하여 데이터
를 결합한 사용자에 특화된 음성 인식 결과를 출력해줄 수 있는 것
을 특징으로 하는 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170055419A KR20180121120A (ko) | 2017-04-28 | 2017-04-28 | 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170055419A KR20180121120A (ko) | 2017-04-28 | 2017-04-28 | 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20180121120A true KR20180121120A (ko) | 2018-11-07 |
Family
ID=64363434
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020170055419A Withdrawn KR20180121120A (ko) | 2017-04-28 | 2017-04-28 | 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20180121120A (ko) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20210022999A (ko) | 2019-08-21 | 2021-03-04 | 주식회사 아드리코 | 인공지능 기반 주문 플랫폼 |
| KR20210146671A (ko) * | 2020-05-27 | 2021-12-06 | 삼성생명보험주식회사 | 고객 상담 기록 분석 방법 |
-
2017
- 2017-04-28 KR KR1020170055419A patent/KR20180121120A/ko not_active Withdrawn
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20210022999A (ko) | 2019-08-21 | 2021-03-04 | 주식회사 아드리코 | 인공지능 기반 주문 플랫폼 |
| KR20210135190A (ko) | 2019-08-21 | 2021-11-12 | 주식회사 아드리코 | 인공지능 기반 주문 플랫폼 |
| KR20210146671A (ko) * | 2020-05-27 | 2021-12-06 | 삼성생명보험주식회사 | 고객 상담 기록 분석 방법 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
| JP6182272B2 (ja) | 自然表現の処理方法、処理及び応答方法、装置、及びシステム | |
| Kumar et al. | A Hindi speech recognition system for connected words using HTK | |
| US20080071533A1 (en) | Automatic generation of statistical language models for interactive voice response applications | |
| US20230026945A1 (en) | Virtual Conversational Agent | |
| KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
| CN111949778A (zh) | 一种基于用户情绪的智能语音对话方法、装置及电子设备 | |
| KR20160101302A (ko) | 고객센터 상담 자동 요약 및 분류 시스템 및 그 방법 | |
| CN114418320A (zh) | 客服服务质量评估方法、装置、设备、介质和程序产品 | |
| Granell et al. | Multimodal crowdsourcing for transcribing handwritten documents | |
| JP7067546B2 (ja) | データ構造化装置、データ構造化方法およびプログラム | |
| JP2020204711A (ja) | 登録システム | |
| Janokar et al. | Text-to-speech and speech-to-text converter—voice assistant | |
| CN115019787B (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
| Koo et al. | KEBAP: Korean error explainable benchmark dataset for ASR and post-processing | |
| KR20180121120A (ko) | 음성, 텍스트, 시각적 인터페이스를 결합하여 모바일 기기로 물건을 구매할 수 있는 머신러닝 기반 음성 주문 시스템 | |
| Yadav et al. | A review of feature extraction and classification techniques in speech recognition | |
| Woollacott et al. | Benchmarking speech technologies | |
| Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
| Saravanan et al. | A Novel Implementation of Sentiment Analysis Toward Data Science | |
| Huang et al. | DuIVRS: A Telephonic Interactive Voice Response System for Large-Scale POI Attribute Acquisition at Baidu Maps | |
| Radzikowski et al. | Non-native speech recognition using audio style transfer | |
| KR102696311B1 (ko) | 음성 텍스트변환 녹취시스템 | |
| JP7211384B2 (ja) | 音声認識装置、個人識別方法および個人識別プログラム | |
| Yadava et al. | A spoken query system to access the real time agricultural commodity prices and weather information in Kannada language/dialects |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170428 |
|
| PG1501 | Laying open of application | ||
| PC1203 | Withdrawal of no request for examination |