[go: up one dir, main page]

RU2018135681A - Способ и устройство для обнаружения голосовой активности - Google Patents

Способ и устройство для обнаружения голосовой активности Download PDF

Info

Publication number
RU2018135681A
RU2018135681A RU2018135681A RU2018135681A RU2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A
Authority
RU
Russia
Prior art keywords
measure
term activity
signal
primary
decisions
Prior art date
Application number
RU2018135681A
Other languages
English (en)
Other versions
RU2018135681A3 (ru
RU2768508C2 (ru
Inventor
Мартин СЕХЛЬСТЕДТ
Original Assignee
Телефонактиеболагет Л М Эрикссон (Пабл)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Л М Эрикссон (Пабл) filed Critical Телефонактиеболагет Л М Эрикссон (Пабл)
Publication of RU2018135681A publication Critical patent/RU2018135681A/ru
Publication of RU2018135681A3 publication Critical patent/RU2018135681A3/ru
Application granted granted Critical
Publication of RU2768508C2 publication Critical patent/RU2768508C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephone Function (AREA)
  • Emergency Alarm Devices (AREA)
  • Mobile Radio Communication Systems (AREA)

Claims (31)

1. Способ добавления хвостов сигнала для прерывистой передачи (DTX) при кодировании речи или аудио, причем способ содержит:
для фрейма речи или аудио:
- определение первичного решения на основании голосовой активности;
- определение окончательного решения на основании того, выполняется ли добавление хвостов сигнала первичного решения;
- определение меры краткосрочной активности на основании прошлых первичных решений;
- определение меры долгосрочной активности на основании прошлых окончательных решений или прошлых первичных решений;
- определение альтернативного окончательного решения для регулирования добавления хвостов сигнала на основании меры краткосрочной активности и меры долгосрочной активности.
2. Способ по п. 1, в котором мера краткосрочной активности сравнивается с первым пороговым значением, а мера долгосрочной активности сравнивается со вторым пороговым значением.
3. Способ по п. 2, в котором добавление хвостов сигнала регулируется, если превышено по меньшей мере одно из первого и второго пороговых значений.
4. Способ по любому из пп. 1-3, в котором добавление хвостов сигнала регулируется посредством предварительно определенного количества фреймов хвоста сигнала.
5. Способ по любому из пп. 3 или 4, в котором первое число фреймов хвоста сигнала добавляется, если превышено первое пороговое значение, и второе число фреймов хвоста сигнала добавляется, если превышено второе пороговое значение.
6. Способ по п. 5, в котором первое число меньше, чем второе число.
7. Способ по любому из пп. 4-6, в котором величина дополнительных фреймов хвоста сигнала ограничена, если мера краткосрочной активности снижается ниже третьего порогового значения.
8. Способ по п. 7, в котором третье пороговое значение равно 7.
9. Способ по любому из предшествующих пунктов, в котором мера краткосрочной активности определяется на основании количества активных фреймов в памяти последних N_st первичных решений, а мера долгосрочной активности основана на количестве активных фреймов в памяти последних N_lt первых окончательных решений.
10. Способ по п. 9, в котором N_st равно 16, а N_lt равно 50, и при этом первое пороговое значение равно 12, а второе пороговое значение равно 40.
11. Устройство для определения добавления хвостов сигнала, содержащее:
- средство для определения первичного решения голосовой активности для фрейма речи или аудио;
- средство для определения окончательного решения на основании того, должно ли выполняться добавление хвостов сигнала первичного решения;
- средство для определения меры краткосрочной активности на основании прошлых первичных решений;
- средство для определения меры долгосрочной активности на основании прошлых первых окончательных решений или прошлых первичных решений;
- средство для определения альтернативного окончательного решения для регулирования добавления хвостов сигнала на основании меры краткосрочной активности и меры долгосрочной активности.
12. Устройство по п. 11, дополнительно содержащее средство для выполнения способа по любому из пп. 2-10.
13. Устройство по п. 11 или 12, причем устройство содержится в кодеке речи или аудио.
14. Компьютерная программа, содержащая компьютерно-читаемые блоки кода, которые при исполнении на устройстве предписывают устройству:
для фрейма речи или аудио:
- определять первичное решение на основании голосовой активности;
- определять окончательное решение на основании того, выполняется ли добавление хвостов сигнала первичного решения;
- определять меру краткосрочной активности на основании прошлых первичных решений;
- определять меру долгосрочной активности на основании прошлых первых окончательных решений или прошлых первичных решений;
- определять альтернативное окончательное решение для регулирования добавления хвостов сигнала на основании меры краткосрочной активности и меры долгосрочной активности.
RU2018135681A 2012-08-31 2018-10-10 Способ и устройство для обнаружения голосовой активности RU2768508C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261695623P 2012-08-31 2012-08-31
US61/695,623 2012-08-31

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2017101656A Division RU2670785C9 (ru) 2012-08-31 2013-08-30 Способ и устройство для обнаружения голосовой активности

Publications (3)

Publication Number Publication Date
RU2018135681A true RU2018135681A (ru) 2020-04-10
RU2018135681A3 RU2018135681A3 (ru) 2021-11-25
RU2768508C2 RU2768508C2 (ru) 2022-03-24

Family

ID=49226493

Family Applications (3)

Application Number Title Priority Date Filing Date
RU2017101656A RU2670785C9 (ru) 2012-08-31 2013-08-30 Способ и устройство для обнаружения голосовой активности
RU2015111150A RU2609133C2 (ru) 2012-08-31 2013-08-30 Способ и устройство для обнаружения голосовой активности
RU2018135681A RU2768508C2 (ru) 2012-08-31 2018-10-10 Способ и устройство для обнаружения голосовой активности

Family Applications Before (2)

Application Number Title Priority Date Filing Date
RU2017101656A RU2670785C9 (ru) 2012-08-31 2013-08-30 Способ и устройство для обнаружения голосовой активности
RU2015111150A RU2609133C2 (ru) 2012-08-31 2013-08-30 Способ и устройство для обнаружения голосовой активности

Country Status (12)

Country Link
US (6) US9472208B2 (ru)
EP (3) EP2891151B1 (ru)
JP (3) JP6127143B2 (ru)
CN (2) CN107195313B (ru)
BR (1) BR112015003356B1 (ru)
DK (1) DK2891151T3 (ru)
ES (2) ES2604652T3 (ru)
HU (1) HUE038398T2 (ru)
IN (1) IN2015DN00783A (ru)
RU (3) RU2670785C9 (ru)
WO (1) WO2014035328A1 (ru)
ZA (2) ZA201500780B (ru)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2526258B2 (ja) 1987-11-30 1996-08-21 田中貴金属工業株式会社 Pt、Pd系貴金属粒状塊製造用るつぼ
JP2526257B2 (ja) 1987-11-30 1996-08-21 田中貴金属工業株式会社 Pt、Pd系貴金属粒状塊製造用るつぼ
JP2526259B2 (ja) 1987-12-08 1996-08-21 田中貴金属工業株式会社 Pt、Pd系貴金属粒状塊製造用るつぼ
CN101647059B (zh) * 2007-02-26 2012-09-05 杜比实验室特许公司 增强娱乐音频中的语音的方法和设备
JP6127143B2 (ja) * 2012-08-31 2017-05-10 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 音声アクティビティ検出のための方法及び装置
CA2948015C (en) * 2012-12-21 2018-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
KR101690899B1 (ko) 2012-12-21 2016-12-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성
TWI566242B (zh) * 2015-01-26 2017-01-11 宏碁股份有限公司 語音辨識裝置及語音辨識方法
TWI557728B (zh) * 2015-01-26 2016-11-11 宏碁股份有限公司 語音辨識裝置及語音辨識方法
JP6444490B2 (ja) * 2015-03-12 2018-12-26 三菱電機株式会社 音声区間検出装置および音声区間検出方法
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
CN107170451A (zh) * 2017-06-27 2017-09-15 乐视致新电子科技(天津)有限公司 语音信号处理方法及装置
KR102406718B1 (ko) 2017-07-19 2022-06-10 삼성전자주식회사 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템
CN109068012B (zh) * 2018-07-06 2021-04-27 南京时保联信息科技有限公司 一种用于音频会议系统的双端通话检测方法
US10861484B2 (en) * 2018-12-10 2020-12-08 Cirrus Logic, Inc. Methods and systems for speech detection

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63281200A (ja) * 1987-05-14 1988-11-17 沖電気工業株式会社 音声区間検出方式
JPH0394300A (ja) * 1989-09-06 1991-04-19 Nec Corp 音声検出器
JPH03141740A (ja) * 1989-10-27 1991-06-17 Mitsubishi Electric Corp 音声検出器
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
JP3234044B2 (ja) 1993-05-12 2001-12-04 株式会社東芝 音声通信装置及びその受信制御回路
DE69716266T2 (de) * 1996-07-03 2003-06-12 British Telecommunications P.L.C., London Sprachaktivitätsdetektor
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6671667B1 (en) * 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
WO2004034379A2 (en) * 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
JP3922997B2 (ja) * 2002-10-30 2007-05-30 沖電気工業株式会社 エコーキャンセラ
BRPI0607690A8 (pt) 2005-04-01 2017-07-11 Qualcomm Inc Sistemas, métodos e equipamento para geração de excitação em banda alta
ATE543304T1 (de) * 2006-03-31 2012-02-15 Qualcomm Inc Speicherverwaltung zur medienzugangssteuerung mit hoher geschwindigkeit
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
RU2336449C1 (ru) 2007-04-13 2008-10-20 Валерий Александрович Мухин Редуктор орбитальный (варианты)
US8321217B2 (en) * 2007-05-22 2012-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Voice activity detector
JP5395066B2 (ja) 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
RU2507609C2 (ru) * 2008-07-11 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и дискриминатор для классификации различных сегментов сигнала
KR101072886B1 (ko) 2008-12-16 2011-10-17 한국전자통신연구원 캡스트럼 평균 차감 방법 및 그 장치
US9773511B2 (en) * 2009-10-19 2017-09-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
CA2778343A1 (en) * 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder
AU2010308597B2 (en) * 2009-10-19 2015-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Method and background estimator for voice activity detection
JP4981163B2 (ja) 2010-08-19 2012-07-18 株式会社Lixil サッシ
CN102741918B (zh) * 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
JP6127143B2 (ja) * 2012-08-31 2017-05-10 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 音声アクティビティ検出のための方法及び装置
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method

Also Published As

Publication number Publication date
RU2609133C2 (ru) 2017-01-30
CN107195313B (zh) 2021-02-09
WO2014035328A1 (en) 2014-03-06
US9472208B2 (en) 2016-10-18
EP2891151B1 (en) 2016-08-24
BR112015003356A2 (pt) 2017-07-04
BR112015003356B1 (pt) 2021-06-22
US20180286434A1 (en) 2018-10-04
JP6671439B2 (ja) 2020-03-25
HUE038398T2 (hu) 2018-10-29
US11900962B2 (en) 2024-02-13
US11417354B2 (en) 2022-08-16
US20160343390A1 (en) 2016-11-24
JP2017151455A (ja) 2017-08-31
IN2015DN00783A (ru) 2015-07-03
RU2015111150A (ru) 2016-10-27
US9997174B2 (en) 2018-06-12
EP3113184A1 (en) 2017-01-04
RU2018135681A3 (ru) 2021-11-25
EP3113184B1 (en) 2017-12-06
JP6127143B2 (ja) 2017-05-10
RU2768508C2 (ru) 2022-03-24
RU2670785C9 (ru) 2018-11-23
CN104603874B (zh) 2017-07-04
EP3301676A1 (en) 2018-04-04
US20150243299A1 (en) 2015-08-27
EP2891151A1 (en) 2015-07-08
ZA201500780B (en) 2017-08-30
CN107195313A (zh) 2017-09-22
RU2670785C1 (ru) 2018-10-25
US10607633B2 (en) 2020-03-31
JP6404396B2 (ja) 2018-10-10
JP2015532731A (ja) 2015-11-12
ZA201800523B (en) 2018-12-19
ES2661924T3 (es) 2018-04-04
US20200251130A1 (en) 2020-08-06
US20220375493A1 (en) 2022-11-24
DK2891151T3 (en) 2016-12-12
US20240119962A1 (en) 2024-04-11
JP2019023741A (ja) 2019-02-14
CN104603874A (zh) 2015-05-06
ES2604652T3 (es) 2017-03-08

Similar Documents

Publication Publication Date Title
RU2018135681A (ru) Способ и устройство для обнаружения голосовой активности
RU2017122050A (ru) Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков
WO2013154823A3 (en) System for adjusting loudness of audio signals in real time
MX346294B (es) Método y sistema para el reconocimiento de comandos de voz.
BR112014017708A8 (pt) Método e aparelho para detectar atividade de voz na presença de ruído de fundo, e, memória legível por computador
RU2016106637A (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
RU2017103905A (ru) Улучшение классификации между кодированием во временной области и кодированием в частотной области
RU2016119385A (ru) Аудиокодер и аудиодекодер с метаданными громкости и границы программы
TW201614420A (en) Content dependent display variable refresh rate
WO2013070425A3 (en) Conserving power through work load estimation for a portable computing device using scheduled resource set transitions
EP4560630A3 (en) Voice trigger for a digital assistant
ES2787894T3 (es) Método y dispositivo para detectar la señal de audio
RU2017106034A (ru) Контроллер выравнивателя громкости и способ управления
JP2019535039A5 (ru)
IN2014CN02852A (ru)
BR112017021351A2 (pt) seleção de largura de banda de áudio
RU2016149098A (ru) Выбор процедуры маскирования потери пакета
WO2011063031A3 (en) Methods and apparatus for measuring performance of a multi-thread processor
RU2016101218A (ru) Способ и аппарат обеспечения речевых подсказок
RU2618940C1 (ru) Оценка фонового шума в звуковых сигналах
JP2016208215A5 (ru)
EP2648069A3 (en) Information processing apparatus, control method, and control program
MX2016007430A (es) Metodo y aparato para decodificar una señal de audio codificada con bajos recursos computacionales.
RU2012146549A (ru) Способ и устройство управления кодированием видео
EP2809060A3 (en) Adaptive motion instability detection in video