JP2008032933A - Voice communication apparatus and voice communication system - Google Patents
Voice communication apparatus and voice communication system Download PDFInfo
- Publication number
- JP2008032933A JP2008032933A JP2006205224A JP2006205224A JP2008032933A JP 2008032933 A JP2008032933 A JP 2008032933A JP 2006205224 A JP2006205224 A JP 2006205224A JP 2006205224 A JP2006205224 A JP 2006205224A JP 2008032933 A JP2008032933 A JP 2008032933A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech speed
- voice
- speed
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims description 67
- 230000005236 sound signal Effects 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 19
- 230000000737 periodic effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 230000002194 synthesizing effect Effects 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 206010071299 Slow speech Diseases 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
この発明は、ネットワークを介して相互に音声信号を通信することで遠隔地会議などを行う音声通信システム、およびこの音声通信システムで用いる音声通信装置に関するものである。 The present invention relates to an audio communication system that performs a remote conference by communicating audio signals with each other via a network, and an audio communication apparatus used in the audio communication system.
複数の地点をネットワークで接続して音声会議を行う場合、各話者によって会話速度が異なるため、特定の話者の発言が聴き取り難い場合がある。そこで、発話音声を話速変換し、発言内容を把握し易くすることが考えられるが、この場合、どの程度の話速に変換すればよいかが問題となる。 When an audio conference is performed by connecting a plurality of points via a network, the conversation speed varies depending on each speaker, and it may be difficult to hear a specific speaker. Therefore, it is conceivable to convert the speech speed to make it easy to grasp the content of the speech, but in this case, the problem is how much the speech speed should be converted.
この問題に対し、入力音声信号について音声認識処理を行い、標準パターンの音声データとの時間長の比較から話速を算出する話速変換装置が提案されている(例えば特許文献1参照)。 In order to solve this problem, there has been proposed a speech speed conversion device that performs speech recognition processing on an input speech signal and calculates speech speed from comparison of time length with speech data of a standard pattern (see, for example, Patent Document 1).
       
  また、電話機におけるナンバーディスプレイサービスを利用して、発信電話番号毎に予め設定されている話速で話速変換を行うようにした、話速変換機能を有する電話機が提案されている(例えば特許文献2参照)。
 
         
  しかしながら、特許文献1の装置では、音声認識処理を行う必要があり、標準パターンに合致する音声が入力されないと話速を算出することができない。
  However, in the apparatus of 
また、特許文献2の装置では、発信電話番号毎に話速を設定するために、発信先の発話者が変更された場合に対応できないという問題点が有った。 In addition, the apparatus of Patent Document 2 has a problem in that it cannot cope with a change in the destination speaker because the speaking speed is set for each outgoing telephone number.
本発明は、音声認識のような高度な処理を行う必要なく、話者の個性(話速)に依存せずに適正な話速に話速変換することができる音声通信装置、および音声通信システムを提供することを目的とする。 The present invention relates to a voice communication apparatus and a voice communication system capable of converting a speech speed to an appropriate speech speed without depending on a speaker's individuality (speech speed) without performing sophisticated processing such as speech recognition. The purpose is to provide.
この発明の音声通信装置は、発話者の音声を収音して音声信号を出力するマイクと、前記マイクが出力した音声信号を話速変換する話速変換部と、前記話速変換部が話速変換した音声信号を他の装置に出力する音声信号出力部と、前記マイクが出力した音声信号から発話者の話速を検出する話速検出部と、サーバ装置から、目標となる話速を示す情報である目標話速情報を受信する話速情報通信部と、前記話速検出部が検出した発話者の話速と、前記話速情報通信部がサーバ装置から受信した目標話速情報が示す話速と、に基づいて、前記話速変換部の話速変換量を決定する話速変換量決定部と、を備えたことを特徴とする。 The voice communication device according to the present invention includes a microphone that picks up the voice of a speaker and outputs a voice signal, a speech speed converter that converts a voice speed of the voice signal output from the microphone, and the speech speed converter The target speech speed is obtained from the speech signal output unit that outputs the speech signal subjected to the speed conversion to another device, the speech speed detection unit that detects the speech speed of the speaker from the speech signal output from the microphone, and the server device. A speech speed information communication unit that receives target speech speed information, which is information to indicate, a speech speed of a speaker detected by the speech speed detection unit, and target speech speed information received from the server device by the speech speed information communication unit. And a speech speed conversion amount determination unit that determines a speech speed conversion amount of the speech speed conversion unit based on the indicated speech speed.
この発明では、収音した音声信号から話速を検出する。自装置で検出した話速と、他装置から受信した話速と、に基づいて話速変換量を決定し、収音音声信号を話速変換して出力する。つまり、他装置から受信した話速に比べ、自装置で検出した話速がゆっくりであれば音声信号を圧縮してから送信し、自装置で検出した話速が速ければ音声信号を伸長してから送信する。 In the present invention, the speech speed is detected from the collected voice signal. A speech speed conversion amount is determined based on the speech speed detected by the own device and the speech speed received from another device, and the collected voice signal is converted and output. In other words, if the speech speed detected by the own device is slow compared to the speech speed received from the other device, the speech signal is compressed and transmitted, and if the speech speed detected by the own device is fast, the speech signal is expanded. Send from.
また、この発明の音声通信装置は、前記話速情報通信部は、前記話速検出部が検出した発話者の話速を示す情報を自装置の話速情報として前記サーバ装置に送信することを特徴とする。 Further, in the voice communication device of the present invention, the speech speed information communication unit transmits information indicating the speech speed of the speaker detected by the speech speed detection unit to the server device as speech speed information of the own device. Features.
この発明では、この検出した話速を示す情報をサーバ装置に送受信する。これにより、サーバ装置において、受信した話速情報を目標話速情報の算出に用いることができる。 In the present invention, information indicating the detected speech speed is transmitted to and received from the server device. Thereby, in the server apparatus, the received speech speed information can be used for calculation of the target speech speed information.
また、この発明の音声通信装置は、前記話速検出部は、前記マイクが出力した音声信号から子音音声区間、および母音音声区間を切り出し、前記子音音声区間と前記母音音声区間との時間長の比に基づいて、発話者の話速を検出することを特徴とする。 Further, in the voice communication device according to the present invention, the speech speed detection unit cuts out the consonant voice section and the vowel voice section from the voice signal output from the microphone, and sets the time length between the consonant voice section and the vowel voice section. Based on the ratio, the speaking speed of the speaker is detected.
この発明では、音声信号から子音区間と母音区間を切り出す。例えば、音声信号の周期性を検出し、所定レベル以上の音声信号のうち、周期性の高い音声区間を母音区間、これ以外の区間を子音区間とすればよい。この子音区間と母音区間の時間長の比から話速を検出する。子音区間に対する母音区間の時間長が長い場合に話速が遅い(ゆっくり)と判断し、子音区間に対する母音区間の時間長が短い場合に話速が速い(早口)と判断すればよい。 In the present invention, a consonant section and a vowel section are cut out from the speech signal. For example, the periodicity of the audio signal may be detected, and among the audio signals having a predetermined level or higher, an audio segment with a high periodicity may be set as a vowel interval, and other intervals may be set as a consonant interval. The speech speed is detected from the ratio between the time lengths of the consonant section and the vowel section. The speech speed may be determined to be slow (slow) when the time length of the vowel section with respect to the consonant section is long, and the speech speed may be determined to be fast (fast mouth) when the time length of the vowel section with respect to the consonant section is short.
この発明の音声通信システムは、サーバ装置、および複数の音声通信装置を相互に接続した音声通信システムであって、各音声通信装置は、発話者の音声を収音して音声信号を出力するマイクと、前記マイクが出力した音声信号を話速変換する話速変換部と、前記話速変換部が話速変換した音声信号を他の装置に出力する音声信号出力部と、前記マイクが出力した音声信号から発話者の話速を検出する話速検出部と、前記話速検出部が検出した発話者の話速を示す情報を話速情報として前記サーバ装置に送信する話速情報通信部と、を備え、前記サーバ装置は、各音声通信装置から送られてきた話速情報に基づき、目標話速量を決定して各音声通信装置に配信する目標話速量決定手段を備え、前記音声通信装置の話速情報通信部は、さらにサーバ装置から前記目標話速量を受信し、前記音声通信装置は、前記話速検出部が検出した発話者の話速と、および前記目標話速量に含まれる話速と、に基づいて、前記話速変換部の話速変換量を決定する話速変換量決定部をさらに備えたことを特徴とする。 The voice communication system of the present invention is a voice communication system in which a server device and a plurality of voice communication devices are connected to each other, and each voice communication device picks up the voice of a speaker and outputs a voice signal. A speech speed conversion unit that converts the speech speed output from the microphone, a speech signal output unit that outputs the speech signal converted by the speech speed conversion unit to another device, and the microphone outputs A speech speed detection unit for detecting a speech speed of a speaker from a speech signal; and a speech speed information communication unit for transmitting information indicating the speech speed of the speaker detected by the speech speed detection unit to the server device as speech speed information; The server device includes target speech speed determining means for determining a target speech speed based on the speech speed information transmitted from each voice communication device and distributing the target speech rate to each voice communication device. The speech speed information communication unit of the communication device further supports The speech communication device receives the target speech speed amount from the communication device, and the voice communication device, based on the speech speed of the speaker detected by the speech speed detection unit, and the speech speed included in the target speech speed amount, A speech speed conversion amount determining unit for determining a speech speed conversion amount of the speech speed converting unit is further provided.
この発明では、収音した音声信号から話速を検出する。この検出した話速を示す情報をサーバ装置に送受信する。サーバ装置は、各音声通信装置から受信した話速情報から目標話速量(例えば平均値)を算出し、これを各音声通信装置に配信する。各音声通信装置においては、自装置で検出した話速と、サーバ装置から受信した目標話速量と、に基づいて話速変換量を決定し、収音音声信号を話速変換して出力する。つまり、目標話速量(平均値)に比べ、自装置で検出した話速がゆっくりであれば音声信号を圧縮してから送信し、自装置で検出した話速が速ければ音声信号を伸長してから送信する。 In the present invention, the speech speed is detected from the collected voice signal. Information indicating the detected speech speed is transmitted to and received from the server device. The server device calculates a target speech speed amount (for example, an average value) from the speech speed information received from each voice communication device, and distributes the target speech speed amount to each voice communication device. In each voice communication device, the speech speed conversion amount is determined based on the speech speed detected by the own device and the target speech speed received from the server device, and the collected voice signal is converted and output. . In other words, if the speech speed detected by the device is slow compared to the target speech speed (average value), the speech signal is compressed and transmitted, and if the speech speed detected by the device is fast, the speech signal is expanded. Then send.
また、この発明の音声通信システムは、前記話速検出部は、前記マイクが出力した音声信号から子音音声区間、および母音音声区間を切り出し、前記子音音声区間と前記母音音声区間との時間長の比に基づいて、発話者の話速を検出することを特徴とする。 Further, in the speech communication system of the present invention, the speech speed detection unit cuts out the consonant speech section and the vowel speech section from the speech signal output from the microphone, and sets the time length between the consonant speech section and the vowel speech section. Based on the ratio, the speaking speed of the speaker is detected.
この発明によれば、収音した音声信号から話速を検出し、サーバ装置から目標話速を受信することで、音声認識等の高度な処理をする必要なく、話者の個性(話速)に依存することなく、適正な話速に話速変換することができる。 According to the present invention, by detecting the speech speed from the collected speech signal and receiving the target speech speed from the server device, it is not necessary to perform advanced processing such as speech recognition, so that the individuality of the speaker (speech speed) It is possible to convert the speech speed to an appropriate speech speed without depending on.
       
  以下の実施形態では、具体的な音声通信システムの例として、音声会議システムについて、図面を参照して説明する。図1は、本実施形態の音声会議システムの構成図である。
  本実施形態の音声会議システムは、ネットワーク100に接続された音声会議装置111A〜111Cと、ネットワークサーバ101とを備えている。
In the following embodiments, an audio conference system will be described as an example of a specific audio communication system with reference to the drawings. FIG. 1 is a configuration diagram of an audio conference system according to the present embodiment. 
 The audio conference system of this embodiment includes audio conference apparatuses 111 </ b> A to 111 </ b> C connected to a 
       
  音声会議装置111A〜111Cは、それぞれ離れた地点a〜cにそれぞれ配置されている。地点aには音声会議装置111Aが配置され、地点bには音声会議装置111Bが配置され、地点cには音声会議装置111Cが配置されている。
  The audio conference apparatuses 111 </ b> A to 111 </ b> C are respectively arranged at points a to c that are separated from each other. The audio conference device 111A is arranged at the point a, the 
       
  図2は、音声会議装置111Aの構成を示すブロック図である。なお、音声会議装置1B、および音声会議装置1Cは、音声会議装置111Aと同じ構成、機能を有するため、同図では音声会議装置111Aを代表として説明する。音声会議装置111Aは、マイク11、収音アンプ(AMP)12、A/Dコンバータ13、音声分析部14、話速変換部15、通信I/F16、D/Aコンバータ17、放音アンプ(AMP)18、およびスピーカ19を備えている。
  FIG. 2 is a block diagram showing a configuration of the audio conference apparatus 111A. Since the audio conference apparatus 1B and the audio conference apparatus 1C have the same configuration and function as the audio conference apparatus 111A, the audio conference apparatus 111A will be described as a representative in FIG. The audio conference apparatus 111A includes a 
       
  マイク11は、自装置の周囲に存在する話者からの発声音を含む周囲の音を収音して、収音信号を収音アンプ12に与える。収音アンプ12は収音信号を増幅してA/Dコンバータ13に与える。A/Dコンバータ13は、アナログ形式の収音信号をディジタル変換して、音声分析部14、および話速変換部15に出力する。
  The 
       
  話速変換部15は、A/Dコンバータ13から入力された収音信号について、必要に応じて話速変換処理を行う。話速変換処理の要否、話速変換量は、音声分析部14の話速変換レート算出部144により指示される。話速変換部15は、話速変換後の音声信号を通信I/F16に出力する。
  The speech 
       
  通信I/F16は、話速変換部15からの音声信号をネットワーク通信形式に変換し、ネットワーク100を介して他の装置に送信する。また、通信I/F16は、ネットワーク100を介して他の装置から音声データを受信する。通信I/F16は、受信した音声データを、ネットワーク形式のデータから一般的な音声信号に変換して、D/Aコンバータ17に出力する。D/Aコンバータ17は、入力された音声信号をアナログ変換して、放音アンプ18に与え、放音アンプ18はアナログ化された音声信号を増幅して、スピーカ19に与える。スピーカ19は、入力された音声信号を放音する。
  The communication I / 
       
  また、通信I/F16は、音声分析部14の時間比較部143から話者の話速情報(詳細は後述する)を取得し、これをネットワークサーバ101に送信する。また、通信I/F16は、ネットワークサーバ101から各装置の話者の話速情報平均値を受信し、これを時間比較部143に与える。
  Further, the communication I / 
       
  音声分析部14は、音声区間切り出し部141、子音・母音区間検出部142、時間比較部143、および話速変換レート算出部144からなり、A/Dコンバータ13から入力された音声信号の話速を検出する。
  The 
       
  音声区間切り出し部141は、A/Dコンバータ13から入力された音声信号から音声区間を切り出す。音声区間、雑音区間の区別は、例えば音声信号のレベル、音声信号の周期性から判断すればよい。所定レベル以上の音声信号を所定長に分割し、対応するサンプルデータを乗算または減算するなどして相関値を算出する。この相関値が所定閾値よりも低い場合に雑音区間、高い場合に音声区間と判断する。音声等の周期性の多い音声信号の場合相関値は高くなり、雑音等の周期性の少ない音声信号の場合相関値は低くなる。
  The voice 
       
  子音・母音区間検出部142は、音声区間切り出し部141が切り出した音声区間のうち、さらに子音区間と母音区間を検出する。すなわち、音声区間切り出し部141が切り出した音声区間をさらに所定長に分割し、対応するサンプルデータを乗算または減算するなどして相関値(子音・母音区間判定用相関値)を算出する。この相関値が所定閾値(子音・母音区間判定用閾値)よりも低い場合に子音区間、高い場合に母音区間と判断する。また、音声区間切り出し部141が切り出した音声区間のスペクトルから子音・母音区間を判断してもよい。スペクトルが標準的な母音のスペクトルとの一致度が高い場合に母音区間と判断すればよい。
  The consonant / vowel 
       
  時間比較部143は、子音・母音区間検出部142が検出した子音区間、母音区間の時間長の比を算出する。時間比較部143は、この子音区間、母音区間の時間長の比を話速情報として通信I/F16、および話速変換レート算出部144に出力する。図3は、子音区間、母音区間の時間長と話速の関係を示す図である。同図(A)の場合、子音区間の時間長が10ms、母音区間の時間長が150msであるため、子音区間:母音区間=1:15となる。同図(B)においては、子音区間の時間長が10ms、母音区間の時間長が100msであるため、子音区間:母音区間=1:10となる。同図(C)においては、子音区間の時間長が10ms、母音区間の時間長が50msであるため、子音区間:母音区間=1:5となる。時間比較部143は、この子音区間:母音区間の情報を話速情報として出力する。同図(A)のように子音区間の時間長に対する母音区間の時間長が長い場合、話速が遅い(ゆっくり)とし、同図(C)のように子音区間の時間長に対する母音区間の時間長が長い場合、話速が速い(早口)とする。
  The 
       
  通信I/F16に出力された話速情報は、ネットワーク100を介してネットワークサーバ101に送信される。ネットワークサーバ101は、各装置から送信された話速情報を集計し、ネットワーク内の話速情報平均値を算出し、これを各装置に返信する。
  The speech speed information output to the communication I / 
       
  図4は本実施形態のネットワークサーバ101の主要構成を示すブロック図である。図4に示すように、ネットワークサーバ101は、ネットワーク制御部102と会議情報記憶部103とを備えている。
  FIG. 4 is a block diagram showing the main configuration of the 
       
  ネットワーク制御部102はネットワーク100全体の制御を行う。また、各装置から送信された上記話速情報を話速情報履歴として会議情報記憶部103に記録する。会議情報記憶部103は、現在会議に参加している会議者数を記憶し、話速情報の平均値を話速情報平均値DBに記録する。また、音声会議装置間で送受信された音声を、議事録として音声DBに記憶する。ネットワーク制御部102は、会議情報記憶部103に記憶された話速情報の平均値を各音声会議装置に送信する。なお、話速情報平均値は、移動平均により算出される。
  The 
       
  各音声通信装置の時間比較部143は、ネットワークサーバ101から与えられた話速情報平均値を受信し、これを話速変換レート算出部144に与える。
  話速変換レート算出部144は、上記話速情報平均値、および自装置の話速情報を時間比較部143から受信し、これらの値に基づいて話速変換レートを算出する。例えば、話速情報平均値として、図3(B)に示すように子音区間:母音区間=1:10を示す情報を受信し、自装置の話速情報として図3(A)に示すように子音区間:母音区間=1:15を示す情報を受信した場合、自装置の話者の話速が平均よりもゆっくりであると判断し、話速変換部15に音声信号を圧縮するように設定する。一方で、自装置の話速情報として図3(C)に示すように子音区間:母音区間=1:5を示す情報を受信した場合、自装置の話者の話速が平均よりも早口であると判断し、話速変換部15に音声信号を伸長するように設定する。
The 
 The speech speed conversion 
       
  話速変換部15は、上記のように話速変換レート算出部144から設定された話速変換量(圧縮率、伸長率)に基づいて、話速変換処理を行う。話速変換処理は、単に音声信号を高速、低速で出力するのではなく、以下のようにして行う。すなわち、音声信号を伸長する場合、音声信号を1周期の波形に切りわけ、各周期波形の前後1区間を合成した新たな周期波形を生成し、各周期波形の間に新たに合成した周期波形を挿入することで信号の周期波形数を増やして、音程を保ちつつ信号を時間伸長する。音声信号を圧縮する場合は、上記新たな周期波形を各周期波形に代えて信号の周期波形数を減らして出力する。
  The speech 
図5(A)は伸長処理の手順を示すフローチャートである。また、同図(B)は伸長方法を説明する図である。同図(A)において、まず入力音声信号の先頭部分の1周期のサンプル数(サンプリング周波数×1/信号周波数)を検出する(S91)。この1周期分のサンプルデータである周期波形を2つ取り出して、同図(B)に示すように、1つめの周期波形Aに対して減衰利得係数を乗算することによって減衰波を作成し、2つめの周期波形Bに対して増加利得係数を乗算することによって増加波を作成する(S92)。そして、これらを加算合成することによってAとBの中間の形状の周期波形を合成する(S93)。この合成波形を図6(A)に示すように周期波形Aと周期波形Bとの間に挿入して出力する(S94)することによって音響的に自然な時間軸伸長を行う。 FIG. 5A is a flowchart showing the procedure of decompression processing. FIG. 2B is a diagram for explaining the expansion method. In FIG. 9A, first, the number of samples in one cycle (sampling frequency × 1 / signal frequency) of the head portion of the input audio signal is detected (S91). Two periodic waveforms, which are sample data for one period, are taken out and, as shown in FIG. 5B, an attenuation wave is created by multiplying the first periodic waveform A by an attenuation gain coefficient, An increasing wave is created by multiplying the second periodic waveform B by an increasing gain coefficient (S92). Then, by adding and synthesizing these, a periodic waveform having an intermediate shape between A and B is synthesized (S93). As shown in FIG. 6A, the synthesized waveform is inserted between the periodic waveform A and the periodic waveform B and output (S94), thereby performing acoustically natural time base expansion.
なお、音声データを圧縮する場合には、図6(B)に示すように、上記S93で合成したAとBの中間の形状の合成波形を周期波形A,Bに代えて出力することにより、音声データを時間軸方向に1/2倍に圧縮することができる。 In the case of compressing audio data, as shown in FIG. 6B, by synthesizing a synthesized waveform having an intermediate shape between A and B synthesized in S93, instead of the periodic waveforms A and B, Audio data can be compressed 1/2 times in the time axis direction.
この話速変換処理を行う周期を規定することで、変換速度を可変とすることができる。例えば、図6(C)に示すように、周期毎に周期波形を2つ合成し、各周期波形の間に挿入することで、音声データを時間軸方向に2倍に伸長することができ、同図(D)に示すように、2周期毎に周期波形を2つ合成することで、3/2倍に伸長することができる。 By defining the cycle for performing the speech speed conversion process, the conversion speed can be made variable. For example, as shown in FIG. 6C, by synthesizing two periodic waveforms for each period and inserting them between each periodic waveform, the audio data can be expanded twice in the time axis direction, As shown in FIG. 4D, by synthesizing two periodic waveforms every two periods, it can be expanded to 3/2 times.
       
  以上のようにして話速変換部15で話速変換された音声信号は、通信I/F16に入力され、ネットワーク100を介して他の装置に出力される。これにより、各音声会議装置においては、収音側で平均的な話速に変換された音声信号を受信することとなり、全ての会議者の発話音声を平均的な話速で聴くことができる。
  The voice signal subjected to the speech speed conversion by the speech 
なお、上記例においては、収音側で話速変換後の音声信号を送信し、放音側においてはこの音声信号をそのまま放音する例について説明したが、以下のような応用例も考えられる。 In the above example, the voice signal after the speech speed conversion is transmitted on the sound collection side, and the sound signal is emitted as it is on the sound emission side. However, the following application examples are also conceivable. .
       
  図7は、応用例に係る音声会議装置の構成を示すブロック図である。この音声会議装置において、図2に示した音声会議装置と共通する構成部については同様の符号を付し、その説明を省略する。この音声会議装置は、通信I/F16の出力側に接続される話速変換部50を備えている。ネットワーク100、および通信I/F16を介して他の装置から入力された音声信号は、話速変換部50に入力され、話速変換後にD/Aコンバータ17に入力される。話速変換部50の話速変換の要否、話速変換量は、話速変換レート算出部144により設定される。
  FIG. 7 is a block diagram illustrating a configuration of an audio conference apparatus according to an application example. In this audio conference apparatus, components common to the audio conference apparatus shown in FIG. 2 are denoted by the same reference numerals, and description thereof is omitted. This voice conference apparatus includes a speech 
       
  この例において、話速変換レート算出部144は、自装置の話速情報、およびネットワークサーバ101から受信した話速情報平均値に基づいて話速変換部50の話速変換レートを算出する。すなわち、話速変換レート算出部144は、他装置から受信した音声信号の話速が、自装置の発話者の話速に近く(略同一と)なるように話速変換部50の話速変換レートを算出する。例えば、話速情報平均値として、図3(B)に示すように子音区間:母音区間=1:10を示す情報を受信し、自装置の話速情報として図3(A)に示すように子音区間:母音区間=1:15を示す情報を受信した場合、話速変換部50に他装置からの音声信号を伸長するように設定する。一方で、自装置の話速情報として図3(C)に示すように子音区間:母音区間=1:5を示す情報を受信した場合、話速変換部50に音声信号を圧縮するように設定する。
  In this example, the speech speed conversion 
つまり、早口で発話する者が存在する音声会議装置においては、速い話速で他装置からの音声が放音され、ゆっくりと発話する者が存在する音声会議装置においては、遅い話速で他装置からの音声が放音される。これにより、各音声会議参加者は、自分の話速に近い(略同一)話速で他の発話音声を聴くことができるので、ストレス無く音声会議を行うことができる。 In other words, in a voice conference device in which a person who speaks quickly is present, the voice from the other device is emitted at a fast speech speed, and in a voice conference device in which a person who speaks slowly exists, the other device at a slow speech speed. The sound from is emitted. Thereby, each voice conference participant can listen to other uttered voices at a voice speed close to (similar to) his / her own voice speed, so that the voice conference can be performed without stress.
       
  なお、本実施形態においては、ネットワークサーバ101が各音声会議装置から話速情報を受信し、平均話速情報を決定する例について説明したが、例えば2つの音声会議装置を用いて1対1の通信会議を行う場合、いずれかの音声会議装置がサーバ装置として機能すればよい。例えば、いずれかの音声会議装置の時間比較部143が互いの音声会議装置における話速情報を送受信し、平均話速情報を算出する。話速変換レート算出部144は、自装置の話速情報と、他装置(または自装置の時間比較部143)から受信した平均話速と、に基づいて話速変換量を決定する構成とすればよい。
  In the present embodiment, an example has been described in which the 
      
     
100−ネットワーク
111−音声会議装置
101−ネットワークサーバ
100-network 111-voice conference apparatus 101-network server
  
Claims (5)
前記マイクが出力した音声信号を話速変換する話速変換部と、
前記話速変換部が話速変換した音声信号を他の装置に出力する音声信号出力部と、
前記マイクが出力した音声信号から発話者の話速を検出する話速検出部と、
サーバ装置から、目標となる話速を示す情報である目標話速情報を受信する話速情報通信部と、
前記話速検出部が検出した発話者の話速と、前記話速情報通信部がサーバ装置から受信した目標話速情報が示す話速と、に基づいて、前記話速変換部の話速変換量を決定する話速変換量決定部と、
を備えた音声通信装置。 A microphone that picks up the voice of the speaker and outputs a voice signal;
A speech speed conversion unit for converting the speech speed of the audio signal output from the microphone;
A voice signal output unit that outputs the voice signal converted by the voice speed conversion unit to another device;
A speech speed detection unit for detecting a speech speed of a speaker from an audio signal output from the microphone;
A speech rate information communication unit that receives target speech rate information that is information indicating the target speech rate from the server device;
Based on the speaking speed of the speaker detected by the speaking speed detection unit and the speaking speed indicated by the target speaking speed information received from the server device by the speaking speed information communication unit, the speaking rate conversion of the speaking rate conversion unit A speech rate conversion amount determination unit for determining the amount;
A voice communication device comprising:
各音声通信装置は、発話者の音声を収音して音声信号を出力するマイクと、
前記マイクが出力した音声信号を話速変換する話速変換部と、
前記話速変換部が話速変換した音声信号を他の装置に出力する音声信号出力部と、
前記マイクが出力した音声信号から発話者の話速を検出する話速検出部と、
前記話速検出部が検出した発話者の話速を示す情報を話速情報として前記サーバ装置に送信する話速情報通信部と、
を備え、
前記サーバ装置は、各音声通信装置から送られてきた話速情報に基づき、目標話速量を決定して各音声通信装置に配信する目標話速量決定手段を備え、
前記音声通信装置の話速情報通信部は、さらにサーバ装置から前記目標話速量を受信し、
前記音声通信装置は、前記話速検出部が検出した発話者の話速と、および前記目標話速量に含まれる話速と、に基づいて、前記話速変換部の話速変換量を決定する話速変換量決定部をさらに備えた音声通信システム。 A voice communication system in which a server device and a plurality of voice communication devices are connected to each other,
Each voice communication device picks up the voice of the speaker and outputs a voice signal;
A speech speed conversion unit for converting the speech speed of the audio signal output from the microphone;
A voice signal output unit that outputs the voice signal converted by the voice speed conversion unit to another device;
A speech speed detection unit for detecting a speech speed of a speaker from an audio signal output from the microphone;
A speech rate information communication unit that transmits information indicating the speech rate of the speaker detected by the speech rate detection unit to the server device as speech rate information;
With
The server device includes target speech speed determining means for determining a target speech speed based on the speech speed information transmitted from each voice communication device and distributing the target speech speed to each voice communication device,
The speech rate information communication unit of the voice communication device further receives the target speech rate from a server device,
The voice communication apparatus determines a speech speed conversion amount of the speech speed conversion unit based on a speaker's speech speed detected by the speech speed detection unit and a speech speed included in the target speech speed amount. A speech communication system further comprising a speech speed conversion amount determination unit.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2006205224A JP2008032933A (en) | 2006-07-27 | 2006-07-27 | Voice communication apparatus and voice communication system | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2006205224A JP2008032933A (en) | 2006-07-27 | 2006-07-27 | Voice communication apparatus and voice communication system | 
Publications (1)
| Publication Number | Publication Date | 
|---|---|
| JP2008032933A true JP2008032933A (en) | 2008-02-14 | 
Family
ID=39122436
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2006205224A Pending JP2008032933A (en) | 2006-07-27 | 2006-07-27 | Voice communication apparatus and voice communication system | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP2008032933A (en) | 
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| WO2025159173A1 (en) * | 2024-01-26 | 2025-07-31 | Fairy Devices株式会社 | Two-way communication system, method, and program | 
- 
        2006
        - 2006-07-27 JP JP2006205224A patent/JP2008032933A/en active Pending
 
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| WO2025159173A1 (en) * | 2024-01-26 | 2025-07-31 | Fairy Devices株式会社 | Two-way communication system, method, and program | 
| JP2025115971A (en) * | 2024-01-26 | 2025-08-07 | Fairy Devices株式会社 | Two-way communication system, method, and program | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| NL2021308B1 (en) | Methods for a voice processing system | |
| US9117436B2 (en) | Sound processing apparatus and sound processing method | |
| US7672844B2 (en) | Voice processing apparatus | |
| JP2009139592A (en) | Speech processing device, speech processing system, and speech processing program | |
| CN103124165A (en) | Automatic gain control | |
| CN105185366A (en) | Electronic musical instrument, method of controlling sound generation | |
| EP3955589A1 (en) | Signal processing device, signal processing method, and program | |
| US9355648B2 (en) | Voice input/output device, method and programme for preventing howling | |
| JP2008048342A (en) | Sound acquisition apparatus | |
| US8768406B2 (en) | Background sound removal for privacy and personalization use | |
| JPH10301598A (en) | Speech speed conversion method and apparatus | |
| JP2008032933A (en) | Voice communication apparatus and voice communication system | |
| JP7284570B2 (en) | Sound reproduction system and program | |
| KR20210086217A (en) | Hoarse voice noise filtering system | |
| JP2008040431A (en) | Voice or speech machining device | |
| JP2021032989A (en) | Acoustic processing device, acoustic processing program and acoustic processing method | |
| KR101386883B1 (en) | Mobile terminal and method for executing communication mode thereof | |
| JP2008292621A (en) | Speaking speed conversion device, communication device, and speaking speed conversion method | |
| JP2008034979A (en) | Voice communication device and voice communication system | |
| JP4127155B2 (en) | Hearing aids | |
| JP2007298876A (en) | Voice data recording and reproducing apparatus | |
| JP2905112B2 (en) | Environmental sound analyzer | |
| JP5691180B2 (en) | Maska sound generator and program | |
| JP7296214B2 (en) | speech recognition system | |
| JP2008294599A (en) | Sound emitting and collecting apparatus and system |