MiiTel Speech API では、録音データから各話者がどのような話し方をしているかを解析する機能があります。本機能は、音声が 2 チャンネルで録音されたステレオ音声の場合にのみ有効です。AI による話者認識機能で話者を特定している場合は有効な数値になりません。
解析される項目は以下のとおりです。
項目 | 説明 |
1. Talk:Listen 比率 | Talk : Listen 比率は、ユーザーが発話していた時間 (Talk) と取引先が発話していた時間 (Listen) の割合を示す。 |
2. 被り発生区間 | ユーザーと取引先の発話が重なった時間が 1 秒間以上存在した場合に 1 回とカウントされる。スコアは以下のように計算される。 |
3. 沈黙発生区間 | ユーザーも取引先も発話しない時間が 3 秒間以上存在した場合に 1 回とカウントされる。スコアは以下のように計算される。 |
4. 基本周波数 (Hz) | 音声の高さを表します。一般的には、成人男性の場合 85 - 180 Hz、女性の場合 165 - 255 Hz になります。 |
5. 抑揚の強弱 | 音声の高低のばらつきを表します。音声に高い音と低い音のメリハリをつけて会話した場合、値が大きくなります。 |
6. 話速 | 会話の速度です。周囲の雑音が大きい場合、低く出力されることがある。発話時間が短い場合、表示できない場合がある。 |
7. ラリー回数 | 話者が切り替わった回数 |