音声には、口発音、喉発音などの違いがある。
言い換えれば、平面的な二次元音声と、立体的な三次元音声である。
例えば、平面的な画像に慣れている者が、3D画像を観た瞬間、慣れるまで視点がぼやける現象があるが、音声認識においては、もっと、顕著に認識の差異が出るかも知れない。
自らの感性が、口発音による二次元音声を発している影響により、音声認識においても、二次元音声にピントが合う感性に固定されている事である。
一見、平面的音声の方が、はっきりと明るく発音、発声しているように聴こえる事も理解出来るが、立体的音声の奥行きを感知し辛くなるのではと言う疑惑が高まって来た次第である。
要するに、立体的音声をぼやけた音声と認識してしまう人達が多いのではと言うものである。
問題なのは、審査する立場の人間がそのような耳であると言う事である。
勿論、口発音の人でも、ある程度の耳を持っている人が居る事も事実であるが、やはり、それぞれを体感として理解している人の認識とは、雲泥の差がある。
だから、私が、「なんだ?このデカいだけの声は!」と、半ば呆れてしまう演奏に対しても、会場の反応が非常に良かったりする。
要するに、質より量に惑わされるのである。
ある意味、恐るべし、日本語の口発音!
言い換えれば、平面的な二次元音声と、立体的な三次元音声である。
例えば、平面的な画像に慣れている者が、3D画像を観た瞬間、慣れるまで視点がぼやける現象があるが、音声認識においては、もっと、顕著に認識の差異が出るかも知れない。
自らの感性が、口発音による二次元音声を発している影響により、音声認識においても、二次元音声にピントが合う感性に固定されている事である。
一見、平面的音声の方が、はっきりと明るく発音、発声しているように聴こえる事も理解出来るが、立体的音声の奥行きを感知し辛くなるのではと言う疑惑が高まって来た次第である。
要するに、立体的音声をぼやけた音声と認識してしまう人達が多いのではと言うものである。
問題なのは、審査する立場の人間がそのような耳であると言う事である。
勿論、口発音の人でも、ある程度の耳を持っている人が居る事も事実であるが、やはり、それぞれを体感として理解している人の認識とは、雲泥の差がある。
だから、私が、「なんだ?このデカいだけの声は!」と、半ば呆れてしまう演奏に対しても、会場の反応が非常に良かったりする。
要するに、質より量に惑わされるのである。
ある意味、恐るべし、日本語の口発音!