음성인식의 원리가 어떻게 되나요?
시리나 구글같은 프로그램은 음성을 인식해서 인공지능이 일을 하잖아요.
이런 음성인식의 원리가 어떻게 되나요? 문자로 변형시키는 원리가 궁금합니다.
55글자 더 채워주세요.
1개의 답변이 있어요!
안녕하세요. 말배추1입니다.
음성이 생성되기 위해서는 우선 음원이 필요하며, 음원에서 발생한 임펄스가 성도를 거쳐 입과 코를 통해 방사 된다. 이 음원이 성도(vocal tract)로 전달되며 음파의 전파에 의한 조음(articulation)과 외부의 방사에 의하여 각 음성 파형이 다르게 나오게 된다. 이 음성의 종류에 따라 다음의 두가지로 구분할 수 있다.
첫째, 유성음 발생에 대한 것으로 여기 신호는 성대의 진동으로 변조된 공기의 흐름으로 볼 수 있다. 이 여기 신호는 피치(pitch)주기에 따라 주기적이며 그 스펙트럼은 신호의 주기성에 의한 조파(harmonics)를 보이게 된다.
둘째, 무성음 발생에 대한 것으로 성도의 특정 부분에서 공기의 흐름에 대한 압축현상(constriction)이 일어나고 이로 인해 공기의 난류상태(air turbulence)가 여기 신호가 되며 이 여기신호는 잡음과 같은 성질을 갖게 된다.
성도는 공진기와 같은 역할을 함으로써 여기 신호의 스텍트럼을 변형시키게 되는데, 유성음의 경우 대략 4개 정도의 공진점을 찾을 수 있고 이들은 포만트(Formant)라 부른다