휴대폰에 음성인식의 원리가 긍금합니다
음성으로 몬에 지시를 내리면, 바로 알아듣는 원리가 무엇이지요
말을 비슷하게 하여도 알아듣는 원리가 무엇인지요?
특히 사람의 말소리에 대한 인지능력이궁금해요.
안녕하세요. 류경범 과학전문가입니다.
보통 음성인식은 음성파형분석을 이용합니다.
보통 음성인식은 1/1000초 단위로 약 0.02초 길이의 음편을 잘라 분석하게 됩니다.
그리고 이렇게 분석한 것으로 성대와 성도의 상태를 인지하여 프로그램의 DB에서 해당 파형에 맞는 언어를 찾아내는 것이죠.
예를 들어 '가방'이라는 단어를 말한다면 0.02초의 간격으로 'ㄱ ㅏ ㅂ ㅏ ㅇ'의 순서로 파형이 발생하고 이것을 인지하는 것입니다.
이 때문에 사투리의 파형 등 다양한 언어습관에 따른 DB를 축적할 수록 정확한 음성인식이 가능해집니다.
만족스러운 답변이었나요?간단한 별점을 통해 의견을 알려주세요.안녕하세요. 휴대폰에도 인공지능 기능들이 추가가 되고 있습니다. 음성인식도 자연어처리의 한 분야로써 많이 연구되고 있습니다. 많은 데이터로 학습되어진 효과라고 볼 수 있습니다.
만족스러운 답변이었나요?간단한 별점을 통해 의견을 알려주세요.안녕하세요. 김계민 과학전문가입니다.
음성 인식기는 음성 파형이 주어지게 되면, 매 1/100 초 단위로 그 시점에 있는 약 0.02초 정도 길이의 음편(音片)을 가져와서 분석하게 된다. 그 짧은 길이의 음성 파형은 여러 단계의 신호 처리를 거치게 되고 최종적으로 10개 이상의 숫자들이 나오게 되는데, 이 숫자들은 바로 그 시점에서의 성대와 성도의 상태를 나타내는 숫자들이다. 좀 더 쉽게 설명하면, 그 시점에서의 성대 진동 횟수와 입 모양을 그릴 수 있는 숫자들이다. 한편, 음성 인식 측면에서 보면, 사람은 어떠한 음높이의 ‘학교’라는 말을 들어도 모두 ‘학교’라는 언어 정보를 추출한다. 즉, 성대의 진동 주기는 언어 정보와 무관하다. 그러므로 그 숫자 중에서 성대 진동과 관련된 숫자들은 버리고 더이상 사용하지 않는다. 위의 이야기를 비유적으로 설명하면 다음과 같이 요약할 수 있다. 성문에서부터 입까지 찍는 특수한 사진기가 있다고 가정하고 그 사진기는 초당 100회 사진을 찍게 된다. 음성 인식은, 그 사진들을 시간 축으로 나열해 놓고 어떤 말일까 계산하는 과정이다.
만족스러운 답변이었나요?간단한 별점을 통해 의견을 알려주세요.