아하
학문
탈퇴한 사용자
탈퇴한 사용자
22.12.27

휴대폰에 음성인식의 원리가 긍금합니다

음성으로 몬에 지시를 내리면, 바로 알아듣는 원리가 무엇이지요

말을 비슷하게 하여도 알아듣는 원리가 무엇인지요?

특히 사람의 말소리에 대한 인지능력이궁금해요.

55글자 더 채워주세요.
3개의 답변이 있어요!
  • 고운푸들16
    고운푸들16
    22.12.27

    안녕하세요. 류경범 과학전문가입니다.

    보통 음성인식은 음성파형분석을 이용합니다.

    보통 음성인식은 1/1000초 단위로 약 0.02초 길이의 음편을 잘라 분석하게 됩니다.

    그리고 이렇게 분석한 것으로 성대와 성도의 상태를 인지하여 프로그램의 DB에서 해당 파형에 맞는 언어를 찾아내는 것이죠.

    예를 들어 '가방'이라는 단어를 말한다면 0.02초의 간격으로 'ㄱ ㅏ ㅂ ㅏ ㅇ'의 순서로 파형이 발생하고 이것을 인지하는 것입니다.

    이 때문에 사투리의 파형 등 다양한 언어습관에 따른 DB를 축적할 수록 정확한 음성인식이 가능해집니다.

  • 안녕하세요. 휴대폰에도 인공지능 기능들이 추가가 되고 있습니다. 음성인식도 자연어처리의 한 분야로써 많이 연구되고 있습니다. 많은 데이터로 학습되어진 효과라고 볼 수 있습니다.

  • 안녕하세요. 김계민 과학전문가입니다.

    음성 인식기는 음성 파형이 주어지게 되면, 매 1/100 초 단위로 그 시점에 있는 약 0.02초 정도 길이의 음편(音片)을 가져와서 분석하게 된다. 그 짧은 길이의 음성 파형은 여러 단계의 신호 처리를 거치게 되고 최종적으로 10개 이상의 숫자들이 나오게 되는데, 이 숫자들은 바로 그 시점에서의 성대와 성도의 상태를 나타내는 숫자들이다. 좀 더 쉽게 설명하면, 그 시점에서의 성대 진동 횟수와 입 모양을 그릴 수 있는 숫자들이다. 한편, 음성 인식 측면에서 보면, 사람은 어떠한 음높이의 ‘학교’라는 말을 들어도 모두 ‘학교’라는 언어 정보를 추출한다. 즉, 성대의 진동 주기는 언어 정보와 무관하다. 그러므로 그 숫자 중에서 성대 진동과 관련된 숫자들은 버리고 더이상 사용하지 않는다. 위의 이야기를 비유적으로 설명하면 다음과 같이 요약할 수 있다. 성문에서부터 입까지 찍는 특수한 사진기가 있다고 가정하고 그 사진기는 초당 100회 사진을 찍게 된다. 음성 인식은, 그 사진들을 시간 축으로 나열해 놓고 어떤 말일까 계산하는 과정이다.