구글의 인공지능 제미나이가 멀티모달 설계라는데 이게 뭔가요?

구글의 인공지능 모델인 제미니, 또는 제미나이가 발표되면서

구글이 내세우는게 멀티모달 기능이라고 하던데

이 멀티모달 기능 또는 설계 라는게 어떤 개념인가요?

왜 메인으로 내세울정도로 중요한 것인가요?

    2개의 답변이 있어요!

    • 안녕하세요. 서종현 전문가입니다.

      구글 제미나이의 멀티모달 설계란, 인공지능이 여러 종류의 정보를 동시에 이해하고 처리하는 능력을 말합니다.

      예를 들어, 텍스트와 이미지, 음성 등 다양한 형태의 데이터를 한 모델에서 함께 인식하고 분석할수있습니다. 기존 AI가 주로 한가지 유형의 데이터만 다루던 것과 달리, 멀티모달 AI는 다채로운 정보를 복합적으로 받아들이기에 더 풍부하고 정확한 판단이 가능합니다.

      구글이 멀티모달 기능을 메인으로 내세우는 이유는, 이렇게 다양한 데이터를 종합해 사람과 더 자연스럽고 유연한 소통이 가능해지고, 실생활에서 활용도와 응용 범위가 크게 확대되기 때문입니다. 예를 들어, 사진속 상황에 대해질문하고 답변받는것이나 음성 명령과 시각 정보를 동시에 처리하는 기능 등이 멀티 모달 AI의 대표적 장점입니다.

      이기술은 AI가 인간처럼 다양한 감각과 정보를 종합해 이해하는데 필수적이라 앞으로 AI발전의 중요한 축으로 여겨집니다.

    • 안녕하세요. 송종민 과학전문가입니다.

      구글은 6일(현지시간) AI의 기반이 되는 LLM '제미나이'(Gemini)를 공개했다.


      제미나이는 오픈AI의 챗GPT의 LLM인 'GPT'와 같은 AI 모델로, 오픈AI의 최신 모델인 'GPT-4'보다 성능이 우수하다고 구글은 밝혔다.


      이미지를 인식하고 음성으로 말하거나 들을 수 있으며 코딩 능력까지 갖춘 '멀티모달 AI'로 만들어졌다. 멀티모달은 다양한 모드 즉 시각, 청각 등을 활용해 텍스트 뿐만 아니라 이미지, 음성, 영상 등으로 상호작용하는 것을 말한다.


      또 제미나이는 수학 문제를 풀거나 데이터를 분석하는 추론 능력도 갖췄다.


      이 LLM은 머신 러닝(기계학습·인간의 학습능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술)의 규모에 따라 울트라(Ultra)와 프로(Pro), 나노(Nano) 등 3개 모델로 출시된다.


      가장 범용으로 쓰이는 '제미나이 프로'는 이날부터 구글의 AI 챗봇 서비스인 '바드'에 탑재된다. 바드에는 지금까지 팜2(PaLM2)가 탑재돼 왔다.


      제미나이 프로가 적용된 바드는 170개 이상 국가 및 지역에서 영어로 제공되며, 향후 서비스 확장 및 새로운 지역과 언어도 지원될 예정이다.