본문 바로가기
AI 인사이트/최신 AI 트렌드 리뷰

딥마인드의 멀티모달 AI Gemini 잼민이? 출시 정보 정리합니다. 이것만 보면 됨.

by AI 동키 2023. 12. 7.
반응형

2023년 12월 7일 구글의 딥마인드에서 차세대 거대언어모델 기반 인공지능 Gemini(제미나이)를 발표했습니다. 현재 ChatGPT가 LLM의 패권을 쥐고있는 상태에서 XAi, 앤트로픽, 구글 등등의 기업들이 LLM을 다급하게 소개했었습니다. 하지만 아직 ChatGPT의 주도권을 빼앗지는 못했는데요, 과연 이번 구글의 Gemini는 ChatGPT의 아성을 무너트릴 수 있을지, 백문이 불여일견. 먼저 이 영상 부터 보시는게 좋을 것 같습니다.

 

다만, 너무 놀라지 않게 조심하세요.

 

 

Deepmind Gemini의 첫인상

잼미니? 제미니? 제미나이? Gemini는 쌍둥이 자리를 뜻하는데요, 미국에서는 제미나이 라고 부르지만, 한국에서는 "제미니"라고 불러도 좋을 것 같습니다.

잘 보셨나요?

저는 아무리봐도 "저건 인공지능이 아니라 분명 성우가 영상을 보며 말하고 있는걸꺼야"라는 의심을 떨쳐낼 수가 없는데요, Gemini는 실시간 영상을 보면서 사람과 진짜 대화를 하고 있습니다. 정말 놀랍습니다..!!  ChatGPT만 하더라도 채팅 형식으로 문답을 주고 받는 정도였는데, Gemini는 실시간으로 대화를 주고받는 느낌을 주고있습니다. 

멀티모달은 이미지와 영상을 인식하는 정도로 생각했었는데요, 제미나이에서는 사람의 음성 대화를 바탕으로 적극적으로 소통하고, 보이는 사물을 실시간으로 인식합니다. 인식 뿐 아니라 추론, 정보 제공, 생각까지 하는 느낌이 듭니다. 

구글 딥마인드가 칼을 제대로 갈고 출시한 것 같습니다. 

좀 더 자세히 살펴보겠습니다. 

Gemini의 시대에 오신 것을 환영합니다.

 

제미나이의 시대에 오신것을 환영합니다. 이런 귀한걸 만들어주시고 환영해주셔서 감사합니다.

 

끊김없는 실시간 멀티모달 

유저는 오리 그림을 실시간으로 그립니다. 그걸 보는 제미나이가 말합니다.

"책상위에 종이가 있네요?"
"곡선을 그리네요?"
"새 같네요? 오리네요? 파란색은 흔치 않은데요? "

제미나이는 영상 속 상황을 지켜보며 실시간으로 계속 말합니다.

이는 기존 ChatGPT 4.0의 속도라면 말이 안되는 실시간성입니다.

 

 

컵에 구겨진 종이를 넣고 야바위를 시전합니다.

정확하게 맞추는 제미나이. 이제 인공지능이 야바위도 인식합니다.

 

 

지도를 펴서 게임을 하자고 합니다.

제미나이가 문제를 이모티콘으로 내고, 사람이 손가락으로 호주를 가르킵니다.

제미나이가 맞췄다고 체크 표시를 보여주며 "띵동" 소리를 냅니다. 

 

실시간으로 지도를 인식하고

사용자 요청 의도를 파악하여

적합한 문제를 생성하여 음성으로 출력하고

실시간 영상에 지도 위에 손가락이 가르키는 것을 인지하고

그 지도 위치가 호주라는 것을 인식한 후에

정답이라는 것을 어떤식으로 표현하면 적합할지 생각해서

"띵동" 소리의 파일을 가져와서 재생해 주는 

생각보다 굉장히 복잡한 프로세스입니다.

그걸 너무 간단하게 해냅니다. 

 

정말 대단합니다. 사람이 뒤에 있는게 아닐까 의심이 갈 정도로요.

기존의 각각의 인공지능 모듈을 연결시키는 방식으로는 이 속도와 성능이 절대 나올수 없습니다.

이제 진짜 인공지능이 나왔다는 생각이 듭니다.

 

실뭉치 두개를 보여줍니다.

"뭘 만들수 있을까?" 

이미지를 생성하는 제미나이

"문어 요렇게 만들 수 있겠는데요?"

 

오리가 어디로 가야될까?

"친구한테 가는게 좋으니 왼쪽이요. 오른쪽은 천적인 곰이 있어서 위험해요"

동의합니다. 

 

"순서가 틀렸어요. 태양 - 지구 - 목성이 맞죠!"

 

"무슨 차가 더 빠를까?"

"오른쪽이요, 왜냐면 더 공기역학적이기 때문이에요."

유체해석도 하니??

 

"기타, 드럼, 야자수가 있군요. 그럼 비치 바이브의 노래가 어울리겠어요!"

 

제미나이의 아름다움을 잘 캡쳐하셨네요.

 

영상에서 본 Gemini의 주요 기능 정리

  1. Multimodal Dialogue (멀티모달 대화)
  2. Multilinguality (다중 언어성)
  3. Game Creation (게임 창작)
  4. Visual Puzzles (시각적 퍼즐)
  5. Making Connections (연결 맺기)
  6. Image & Text Generation (이미지 및 텍스트 생성)
  7. Logic & Spatial Reasoning (논리 및 공간 추론)
  8. Translating Visuals (시각 자료 번역)
  9. Cultural Understanding (문화 이해)

 

구글에서 공개한 Gemini 소개 영상 요약

 

이 정도면 제미나이의 시대가 진짜 올 듯?

순다르 피차이(구글 대표)의 동기 : 피차이는세계의 정보를 정리하고 모든 이에게 접근 가능하고 유용하게 만드는 것이 구글의 무한한 임무라고 설명합니다. 정보의 규모와 복잡성이 증가함에 따라, 이 문제를 해결하기 위한 깊은 돌파구가 필요하다고 강조합니다.

알파고 시절의 딥마인드 대표 데미스 허사비스(Demis Hassabis)


데미스 하사비스(딥마인드 대표)의 비전 : 하사비스는 인류에게 가장 유익하고 중대한 기술이 될 것이라고 믿는 AI에 평생을 바친다고 말합니다. 그는 인간 사회가 다섯 가지 감각을 가지고 있으며, 우리가 만든 세계와 소비하는 미디어가 이러한 다양한 모달리티로 이루어져 있다고 이야기 하며 진정한 보편적 AI 모델을 향한 첫 걸음으로서 제미니 시대의 시작을 발표합니다.

 

Gemini(제미나이)의 멀티모달의 차별점

제프 딘은 제미니의 멀티모달 접근 방식이 인공 지능 시스템이 수행해야 할 모든 종류의 것들을 포함한다고 말하며, 이러한 능력은 이전의 컴퓨터에서는 존재하지 않았다고 강조합니다.


기존의 멀티모달 모델은 텍스트 전용, 비전 전용, 오디오 전용 모델을 2차 단계에서 비효율적으로 결합한 것이라고 말합니다. 제미니는 처음부터 멀티모달로 개발되어, 여러 모달리티를 거쳐 대화를 원활하게 진행하고 최상의 응답을 제공할 수 있다고 합니다.


제미니의 특징: 제미니는 구글의 가장 크고 능력 있는 모델로, 텍스트뿐만 아니라 코드, 오디오, 이미지, 비디오 등 모든 유형의 입력과 출력을 이해하고 처리할 수 있다고 설명됩니다.

 

제미나이 발표 영상에서의 데미스 허사비스

 

Gemini의 종류


제미니는 세 가지 크기(울트라, 프로, 나노)로 제공되며, 각각 복잡한 작업, 광범위한 작업, 장치 내 작업에 최적화되어 있다고 합니다.

 

Gemini의 안정성과 사회적 책임


제미니의 개발 과정에서 안전성과 책임성을 내재화하는 것이 중요하다고 강조합니다. 멀티모달 기능의 독특한 고려 사항에 맞춰 적극적인 정책을 개발하고, 식별된 해로움을 방지하기 위해 엄격한 테스트를 진행한다고 설명합니다.

제미니는 지식이 풍부한 세계를 만들고, 그렇지 않았다면 접근할 수 없었을 정보에 대한 접근을 더 많은 사람들에게 제공할 것이라고 설명됩니다.

 

지난 십년간 AI의 근본적인 돌파구에
구글이 선두에 있었으며,
제미니가 그 풍부한 전통을 이어간다고 믿습니다.
- 순다 피차이 (구글 대표이사)



 

그래서 Gemini는 GPT4 를 이겼는가? YES

 

Gemini의 모델 중 가장 강력한 성능의 Gemini Ultra를 기준으로 GPT4를 상회하는 기록을 공개했습니다. 

Gemini Ultra의 MMLU(Massive Multitask Language Understanding) 성능이 90%를 찍음.

이는 똑똑한 인간을 뛰어넘는 최초의 인공지능이라고 합니다.

일반, 추론, 수학, 코드 총 8개의 벤치마크 중 한 개를 제외하고 GPT-4를 상회함.

 

 

 

구글의 Gemini(제미나이) 출시일정. 당장 써볼 수 있나요?

 

  1. 가장 범용으로 쓰이는 제미나이 프로는 12월 6일부터 서비스인 ‘바드’에 바로 적용된다. 지금 바로 써볼 수 있다. (바드 바로가기) 다만 텍스트 모델만 적용 되었다고 한다.
  2. 가장 크고 고성능인 제미나이 울트라는 내년 초에 바드 어드밴스드 라는 이름으로 바드에 적용된다.
  3. 제미나이 나노는 스마트폰, PC 등에서 클라우드 없이 구동되는 ‘온디바이스’ 용도의 모델로 구글이 올해 10월에 공개한 최신 스마트폰인 ‘픽셀8 프로’에 탑재된다. 
  4. 공식 홈페이지에 따르면 Gemini API가 12월 13일에 공개 된다고 한다. Google AI Studio와 Google Cloud Vertext AI를 통해 Gemini 활용 어플리케이션을 만들 수 있게 된다.

 

 


최고의 인공지능 기업에서 발표한 Gemini 기대가 됩니다.

요즘 매일 같이 새로 출시되는 인공지능 전쟁으로 피로함을 느끼실 분들도 계실거에요.
우리는 한발 물러서서 이 경쟁으로 변화할 세상을 AI 동키와 함께 구경하시기를 추천 드립니다.

 

 

아래 글도 재밌으니 읽어보세요!

이제 인공지능이 PPT도 자동으로 다~작성해준답니다_Gamma App

챗GPT 1주년 축하해!! 기술 지형을 뒤흔든 변곡점! 무엇이 변했고, 우리 일자리는 무사한가?

나이트셰이드란? - 인공지능 vs 예술가, 예술가의 권리를 지키기 위한 진흙탕 싸움 (AI에게 일자리를 위협받는 디자이너, 예술가의 살 길?)

Object Detection 모델의 성능평가 방법 mAP(mean average precision) 쉽게 쉽게 알아보자

 

#구글제미나이#AI혁명#딥마인드혁신#멀티모달AI#AI진보#2023기술트렌드#머신러닝#제미나이대GPT4#인공지능#AI의래#구글대오픈AI#기술산업리더#AI경쟁#제미나이울트라#AI챗봇#기술혁신#AI안전성#MMLU벤치마크#AITechnology#AI응용

반응형

댓글