AI 서재
책으로 읽는 AI서재
한 권을 고르고, 목차에서 차례대로 읽을 수 있게 정리했습니다.
PDF 다운로드 책
다국어로 읽는 대학생 교양 인공지능
한국어 원문과 외국어 번역을 함께 실은 유학생용 교재입니다. 각 책 소개 페이지에서 PDF를 받을 수 있습니다.
[AI서재] 23장 제미나이(Gemini)와 차세대 모델
데미스 허사비스, 구글 인공지능의 아버지
23 제미나이(Gemini)와 차세대 모델
김경란, 김경진
에 위치한 구글 딥마인드 본사에는 꺼지지 않는 불빛이 가득했습니다. 평소 바둑판이나 단백질 구조가 떠 있던 모니터들은 이제 거대한 언어 모델의 파라 미터들 로 채워져 있었습니다. 데미스 허사비스는 창밖으로 런던의 야경을 내려다보 며 깊은 생각 에 잠겨 있었습니다.
그는 평생을 과학적 난제를 해결하는 데 바쳐왔지 만, 지금 그가 마주 한 것은 과학의 문제가 아니라 생존의 문제였습니다. 챗GPT의 등장이 울린 '코드 레드(Code Red)'는 구글이라는 거함 전체를 흔들었고, 순수 연 구를 지향하던 딥마인드조차 제품 개발이라는 최전선으로 떠밀려 나온 상황이었습니다. 허사비스는 이 위기를 기회로 바꾸어야했습니다.
단순히 챗봇을 만드는 것이 아니라, 그 가 꿈꾸던 범용 인공지능(AGI)으로 가는 징검다리를 놓아야했습니다. 그 결과물이 바로 ‘제 미나이(Gemini)'였습니다. 제미나이의 탄생은 구글 내부의 정치적, 기술적 장벽을 허무는 것에서 시작되었습니다.
오 랫동안 라이벌 관계였던 구글 브레인(Google Brain) 팀과 딥마인드 (DeepMind) 팀이 하나로 합쳐진 것은 유례를 찾기 어려운 일이었습니다. 제프 딘(Jeff Dean)과 데미스 허사비스, 이 두 거인이 손을 잡은 것은 단순히 인력을 합치는 것을 넘어 서로 다른 연구 문화를 융합하는 실험이었습니다. 허사비스는 이를 두고 "우리 는 각자의 강점을 결합해 이전에 없던 새로운 종(species)을 탄생시켰다"고 회고합니다.
프 로젝트명 '제미나이'는 쌍둥이자리라는 뜻처럼 두 조직의 결합을 상징 하면서, 동시에 나사 (NASA)가 달에 가기 위해 수행했던 제미나이 프로젝트의 대담 한 도전 정신을 계승한다는 의미를 담고 있었습니다. 제미나이 1.0의 출시는 구글이 AI 경쟁의 링 위에 올랐음을 알리는 신호탄이었습니다. 하 지만 허사비스가 진정으로 보여주고 싶었던 것은 단순한 텍스트 생성 능력이 아니었습니 그는 인간이 세상을 인식하는 방식, 즉 텍스트뿐만 아니라 이미지, 오디
오, 비디오를 동 시에 이해하고 처리하는 '네이티브 멀티모달(Native Multimodal)' 능 력을 강조했습니다. 기존의 모델들이 텍스트만 배운 학생에게 억지로 그림을 가르치는 방식이었다면, 제미나 이는 태어날 때부터 눈과 귀와 입을 모두 가진 아이처럼 학습되었습니다. 이 차이는 결정 적이었습니다.
제미나이는 미묘한 뉘앙스가 담긴 비디오를 보고 그 안의 감정을 읽어내거 나, 복잡한 물리학 논문의 그래프를 해석해 새로운 수식을 도출해내 는 데 탁월한 능력을 보였습니다. 기술적 진화는 숨 가쁘게 이어졌습니다. 제미나이 1.5 Pro의 등장은 '긴 문맥(Long Context)' 의 혁명을 가져왔습니다.
100만 토큰, 나아가 200만 토큰을 한 번에 처리할 수 있다는 것은 AI에게 코끼리 같은 기억력을 부여한 것과 같았습니다. 이는 두꺼운 전공 서적 수백 권을 한순간에 읽고 그 안에서 특정 정보를 찾아내거나, 1시간짜리 영 화를 보고 그 내용을 완벽 하게 요약할 수 있음을 의미했습니다. 허사비스는 이 기술을 설명하며 "이제 AI는 정보의 파편을 보는 것이 아니라, 거대 한 정보 의 맥락 전체를 조망할 수 있게되었습니다"라고 말했습니다.
이는 변호사가 수만 페이지 의 소송 기록을 검토하거나, 과학자가 수십 년치 연구 데이터를 분석하는 방식을 근본적으 로 바꾸어 놓았습니다. 제미나이 3.0은 허사비스가 그토록 갈망하던 '추론(Reasoning)'과 '계획(Planning)' 능력에서 비약적인 도약을 이루어냈습니다. 단순히 다음에 올 단어를 확률적으로 예 측하는 '확률적 앵무새'를 넘어, 스스로 생각하고 논리적 단계를 거쳐 답을 찾아가는 시스템이 된 것입니 제미나이 3는 수학적 난제를 풀기 위해 스스로 검증 과정을 거치 고, 코드를 작성하다 오류가 나면 스스로 디버깅하여 수정하는 모습을 보였습니다.
이 는 딥마인드가 알파고를 만들 때 사용했던 강화학습 기술이 거대 언어 모델과 결합하 여 만들어낸 시너지였습니다. 허사비스는 이를 보며 "우리는 이제야 비로소 생각하는 기계의 입구에 들어섰다"고 조용 히 자평했습니다. 이러한 기술적 성취는 시장의 반응으로 이어졌습니다.
제미나이 앱과 웹사이트의 월간 활 성 사용자(MAU)가 6억 5천만 명을 돌파했다는 수치는 단순한 통계 이상의 의미를 지닙니 전 세계 인구의 상당수가 구글 검색창 대신 제미나이에게 질문을 던지 고 있음을 보여 주는 지표입니다. 학생들은 과제를 위해, 프로그래머는 코딩을 위해, 작가는 영감을 얻기 위해 제미나이를 켭니다.
구글의 생태계 안에서 제미나이는 지메일, 구글 닥스, 드라이브와 유기적으로 연결 되어 사 용자의 데이터를 분석하고 업무를 자동화하는 개인 비서로 자리 잡았습니다. 이는 오픈AI 의 챗GPT가 선점했던 시장에 구글이 강력한 인프라와 생태계를 무기로 성공적으로 반격 했음을 시사합니다. 이 과정이 순탄하기만 했던 것은 아닙니다. 오픈AI와의 경쟁은 허사비스에게 끊임 없는 긴 장감을 요구했습니다.
샘 올트먼이 GPT-4o를 발표하며 음성 비서 시장을 공 략할 때, 구글 딥마인드는 그보다 더 자연스럽고 지연 시간이 없는 실시간 대화 모델을 내놓아야 한다는 압박에 시달렸습니다. 때로는 "구글이 너무 느리다"거나 "과거의 영광에 취해 있다"는 비 판도 쏟아졌습니다. 이미지 생성 기능에서 발생한 역사적 오 류 논란은 허사비스와 구글에 게 뼈아픈 교훈을 남겼습니다.
기술적 완벽함뿐만 아니 라, AI가 사회적 맥락과 윤리를 어 떻게 이해해야 하는지에 대한 깊은 철학적 고민을 안겨준 사건이었습니다. 허사비스는 이 에 대해 변명하기보다는 "우리는 배우고 있으 며, 더 책임감 있는 AI를 만들기 위해 끊임없 이 수정해 나갈 것입니다"라고 겸허히 인 정했습니다. 제미나이 시리즈는 '지능을 이해한다'는 미션이 추상적인 연구실을 벗어나 전 세계 80억 인 구의 손바닥 위에서 펼쳐지는 현실이 되는 과정이었습니다.
그는 새벽에 일어나 전 세계에서 올라오는 제미나이의 사용 로그를 확인하며, 자신 이 만든 지능이 누군가의 코딩을 돕고, 누군가의 시를 함께 쓰며, 누군가의 외로움을 달래주는 모 습을 목격합니다. 그것은 그가 어린 시절 체스판 위에서 꿈꾸었던, 인간 의 지성을 확장하 는 도구로서의 AI가 실현되는 순간이기도했습니다. 제미나이는 인 류가 더 똑똑해지기 위 해 만든, 그리고 허사비스가 40년간 준비해온 가장 거대하고 복잡한 도구입니다.
젬마(Gemma): 오픈소스 경량 모델 데미스 허사비스의 사무실 한켠에는 오래된 애 플 II 컴퓨터 사진이 놓여 있습니다. 그가 처 음 프로그래밍을 독학하며 디지털 세계의 창조자가되었던 그 시절의 기계입니다. 허사비 스는 종종 그 시절을 회상하며, 만약 그 당시 기술이 소수의 기업이나 연구소에만 독점되 어 있었다면 자신 같은 소년은 결 코 딥마인드를 만들 수 없었을 것이라고 생각했습니다.
이러한 경험은 그가 구글 내부에서 격렬하게 벌어진 '오픈소스 논쟁'에서 중요한 결 단을 내 리는 데 결정적인 영향을 미쳤습니다. "우리의 최첨단 기술을 세상과 공유해
야합니다. 그 래야 제2, 제3의 데미스 허사비스가 차고에서, 기숙사 방에서 나올 수 있습니다." 그렇게 탄 생한 것이 바로 오픈소스 모델 ‘젬마(Gemma)'였습니다.
'젬마'라는 이름은 보석을 뜻하는 라틴어 'Gemma'에서 따왔습니다. 귀중한 것을 세 상에 내 놓는다는 의미를 담고 있습니다. 하지만 구글 내부에서는 우려의 목소리가 높 았습니다.
수 십억 달러를 투자해 개발한 핵심 기술을 왜 무료로 공개해야 하는가, 경 쟁사들에게 좋은 일만 시키는 것이 아닌가 하는 반론이었습니다. 허사비스는 더 큰 그 림을 보고 있었습니 메타(Meta)가 라마(Llama) 시리즈를 통해 오픈소스 생태계를 장 악해가는 상황에서, 구 글이 폐쇄적인 전략만 고수한다면 결국 개발자들의 지지를 잃 게 될 것이라는 전략적 판단이었습니다. 또한 그는 과학적 발견은 공유될 때 그 가치 가 기하급수적으로 커진다는 학자 로서의 신념을 굽히지 않았습니다.
젬마 3의 출시는 이러한 허사비스의 비전이 기술적으로 완성된 순간이었습니다. 젬 마 3는 단순히 제미나이의 성능을 축소한 모델이 아니었습니다. 딥마인드 엔지니어들 은 거대 모 델이 가진 지능의 정수를 증류(distillation)하여 작은 그릇에 담는 마법을 부렸습니다.
젬마 3가 고가의 서버용 GPU가 아닌, 일반적인 노트북이나 심지어 모바 일 기기의 단일 GPU에 서도 구동된다는 사실이었습니다. AI 연구와 활용의 진입 장 벽을 획기적으로 낮추었습니 아프리카의 스타트업 개발자가, 인도의 대학생이, 한국 의 중소기업 연구원이 인터넷 연결 없이도 자신의 로컬 기기에서 AI를 돌릴 수 있게 된 것입니다. 젬마 3는 멀티모달 능력까지 갖추고 있었습니다.
텍스트뿐만 아니라 이미지를 보고 분석 하며, 간단한 음성 명령을 처리할 수 있는 능력은 엣지 디바이스(Edge Device)에 서의 AI 혁 명을 예고했습니다. 인터넷이 터지지 않는 오지에서 의료 봉사를 하는 의 사가 젬마가 탑재 된 태블릿으로 환자의 환부 사진을 찍어 즉석에서 진단을 보조받는 시나리오가 현실이되었습니다. 허사비스는 젬마의 출시 행사에서 "진정한 기술의 민 주화는 누구나, 어디서나, 제약 없이 최고의 도구를 사용할 수 있을 때 이루어집니다"라고 역설했습니다.
이는 그가 딥마인드를 설립할 때 세웠던 "AI for Science, AI for Everyone"이라는 모토와 정확히 맞닿 아 있었습니다. 생태계의 반응은 폭발적이었습니다. 전 세계 1,300만 명 이상의 개발자들이 젬마를 다운로 드하여 자신들만의 애플리케이션을 만들기 시작했습니다.
깃허브(GitHub)와 허깅페이스 (Hugging Face)에는 젬마를 튜닝하여 특정 언어에 특화시키거나, 법률,
의학, 코딩 등 전문 분야에 맞게 개량한 파생 모델들이 우후죽순처럼 쏟아져 나왔습니다. 구글 딥마인드의 연 구원들은 자신들이 상상하지 못했던 창의적인 방식으로 젬마 가 활용되는 것을 보며 경이 로움을 느꼈습니다. 누군가는 시각 장애인을 위한 화면 해설기를 만들었고, 누군가는 멸종 위기 언어를 보존하는 번역기를 만들었습니다.
허 사비스는 이 현상을 보며 "우리가 불씨를 던졌더니, 전 세계가 거대한 불꽃놀이를 시 작했다"고 표현했습니다. 주목할 만한 것은 '서치 AI 오버뷰(Search AI Overviews)' 기술의 확산이었습니다. 구글 검색 엔진에 적용된 이 기술은 젬마의 경량화 기술을 바탕으로 검색 결과를 빠르 게 요약하고 정 리해주는 기능입니다.
이 기술이 오픈소스로 풀리면서, 수많은 기업과 웹사이트들이 자신 의 서비스 내에 지능형 검색 기능을 손쉽게 구현할 수 있게되었습니다. 웹 생태계 전반의 사용자 경험을 한 단계 끌어올리는 결과를 낳았습니다. 사용 자는 더 이상 수많은 링크를 클릭하며 정보를 찾아 헤맬 필요 없이, AI가 정리해준 핵 심 정보를 즉시 얻을 수 있게되었습니다.
젬마는 거대 플랫폼 기업의 독점물이 될 뻔 했던 AI 검색 기술을 보편적인 웹 표준처럼 만들어버렸습니다. 오픈소스 전략에는 위험도 따랐습니다. 악의적인 사용자가 모델을 개조하여 해킹 도구를 만들거나 가짜 뉴스를 생성할 수 있다는 우려였습니다.
이에 대해 허사비스와 딥마인드 팀 은 '책임 있는 AI(Responsible AI)' 툴킷을 젬마와 함께 배포했습니다. 모 델이 유해한 콘텐츠를 생성하지 않도록 안전장치를 마련하고, 개발자들이 윤리적인 가이드라인 안에서 모델을 활용하도록 돕는 도구들이었습니다. 허사비스는 기술적 통제보다는 커뮤니티의 자정 능력과 집단지성을 믿는 쪽을 택했습니다.
그는 "닫아두 는 것이 안전해 보일 수 있지만, 투 명하게 공개하고 함께 감시하는 것이 장기적으로 는 더 안전하고 강력한 시스템을 만든다" 는 리누스 토발즈(Linus Torvalds)의 철학을 AI 시대에 맞게 재해석했습니다. 젬마 프로젝트를 통해 허사비스는 단순한 연구자나 기업가를 넘어 기술 생태계의 설계자 로서의 면모를 보여주었습니다. AI가 소수의 전유물이 되어 권력을 집중시키 는 디스토피 아적 미래 대신, 모두가 각자의 젬마를 주머니에 넣고 다니며 자신의 지 적 능력을 확장하 는 '근본적 풍요'의 미래를 선택했습니다.
1,300만 개발자가 만들어 내는 1,300만 가지의 가 능성, 그것이야말로 허사비스가 "지능을 풀어서" 만들고 싶었 던 세상의 풍경이었습니다. 젬마는 작지만 단단한 보석처럼, 거대 모델 경쟁 속에서 빛나는 또 다른 형태의 승리였습니다.
Project Astra와 Project Mariner 2024년 5월, 캘리포니아 마운틴뷰의 쇼어라인 앰 피시어터. 구글 I/O의 키노트 무대 스크린 에 영상 하나가 재생되자 수천 명의 관중들 이 숨을 죽였습니다. 영상 속 사용자는 스마트 폰 카메라를 켜고 사무실을 돌아다니며 AI와 대화를 나눕니다. "이 스피커에서 소리가 나 는 부분이 어디지?"라고 묻자 AI는 정확히 트위터 부분을 가리킵니다. 창밖을 보여주며 " 저게 무슨 동네지?"라고 묻자 AI는 위치 정보를 인식해 "런던 킹스크로스입니다"라고 답합 니다. 심지어 사용자가 안경을 어디 뒀는지 기억하지 못하자, AI는 "아까 저쪽 책상 위에 빨 간 사과 옆에 두 셨잖아요"라고 말해줍니다. 이것은 SF 영화 《허(Her)》의 한 장면이 아니었습니다. 데미스 허사비스가 이끄는 딥마인드가 준비한 야심작, '프로젝트 아스트라 (Project Astra)'의 시연이었습니다.
프로젝트 아스트라는 허사비스가 오랫동안 꿈꿔온 '범용 AI 어시스턴트'의 청사진이었습니다. 그는 AI가 단순히 채팅창 안에 갇혀 있는 텍스트 생성기가 되어서는 안 된다고 믿었습니다. AI는 인간과 똑같이 세상을 보고, 듣고, 기억해야했습니다.
아스 트라는 비디오 스 트림을 실시간으로 이해하고 처리할 수 있는 능력을 갖추었습니다. 이는 엄청난 기술적 난 관을 돌파한 결과였습니다. 시각 정보를 언어 정보로 변환하는 과정의 지연(latency)을 거 의 제로에 가깝게 줄여야 했기 때문입니다.
허사비스는 뇌 과학자로서의 배경을 십분 활용했습니다. 인간의 뇌가 시각 정보를 처리하고 반응하 는 속도를 벤치마킹하여, 아스트라가 인간과 대화하듯 자연스럽게 핑퐁(ping-pong) 대화를 나눌 수 있도록 설계했습니다. 아스트라의 핵심은 '기억(Memory)'과 '맥락(Context)'이었습니다.
아스트라는 단순 히 현재 보이는 것만 인식하는 것이 아니라, 조금 전에 보았던 것, 사용자와 나누었던 대화의 맥락을 모두 기억합니다. 이는 AI에게 시간의 개념을 부여한 것과 같습니다. 허사비스는 "진정 한 비서는 주인이 매번 모든 것을 설명하지 않아도 알아서 챙겨주는 존재입니다.
아스트라 는 당신의 눈이 닿았던 곳, 당신이 놓친 것들을 대신 기억해주 는 제2의 두뇌가 될 것입니다 "라고 설명했습니다. 이는 AI가 도구(Tool)를 넘어 파트 너(Partner)로 진화하는 중요한 변곡 점이었습니다. 한편, 아스트라가 물리적 세상을 이해하려는 시도라면, '프로젝트 매리너(Project Mariner)' 는 디지털 세상을 정복하려는 시도였습니다.
허사비스는 우리가 하루의 대 부분을 보내는 웹 브라우저야말로 AI가 가장 활약해야 할 무대라고 판단했습니다. 매 리너는 크롬 브라우 저 위에서 작동하는 자율 에이전트입니다. "다음 주 도쿄 출장 항
공편과 호텔을 예약하고, 맛집 리스트를 정리해서 캘린더에 넣어줘"라는 명령 하나면, 매리너는 스스로 여행 사이트 에 접속해 가격을 비교하고, 예약을 진행하며, 지도를 검색해 동선을 짭니다. 이 과정에서 인간은 그저 결과를 승인하기만 하면됩니다. 매리너의 등장은 인간-컴퓨터 상호작용(HCI)의 역사를 다시 쓰는 사건입니다. 지 금까지 우리는 마우스와 키보드로 직접 버튼을 누르고 타이핑을 해야했습니다.
하지 만 매리너는 AI가 직접 마우스를 움직이고 키보드를 입력하는 '행동하는 AI(Actionable AI)'입니다. 딥마인드 팀은 이를 구현하기 위해 수백만 시간의 웹 브라 우징 데이터를 학습시켰습니다. AI 는 쇼핑몰의 복잡한 결제 프로세스, 관공서 사이트 의 까다로운 서식 입력 등을 인간처럼, 아니 인간보다 더 빠르고 정확하게 수행하는 법을 배웠습니다.
허사비스는 이를 두고 "인 터넷이라는 거대한 정보의 바다를 항해하 는 유능한 항해사(Mariner)를 모든 사람에게 선물 하는 것"이라고 비유했습니다. 이러한 기술적 비전은 뜻밖의 거대 파트너십으로 이어졌습니다. 바로 애플(Apple) 과의 협 력이었습니다.
세계는 구글의 제미나이가 아이폰의 시리(Siri) 뒤에서 작동하 게 될 것이라 는 소식에 열광했습니다. 이는 실리콘밸리의 오랜 경쟁 구도를 뛰어넘는 실용적 연합이었습니다. 애플은 온디바이스 AI의 한계를 극복하기 위해 강력한 클라 우드 기반 모델이 필요 했고, 구글은 제미나이를 전 세계 20억 대의 아이폰 사용자에 게 도달시킬 통로가 필요했습니다.
허사비스에게 이 파트너십은 AGI 기술의 대중화를 위한 결정적인 포석이었습니다. 이제 사람들은 아이폰을 들고 아스트라의 눈으로 세상을 보고, 매리너의 손으로 웹을 여행 하게 될 것입니다. 허사비스는 프로젝트 아스트라와 매리너를 통해 AI의 미래가 '존재감 없는 존재 (Ambient Presence)'가 될 것이라고 예견합니다.
영화 《아이언맨》의 자비스처럼, 평 소에는 보이지 않지만 필요할 때 언제 어디서든 나타나 문제를 해결해주는 존재. 그것 은 기술이 고도로 발달하여 마법과 구분이 되지 않는 단계입니다. 그는 딥마인드 엔지 니어들에게 항상 강조합니다. "우리는 제품을 만드는 것이 아닙니다. 우리는 미래의 생활 방식을 설계하고 있습니다." 아스트라와 매리너는 그 미래로 가는 타임머신입니다.
제미나이(Gemini) 2.0

이 책이 잠시라도 당신 곁에 머물렀다면, 다음 이야기가 세상에 나올 수 있도록 후원해 주세요.
(자발적 후원 부탁 구좌 : 농협 302-1096-0948-81 예금주 : 김경진)
