default_top_notch
default_news_top
default_news_ad1
default_nd_ad1

3D 가상 환경을 위한 구글 딥마인드의 범용 AI 에이전트 '시마'는 무엇일까?

기사승인 2024.09.01  23:48:30

공유
default_news_ad2

- 4GAMER, 편집부

일본의 요코하마 파시피코에서 지난 8월 21일, 게임 개발자를 위한 컨퍼런스인 'CEDEC 2024'가 개최됐다. 이 자리에서 구글은 'SIMA: 비디오 게임으로 일반 AI 에이전트 개발' 강연을 진행했다. 

이 세션에서는 알렉산더 무파렉 (AI R&D Strategy, Google DeepMind 소속) 구글 강연자가 '구글 딥마인드'(Google DeepMind)의 3D 가상 환경을 위한 범용 AI 에이전트 '시마'(SIMA)에 대해 설명했다. (Scalable Instructable Multiworld Agent), 게임을 활용한 훈련 방법, 연구를 통해 얻은 교훈과 도전, 향후 프로젝트 방향 등을 담당하고 있으며, 회사의 기술전략/AI R&D 데이터 전략 부문을 이끌고 있다. 


■ Google DeepMind와 게임 DNA

무파렉은 구글 딥마인드의 사명이 "인류에게 도움이 되는 책임감 있는 AI를 만드는 것"이라고 설명했다. 즉 AGI(Artificial General Intelligence)를 개발하여 현실 세계의 문제에 대한 안전한 해결책으로 유용하게 만드는 것이라고 설명하면서, 자신이 거의 15년 동안 이 일을 해왔다고 소개했다.

그는 아타리의 보드게임과 간단한 게임을 개발하기 시작했으며, 결국 신경 과학과 뇌 작동 방식에 대한 이해에서 영감을 받아 강화 학습 알고리즘을 개발했다.

이번 프로젝트를 통해 얻은 지식을 적용하고 연구를 진행한 결과, 자사의 AI 모델인 '알파프루프(AlphaProof)'와 '알파지오메트리2(AlphaGeometry 2)'를 결합해 2024년 개최되는 국제수학올림픽에서 은메달을 획득하는 성과를 거뒀다.

이 같은 결과가 구글의 생성형 AI '제미니(Gemini)'에도 활용되고 있다는 점도 언급됐다.

자신과 Google DeepMind의 CEO Demis Hassabis를 포함한 대부분의 '시마' 구성원은 전직 게임 개발자이기 때문에 '시마'의 연구에 게임을 사용했다. 그는 "게임은 우리의 DNA에 새겨져 있다"라고 말했다. 그는 또한 '시마'의 연구와 게임 개발은 사람들이 생각하는 것보다 더 많은 공통점을 가지고 있다고 말한다.

무파렉은 자신이 어떻게 연구와 게임 개발을 진행해 왔는지 다음과 같이 설명했다. 즉, "가설을 세우고 시행착오를 겪는다면" 결국 "잠재력이 큰 중요한 부분을 발견"할 수 있다고 전한다. 그러나 "어느 시점이 되면 그 조각은 기능을 멈추고, 우리는 왜 그것이 작동했는지, 심지어 애초에 작동했는지조차 알지 못한다"라고 말했다. 특히 거기서부터 "작동하지 않는 모든 방법을 발견하는 길고 반복적이며, 까다로운 과정으로 들어가지만 초기 가설에 대한 많은 인내심, 자원, 신뢰와 끈기가 있다면 해결책을 찾을 수 있다"라고, 거기에서 모든 것이 가속화되고 잘 맞물린다고 설명했다.

 

■ 게임을 활용한 AI 연구의 역사

무파렉은 게임이 오랫동안 AI 연구의 발전에 기여해 왔으며, 앞으로도 계속해서 원동력이 될 것이라고 말한다. 구체적으로 이 게임은 AI 연구를 위한 "대화로 학습할 수 있는 풍부하고 역동적이며 복잡한 환경", "확장 가능하고 재현 가능한 실험", "통제되고 안전한 테스트"를 제공할 것이라고 전했다. 

상호작용하고 학습할 수 있는 풍부하고 역동적이며, 복잡한 환경 측면에서는 가상공간에서 움직이는 퍼즐 풀기, 상대에 대한 전략 수립, 변화하는 상황에 적응하기 등 게임에 제시된 과제들이 AI 모델이 현실 세계의 다양한 상황에 적응할 수 있는 고도의 문제 해결 능력과 의사결정 능력을 개발하는 데 도움이 될 것이라고 설명했다.

확장 가능하고 재현 가능한 실험의 관점에서 연구원들은 게임 환경의 인스턴스를 쉽게 생성하고, 많은 시뮬레이션을 동시에 실행한다. 수집할 수 있는 방대한 양의 데이터를 사용하여 AI 모델을 훈련하고 평가할 수 있다. 또한, 실험을 일관되게 복제할 수 있기 때문에 연구 결과의 신뢰성과 타당성이 보장된다.

통제된 안전한 테스트의 경우, 가상 공간의 다양한 상황에서 AI 모델의 성능을 평가함으로써 잠재적인 결함이나 한계를 파악한다. 실제 환경에서 테스트할 때 발생하는 위험 없이 알고리즘을 개선할 수 있다는 점을 보여줬다. 이는 특히 오류가 심각한 결과를 초래할 수 있는 자율주행이나 의료 진단과 같은 앱에 특히 중요하다고 한다.

2010년에서 2024년 사이 강화 학습과 딥러닝이 비약적으로 발전한 가운데, 게임을 통한 인공지능 연구가 실제로 발전한 사례도 있다. 2010년대 전반기, 구글 딥마인드(Google DeepMind)는 아타리와 'DQN'(Deep Q-Network)을 위한 게임을 활용한 알고리즘 개발에 도전했다. 그 결과, 50개 이상의 아타리 게임에서 초인적인 성능을 발휘하는 알고리즘이 완성되었다.

2010년대 중후반 마이크로소프트는 '마인크래프트(Minecraft)'를 활용한 AI 훈련 프로젝트 '프로젝트 말모(Project Malmo)'를 개발했다. 또한 OpenAI의 AI 학습 플랫폼 '유니버스'(Universe)는 매우 일반적인 UI를 가지고 있어 연구를 위해 게임을 확장할 수 있다.

2020년대 후반에는 '도타 2'의 인공지능 시스템 '오픈AI 파이브'가 등장했고, '스타크래프트 II'에는 딥마인드가 개발한 인공지능 에이전트 '알파스타'가 출시됐다. AI는 최고의 플레이어를 이기는 것과 같은 복잡한 게임에 사용되게 되었다. 무파렉은 이 기간 동안 맞춤형 액션 공간이 있는 단일 환경에 집중했으며, 게임의 소스 코드를 변경하고 AI 에이전트를 위한 특수 API를 구현하여 맞춤형 연구 플랫폼을 만들었다고 설명했다.

2017년 구글은 AI의 다양성을 확장하고 챗봇을 통해 대규모 언어 모델(LLM)을 사용하여 대화 문장을 요약하여, 시를 쓰고, 데이터를 분석할 수 있는 트랜스포머(Transformer)라는 머신러닝 모델을 발표했다. 좀 더 일반화하면 이미지, 오디오 및 비디오도 AI에 의해 생성될 수 있다.

그러나 무파렉은 이러한 대규모 AI 모델의 한계를 지적한다. 즉, 대규모 AI 모델은 물리성이 없기 때문에 디지털 영역에만 있을 뿐 물리적 영역에서는 작동할 수 없다. 따라서 인공지능을 물리 영역에서 활용하기 위해서는 소프트뱅크의 '페퍼'나 웨이모의 자율주행차 등 물리 센서를 통해 물리성을 부여할 필요가 있다.


■ AI 연구의 다음 장: SIMA

무파렉에 따르면 앞서 언급한 AI 모델의 한계라는 도전을 극복하기 위해 딥마인드는 '시마'에 대한 연구를 진행했다. '언어에 의해 조절되는 AI 에이전트 개발', 즉 자율적으로 게임을 플레이하는 것뿐만 아니라 자연어를 이용해 인간에게 '당신이 원하는 것'을 알려주어 실행할 수 있는 AI 에이전트를 실현하는 것이 목표이다.

이 목표를 달성하기 위해 개발된 가설은 AI 에이전트가 한 환경에서 무언가를 학습하고 그 기술을 사용하여 다른 환경에서 무언가를 할 수 있다면 AI가 더 일반화될 것이라는 것이다. 즉, 각 게임 타이틀에 대해 전담 AI 에이전트를 준비하는 대신, 인간이 새로운 게임을 접할 때 단일 AI 에이전트가 플레이하고 있는 게임의 캐릭터와 카메라 작동을 인계받을 수 있다.

이를 위해 딥마인드는 여러 게임 회사와 파트너십을 맺고, 학습용 AI 에이전트 포트폴리오를 만들었다. 구체적으로 말하자 '노 맨즈 스카이', '발하임', '테어다운', '고트 시뮬레이터'와 같은 인간의 게임 플레이는 AI 에이전트에 의해 기록되고 훈련되었다. 또한, 텍스트 기반 지침을 제공함으로써 '시마'를 실현했다.

 

■ 'SIMA' 교육

그는 또한 '시마' 학습 파이프라인을 구축한 방법을 소개했다. 그에 따르면 '시마'는 초기에 게임 및 연구 환경을 온보딩함으로써 소스 코드나 특수 API에 액세스하지 않고도 인간처럼 게임을 할 수 있다.

또한, 게임의 온보딩 및 연구 환경은 게임 개발자의 협력으로 이루어진다. 이는 '시마' 프로젝트에서 사용되는 게임 및 데이터 처리 방법에 대한 책임이 누구에게 있는지 명확히 하기 위한 것이다.

무파렉에 따르면, '시마' 프로젝트는 다양하고 비폭력적인 학습 포트폴리오를 필요로 했다. 이러한 이유로 우리는 시각적으로 자연스럽고, 산업적이고, 사실적이며, 공상 과학, 1인칭 및 3인칭 시점과 같은 다양한 게임 타이틀을 선택했다. 또한, 오픈 월드 및 샌드박스 요소도 통합되어 '시마'가 복잡한 메커니즘을 통해 다양한 작업을 수행할 수 있었다.

'시마'의 인터페이스는 범용을 사용하지만 범용의 AI 에이전트를 구현하기 위한 것이었다고 한다. '시마'는 먼저 자연어 텍스트로 인간으로부터 목표와 지시를 받아 실시간으로 인식한다. 그런 다음 인간과 마찬가지로 컨트롤러, 키보드 및 마우스를 사용하여 게임을 한다.

무파렉은 이러한 일반 인터페이스를 사용하여 '시마'를 사용자 정의 없이 모든 게임에 통합할 수 있다고 설명했다.

또한, '시마' 교육 데이터를 생성하기 위해 두 가지 방법이 사용되었다. 첫 번째 시나리오에서는 인간 플레이어가 게임을 플레이하고, 비디오를 시청하고, 자연어로 지시에 주석을 달 수 있다.

두 번째는 쌍으로 한 사람이 자연어로 지시를 내리고, 다른 사람이 지시를 따르는 다음 게임 비디오를 찍고 주석을 다는 것이다. 여기에 키보드 및 마우스와 같은 작업 데이터를 추가하는 것이 '시마' 데이터 세트이다.

이러한 데이터 세트에는 게임에서 '개체 만들기' 및 '자동차 운전'과 같은 '시마' 게임 플레이에 필요한 기술이 포함된다. 모든 타이틀에 대해 이러한 모든 기술을 수집 한 결과 총 수는 엄청나지만 '시마' 프로젝트에는 여전히 충분하지 않다.

무파렉은 데이터와 주석의 품질이 높을수록 '시마'를 개선하는 데 더 도움이 될 것이며, 계속 그렇게 할 것이라고 말했다.

데이터 세트가 준비되면 '시마' 학습 교육을 시작할 차례이다. 여기에서는 인간의 놀이를 모방하여 학습하는 '조건부 행동 복제'를 사용한다.

핵심은 개발 당시에는 Gemini(구글 생성형 인공지능 AI)가 아직 존재하지 않았다는 것이 밝혀졌기 때문에 CFG(Classifier-Free Guidance)를 사용하여 학생들이 시각적 입력보다 언어 지침을 우선시하도록 교육하고, 자연어를 잘 이해하도록 돕는다는 것을 알게 되었다.

'시마'에 의해 생성된 결과를 평가하는 단계에서 다양한 작업의 성능을 측정하기 위해 챌린지 세트가 만들어졌다. 작업에는 세 가지 요소가 있다.  첫 번째는 '시마'가 행동을 시작하는 "초기 상태"이고, 두 번째는 '시마'가 따라야하는 "목표 및 지침"이며, 세 번째는 작업이 달성되었는지를 결정하는 "성공 기준"이다.

또한 '시마'는 작업이 성공적으로 완료되었는지, 프로그래밍 방식으로 확인하는 'Ground Truth'(실제 값), 화면의 텍스트를 변경하여 수행된 작업에 대한 피드백을 제공하는 'OCR(Optical Character Recognition)', 사람이 비디오를 확인하고 작업이 성공적으로 완료되었는지를 확인하는 'Human Evaluation'(인간의 평가)의 세 가지 관점에서 평가된다고 소개했다.


■ 초기 SIMA 연구 결과 및이 접근법의 한계

프로젝트에 대한 초기 연구에 따르면 '시마'는 "앞으로 이동" 및 "메뉴 열기"와 같은 다양한 게임에서 수행할 수 있는 작업을 완료할 수 있었다.

그들은 또한 '노 맨즈 스카이'에서 우주선을 이륙하거나 '테어다운'에서 보트를 조종하는 것과 같이 게임마다 다른 의미를 가질 수 있는 작업을 성공적으로 완료할 수 있었다.

한편, 각 게임에 특화된 과제를 완수할 수 있었는지는 별도로 준비된 세 가지 방법으로 평가했다.

첫 번째는 단일 게임의 데이터로 훈련되어 동일한 환경에서 평가되는 '스페셜 리스트'로, 이를 100% 성능으로 평가하기 위한 기준으로 사용된다.

두 번째는 10개 게임의 데이터를 학습시킨 후 그 중 하나의 게임 환경에서 테스트하고 평가하는 '시마'이다.

세 번째는 10개 타이틀 중 9개 타이틀의 데이터를 트레이닝하고, 나머지 1개 타이틀의 게임 환경에서 테스트 평가하는 '제로샷(Zero-Shot)'이다.

결과적으로 '시마'는 10개의 타이틀을 모두 훈련할 때 Specialist보다 더 나은 성과를 거두었고, 제로 샷은 스페셜 리스트에 더 가까운 성과를 거두었다.

즉, 무파렉은 "AI 에이전트가 한 환경에서 무언가를 학습하고 그 기술을 사용하여 다른 환경에서 무언가를 할 수 있다"라는 것을 확인할 수 있었기 때문에 매우 만족스러웠다고 전했다.

그러나 이 프로젝트의 목표는 언어에 의해 조건화된 AI 에이전트를 개발하는 것이다. 따라서 자연어 주석 없이 훈련을 수행하고 테스트했을 때 '시마'의 성능이 크게 저하되었다.

처음으로, 많은 수의 대규모 환경에서 단일 에이전트를 훈련시키면 학습과 일반화가 전달된다는 가설이 성립되었다.

각 타이틀에서 '시마'의 성능도 표시되었다. 무파렉에 따르면 각 직함에 대한 일반화의 차이는 작업을 수행하는 데 필요한 고유 한 지식의 양의 차이에 있다.

'시마'에 CFG 명령을 추가하면 그렇지 않은 경우보다 성능이 향상된다. 그러나 특정 임계값을 초과하면 성능이 저하된다

이러한 결과를 바탕으로 무파렉은 "'시마'는 정말 큰 성공을 거두었지만 완벽함과는 거리가 멀다"라고 말한다. 이는 과제의 완료율이 환경에 크게 의존하고 인간의 놀이와 전혀 비교할 수 없기 때문이다.

그러나 그는 이것이 앞으로 '시마'의 연구를 주도하는 것이라고 말했다.

 

■ 다음 단계

마지막으로 무파렉은 '시마' 프로젝트의 미래 개발에 대해 발표했다. 차세대 시뮬레이션 기반 AI 에이전트 연구가 될 것이다. 이는 오랜 세월에 걸쳐 진행되어 온 게임을 활용한 AI 연구의 기반이며, 아직 해야 할 일이 많다고 강조했다. 

지금까지 AI 에이전트를 훈련시켜 성능을 향상시키는 방법을 연구해 왔지만, 예를 들어 '스타크래프트 II'의 업데이트로 인해 AlphaStar의 성능이 저하되었다.

무파렉은 "게임이 업데이트될 때마다 AI 에이전트가 재훈련하는 것은 현실적이지 않다"며 "'시마'를 더욱 일반화하면 게임에 새로운 기능이 추가되더라도 AI 에이전트가 더 나은 성능을 발휘할 수 있을 것"이라고 덧붙였다.

또한 '시마'는 "장작 모으기" 및 "불에 장작을 놓기"와 같이 단기간에 완료할 수 있는 작업에 능숙하지만 "집 짓기"와 같이 계획, 여러 단계 및 추론이 필요한 작업은 반드시 그렇지 않다고 한다. 

그러나 이제 Gemini는 "집을 짓는 것"이라는 장기 작업을 단기 작업으로 나누어 '시마'에 넘기는 등 '시마'의 강력한 지원군이 되고 있는 것 같다고 설명했다.

무파렉은 '시마' 프로젝트가 매우 흥미롭고 다재다능하지만 아직 완전한 범용 AI 에이전트가 되지는 못했다고 거듭 강조하면서 "조금만 더 혁신하면 어떤 작업도 수행할 수 있을 것이고 그 이상으로 확장할 수 있을 것"이라고 말했다.

 

김태만 기자 ktman21c@gamevu.co.kr

<저작권자 © 게임뷰 무단전재 및 재배포금지>
default_news_ad5
default_side_ad1
default_nd_ad2
default_side_ad2

게임 리뷰

1 2 3
set_P1

인기기사

최신소식

default_side_ad3
default_side_ad4
default_nd_ad6
default_news_bottom
default_nd_ad4
default_bottom
#top
default_bottom_notch