2010년대 이후: 알파고, Transformer, 생성형 AI

알파고 쇼크: 바둑이 상징이었던 ‘직관’까지 뚫다

2016년, 구글 딥마인드의 알파고(AlphaGo)는 이세돌 9단과의 다섯 번기 대국에서 4대 1로 승리하며 전 세계의 주목을 받았습니다. 이 대국은 체스에 이어 바둑까지 인공지능이 인간 정상급 기사를 넘어설 수 있다는 사실을 상징적으로 보여준 사건이었습니다.

알파고의 핵심은 두 가지였습니다. 첫째, 딥러닝 기반 정책 네트워크와 가치 네트워크로 수많은 수를 평가해 나가는 능력, 둘째, 몬테카를로 트리 탐색(MCTS)을 통해 유망한 수를 깊게 읽어 들어가는 탐색 전략입니다.

바둑은 경우의 수가 너무 많아 기존 방식으로는 정면 승부가 어렵다고 여겨지던 영역이었습니다. 그래서 알파고의 승리는 “인간의 직관이 마지막 보루”라는 통념이 깨지는 계기가 되었고, 딥러닝이 단순 인식 문제를 넘어서 복잡한 전략 게임에서도 통하는 도구라는 인식을 확산시켰습니다.

Transformer의 등장: 언어를 다루는 방식 자체가 바뀌다

알파고가 딥러닝의 가능성을 대중에게 각인했다면, 2017년에 발표된 「Attention Is All You Need」 논문은 딥러닝 모델 구조 자체를 바꿔 놓았습니다. 논문에서 제안된 Transformer 구조는 순환신경망(RNN)을 사용하지 않고, 어텐션(attention)만으로 문장을 처리하는 방식을 제시했습니다.

기존 RNN·LSTM 기반 모델은 문장을 앞에서부터 차례대로 읽어야 해서 긴 문장에서 정보가 희미해지는 문제가 많았습니다. Transformer는 문장 전체를 한 번에 보고, 단어들 사이의 관계를 어텐션 점수로 직접 계산합니다. 이 덕분에 긴 문맥을 다루는 능력과 병렬 처리 효율이 동시에 크게 개선되었습니다.

Self-Attention: “지금 이 단어에 중요한 건 누구인가?”

Self-attention의 직관은 간단합니다. 한 단어를 볼 때, 문장 안의 다른 어떤 단어들을 더 중요하게 볼지 가중치를 주는 구조입니다. 예를 들어 “그는 어제 서울에 도착했다”라는 문장에서 “그는”을 해석할 때 “도착했다”, “어제”, “서울”과의 연결을 수치화해 반영하는 식입니다.

이 구조 덕분에 Transformer는 번역, 요약, 질의응답 등 다양한 자연어 처리 작업에서 기존 모델들을 빠르게 추월했습니다. 이후 BERT, GPT 시리즈 등 2018년 이후의 대표적인 언어 모델 대부분이 Transformer를 기반으로 등장하게 됩니다.

대규모 언어 모델의 시대: GPT-3에서 챗GPT까지

Transformer 구조 위에 “규모의 경제”를 적용한 결과가 GPT 계열 대규모 언어 모델(LLM)입니다. 2020년 공개된 GPT-3는 약 1,750억 개의 파라미터를 가진 초대형 언어 모델로, 당시 기준으로 전례 없는 규모를 보여주었습니다.

GPT-3의 중요한 포인트는 두 가지입니다. 첫째, 인터넷 텍스트 기반의 대규모 사전 학습(Pre-training)으로 다양한 분야의 패턴을 하나의 모델에 담았다는 점, 둘째, 별도의 미세조정 없이 프롬프트만으로 여러 작업을 수행하는 ‘Few-shot·Zero-shot’ 능력을 강하게 보여줬다는 점입니다.

이후 인스트럭션 튜닝과 RLHF(인간 피드백 강화학습)를 결합한 모델들이 등장하며, 사용자가 자연어로 질의·지시하고 대화형으로 응답하는 챗봇 형태의 서비스가 본격적으로 확산되었습니다. 우리가 오늘 사용하는 챗GPT 스타일 인터페이스는 이러한 연구 흐름의 연장선에 있습니다.

이미지·멀티모달 생성형 AI: 텍스트에서 그림과 영상까지

언어 모델과 비슷한 시기에, 이미지 생성 분야에서도 중요한 변화가 일어났습니다. 특히 Diffusion 모델과 Transformer를 결합한 구조들이 DALL·E 2, Stable Diffusion 등 텍스트-이미지 생성 모델의 기반이 되었습니다.

기본 아이디어는 노이즈로 가득 찬 이미지를 점점 깨끗하게 만들어 가면서, 텍스트 조건과 어울리는 그림을 생성하는 방식입니다. 텍스트 인코더(예: CLIP)로 문장을 벡터로 바꾼 뒤, 이 정보를 조건으로 사용해 Diffusion 모델이 이미지를 점차 복원해 가도록 학습합니다.

이후에는 텍스트+이미지 조합을 넘어서, 오디오·영상·3D까지 여러 모달리티를 동시에 다루는 멀티모달 모델이 등장했습니다. 언어, 시각, 음성 신호를 하나의 잠재 공간(latent space)에 얹어두고, 여기서 자유롭게 변환·생성하는 방식이 점점 보편적인 설계로 자리 잡고 있습니다.

생성형 AI 붐: 기술에서 ‘제품’과 ‘에코시스템’으로

2010년대 후반부터 2020년대 초반까지 이어진 변화의 특징은, 연구 수준의 모델이 빠르게 서비스·제품화되었다는 점입니다. 클라우드 API, 오픈소스 모델, 상용 구독 서비스가 동시에 등장하면서, 개발자뿐 아니라 일반 사용자도 생성형 AI를 활용할 수 있게 되었습니다.

특히 다음과 같은 흐름이 두드러집니다.

대규모 언어 모델을 통한 코드 생성, 문서 작성, 분석 도우미 등 ‘AI 비서’ 역할 확대
이미지·영상 생성 모델을 활용한 디자인, 마케팅, 엔터테인먼트 콘텐츠 제작 자동화
멀티모달 모델을 활용한 검색·추천·상담 시스템의 자연스러운 인터페이스 구현

동시에, 저작권·편향·거짓 정보(Hallucination)·프라이버시 등 사회적 논의도 크게 증가했습니다. 기술 발전과 함께 법·윤리·규제 프레임워크를 어떻게 설계할 것인지가 2020년대 이후 핵심 과제가 되었습니다.

알파고 → Transformer → 생성형 AI로 이어지는 큰 흐름 정리

알파고는 “딥러닝이 인간의 직관이 강하다고 여겨지던 영역에서도 통한다”는 상징적 메시지를 전달했습니다. Transformer는 “언어와 시계열 데이터를 다루는 기본 구조”를 새롭게 정의했습니다. 생성형 AI는 이 두 흐름 위에서, 텍스트·이미지·영상 등 다양한 매체를 직접 만들어 내는 응용 단계로 확장한 셈입니다.

이 세 가지를 한 줄로 요약하면 다음과 같이 볼 수 있습니다.

알파고: 딥러닝 + 강화학습이 고난도 의사결정 문제까지 확장될 수 있음을 보여줌
Transformer: 어텐션 기반 구조로 대규모 데이터·모델을 효율적으로 학습할 수 있는 기반 제공
생성형 AI: 사전 학습된 거대 모델을 다양한 작업에 재사용하며, 프롬프트만으로 콘텐츠를 만드는 시대를 엶

앞으로의 역사를 이해하려면, 새로운 모델 이름을 외우는 것보다 “데이터 → 모델 구조 → 학습 스케일 → 응용·사회적 영향”이라는 네 층위의 변화를 함께 보는 관점이 더 중요합니다.

meta_know 인사이트

2010년대 이후 AI 역사는 특정 한 순간의 ‘돌파구’보다는, 규모를 키워도 버틸 수 있는 구조(Transformer)와 그 구조 위에 쌓인 사전 학습의 결합으로 이해하는 편이 더 정확합니다. 지금 우리가 사용하는 챗GPT나 이미지 생성 모델도, 모두 이 공통 구조 위에서 데이터를 바꾸고 목적을 바꾼 변주에 가깝습니다. 실무에서 AI를 도입할 때는 “어떤 모델을 쓸까?”보다 “어떤 데이터를 모으고, 어떤 맥락에서 프롬프트·워크플로를 설계할까?”를 우선 질문하는 것이 전략적으로 유리합니다. 우리 팀·비즈니스에 적용할 때도 이 큰 흐름 위에서, 필요한 부분만 가져와 작은 실험부터 시작해 보시길 권합니다.

핵심 정리

알파고는 딥러닝과 강화학습이 인간 직관이 강한 영역에도 도달할 수 있음을 보여준 상징적 사건이었습니다.
Transformer는 어텐션 기반 구조로 긴 문맥 처리와 병렬 학습을 가능하게 하며, 이후 대부분의 대규모 언어 모델의 표준이 되었습니다.
GPT-3 이후 대규모 언어 모델은 프롬프트만으로 다양한 작업을 수행하는 생성형 AI의 기반이 되었고, 챗GPT 스타일 인터페이스로 보편화되었습니다.
Diffusion·멀티모달 모델 등으로 이미지·영상까지 생성 영역이 확장되면서, 기술·제품·윤리·규제 논의가 동시에 진행되는 새로운 국면에 들어섰습니다.

다음 읽을 거리

현대 AI의 발전을 이해하셨다면, ‘AI는 정말 생각할 수 있을까? – 흔한 오해와 진실‘을 읽어보시면 역사를 배운 후 AI의 본질에 대한 철학적 질문을 탐구하실 수 있습니다. 이전 시대를 복습하며 현대 AI의 기반을 다시 확인하고 싶으시다면 ‘2000–2010년대: 빅데이터와 딥러닝의 결합‘으로 돌아가보세요. ChatGPT를 실제로 활용하고 싶으시다면 ‘프롬프트가 뭔가요? – AI에게 말 거는 법‘으로 넘어가보시는 것도 좋습니다.