AI가 이해하는 방식: 토큰과 확률

AI는 글을 무엇으로 이해할까?

먼저 한 가지를 짚고 넘어가야 합니다.
우리가 “AI가 문장을 이해했다”라고 말할 때, 인간이 의미를 이해하는 것과는 조금 다릅니다.

AI는 기본적으로 **“다음에 올 단어 조각(토큰)이 무엇일지 확률을 계산하는 기계”**입니다.
질문을 받으면, 그 질문 전체를 수많은 숫자 벡터로 바꾸고, 이어질 토큰들이 각각 얼마나 그럴듯한지 확률을 매깁니다.

그래서 보다 정확하게 말하면, AI는 **“이해한다기보다, 패턴과 확률에 따라 가장 가능성 높은 답을 고른다”**에 가깝습니다.
이때 핵심 키워드가 바로 토큰과 확률입니다.

토큰: AI가 텍스트를 쪼개서 보는 최소 단위

토큰은 ‘단어’와 비슷하지만 완전히 같지는 않다

**토큰(token)**은 LLM이 텍스트를 처리할 때 사용하는 가장 작은 조각입니다.
쉽게 말하면, 문장을 잘게 쪼갠 글자·단어·단어의 일부 같은 단위라고 생각하시면 됩니다.

예를 들어 영어 문장 하나를 보겠습니다.

“I love programming with Python.”

사람 눈에는 단어 5개지만, 모델 안에서는 다음처럼 쪼개질 수 있습니다.

I
love
program
ming
with
Python
.

‘programming’이 program + ming으로 나뉜 것처럼, 긴 단어는 여러 토큰으로 쪼개질 수 있습니다.

한국어도 마찬가지입니다.
예를 들어:

“인공지능이 글을 씁니다.”

가 내부적으로는 대략 이런 식으로 나뉠 수 있습니다.

인공
지능
이
글
을
씁
니다
.

실제 토크나이저에 따라 방식은 다르지만, 중요한 포인트는 하나입니다.
AI는 “문장 전체”가 아니라, 이렇게 잘게 쪼개진 토큰들의 흐름으로 텍스트를 본다는 점입니다.

왜 굳이 토큰으로 쪼갤까?

토큰 단위로 자르는 이유는 크게 세 가지 정도로 이해하시면 됩니다.

효율성
- 세상의 모든 단어를 사전에 넣는 것은 사실상 불가능합니다.
- 대신, 자주 나오는 조각들을 토큰으로 만들어 두면, 거의 모든 문장을 표현할 수 있습니다.
새로운 단어 처리
- 신조어, 줄임말, 고유명사처럼 처음 보는 단어도 조각 단위로 나누면 처리할 수 있습니다.
- 예: “초거대모델” → 초, 거대, 모델 같이 조합해서 이해.
언어 공통 처리
- 영어, 한국어, 일본어, 코드 등 여러 언어를 한 모델에서 다루기 위해, 공통된 토큰 체계를 사용하는 편이 유리합니다.

입문자 관점에서는 이렇게 이해하시면 충분합니다.

“AI는 문장을 토큰 레고 블록의 줄로 보고, 다음에 어떤 레고 블록(토큰)이 이어질지 계속 맞춰 나가는 구조다.”

확률: 다음 토큰이 나올 가능성을 숫자로 매기는 과정

AI가 문장을 이어 쓰는 진짜 방식

이제 두 번째 키워드인 **확률(probability)**로 넘어가 보겠습니다.
AI가 글을 생성할 때 하는 일은 생각보다 단순합니다.

지금까지 들어온 토큰들을 모두 보고
“다음에 올 수 있는 토큰 후보들”을 쫙 펼쳐 놓은 뒤
각 후보마다 **“나올 가능성(확률)”**을 계산합니다.
그중에서 하나를 뽑아서 문장 뒤에 붙입니다.
이 과정을 한 번 더, 또 한 번 더 반복합니다.

예를 들어, 이런 문장이 있다고 해 보겠습니다.

“오늘 날씨가 좋아서 기분이”

여기까지가 입력이라면, 모델은 다음 토큰 후보들을 상상합니다.

좋다 (확률 0.35)
좋아요 (확률 0.25)
상쾌하다 (확률 0.10)
별로다 (확률 0.05)
… (기타 여러 후보들)

이 중에서 규칙에 따라 하나를 골라 문장을 이어 붙입니다.
이때 선택 기준이 바로 확률입니다.

“가장 그럴듯한 다음 한 조각”의 연속

AI는 이렇게 **“다음 토큰 하나”**만을 계속 이어 붙여 나갑니다.
우리가 보기에는 한 번에 문단이 뚝 튀어나온 것처럼 보이지만,
모델 안에서는 사실 수십·수백 개의 토큰이 차례대로 선택된 결과입니다.

그래서:

같은 질문을 여러 번 물어도
토큰 선택 과정에서 약간씩 다른 후보가 뽑히면
최종 답변도 조금씩 달라질 수 있습니다.

이런 랜덤성도, 실제로는 “비슷한 확률을 가진 여러 토큰 중 무엇이 뽑히느냐”에서 나옵니다.

토큰과 확률이 합쳐지면 생기는 현상들

창의적인 답변 vs 안전한 답변

토큰과 확률 구조를 이해하면, 왜 어떤 답변은 매우 안전하고 평범하게 나오고,
어떤 답변은 조금 더 창의적으로 느껴지는지 감이 잡힙니다.

안전한 답변
- 매번 확률이 가장 높은 토큰만 고르는 방식에 가깝습니다.
- 결과: 무난하고, 어디서 본 듯한 문장이 나옵니다.
조금 더 다양한 답변
- 확률이 조금 낮더라도, 후보를 적당히 섞어서 선택합니다.
- 결과: 표현이 바뀌고, 예시가 달라지고, 비슷하지만 다른 답변이 나옵니다.

일반적으로는 “너무 예측 가능하면 지루하고, 너무 랜덤하면 신뢰가 떨어진다”는 딜레마가 있습니다.
실제 서비스에서는 이 균형을 조정하는 여러 설정(예: temperature, top-p 등)을 사용하지만,
AI 101 수준에서는 “확률을 어떻게 활용하느냐에 따라 답변 스타일이 달라진다” 정도를 기억하시면 충분합니다.

헛소리(환각)가 나오는 이유도 여기에서 나온다

토큰과 확률 구조는 헛소리(hallucination) 현상과도 연결됩니다.

AI는 항상 “다음에 올 토큰이 무엇인지”만 생각합니다.
“이 문장이 실제 사실과 맞는지”를 직접 검증하지는 않습니다.

예를 들어, 존재하지 않는 논문 제목을 만들어내는 상황을 생각해 보겠습니다.

질문: “이 주제와 관련된 유명 논문 제목 3개 알려줘.”
모델 내부:
- “이 상황에서는 [영어 제목] + [저자 이름] + [연도] 패턴이 자주 나왔지.”
- 그 패턴에 맞는 토큰들을 확률적으로 조합해서 새로운 문자열을 만들어 냅니다.

겉으로 보기에는 “그럴듯한 논문 제목”처럼 보이지만,
실제로는 “패턴에 맞는 토큰 조합을 확률적으로 생성한 결과”일 뿐입니다.

따라서:

AI가 토큰·확률로만 동작한다는 사실을 알면,
“사실 검증이 필요한 정보”는 반드시 추가 검증(검색, 레퍼런스 확인)이 필요하다는 점도 자연스럽게 이해됩니다.

입문자를 위한 직관적 비유: 레고 블록과 주사위

비유를 하나만 정리해 보겠습니다.

토큰 = 레고 블록
- 각 블록은 글자/단어/조각 하나에 해당합니다.
- 레고 블록의 종류와 개수가 토큰 사전에 해당합니다.
확률 = 어떤 블록을 쓸지 정하는 주사위
- “지금까지 쌓은 블록 모양을 볼 때, 다음에는 어떤 블록이 어울릴까?”를 계산합니다.
- 가장 어울릴 것 같은 블록에 높은 확률을 주고, 덜 어울리는 블록에는 낮은 확률을 줍니다.

AI가 문장을 쓸 때는 이렇게 생각할 수 있습니다.

“앞에 쌓아 둔 레고(문장)를 보고,
다음에 어떤 레고 블록(토큰)을 얹을지
주사위(확률)를 굴려서 하나씩 붙여 나가는 과정이다.”

이 정도 비유만 가지고 있어도,
“AI가 이해한다”는 표현 뒤에 실제로 어떤 일이 일어나는지 훨씬 분명해집니다.

토큰과 확률을 알면, 프롬프트를 어떻게 바꿀 수 있을까?

입문자 입장에서 토큰과 확률을 아는 이유는 “실전 프롬프트 작성에 바로 써먹기 위해서”입니다.

1) 중요한 키워드는 명확하게, 반복해서 넣어 준다

AI는 문장을 통째로 이해하기보다는,
토큰 패턴을 보고 다음 토큰을 예측합니다.

그래서:

핵심 키워드를 한 번만 애매하게 쓰기보다
문장 안에서 명확하게 여러 번 등장시키는 편이 좋습니다.

예를 들어:

“AI 역사에 대해 써줘.”

보다는

“AI 역사 중에서도 딥러닝 이전의 규칙 기반 시스템에 초점을 맞춰 써주세요.
특히 전문가 시스템이 등장한 배경과, 전문가 시스템의 한계를 중심으로 설명해 주세요.”

처럼, 토큰 수준에서 반복·강조되는 키워드를 늘려 주면
모델이 다음 토큰을 고를 때 우선순위를 줄 힌트가 많아집니다.

2) 불필요하게 너무 긴 프롬프트는 토큰 낭비가 될 수 있다

프롬프트가 길어질수록, AI는 더 많은 토큰을 읽어야 합니다.
이때 정말 중요한 정보와, 장식만 있는 문장이 섞여 있으면
모델 입장에서는 무엇을 우선해야 할지 애매해질 수 있습니다.

그래서:

핵심 조건(대상, 목적, 형식, 분량)을 먼저 명확하게 쓰고
나머지 설명은 필요할 때만 추가하는 편이 좋습니다.

토큰을 이해하면,
“AI에게도 읽을 수 있는 맥락 용량(컨텍스트 윈도우)이 있다”는 점도 자연스럽게 받아들이게 됩니다.

3) 언어를 바꾸면 토큰 수와 스타일이 함께 달라진다

같은 내용을 한국어와 영어로 썼을 때,
토큰 수와 토큰 패턴이 달라집니다.

영어는 비교적 명확한 단어 경계(공백)와 알파벳 구조 때문에
토큰화 방식이 한국어와 다릅니다.
어떤 경우에는 영어로 요청했을 때 더 짧은 토큰 수로 같은 정보를 전달할 수도 있습니다.

실전에서는:

한국어로 질문하되
특정 용어(예: 기술 이름, 라이브러리 명, 오류 메시지)는 영어 원문을 그대로 붙이는 식으로
토큰 관점에서 의미가 선명하게 전달되도록 조합하는 것이 유리할 때가 많습니다.

meta_know 인사이트

AI 101 단계에서 토큰과 확률을 이해하는 목표는, 수식을 아는 것이 아니라 “AI가 텍스트를 다루는 시점”을 체감하는 데 있습니다. AI는 문장을 그대로 이해하는 존재가 아니라, 토큰이라는 조각과 그 조합의 확률을 계산하는 시스템이라는 점을 알면, 헛소리의 원인과 프롬프트 설계의 중요성이 자연스럽게 연결됩니다. 지금 사용하는 프롬프트 한두 개를 골라서, “토큰 관점에서 키워드를 더 분명하게, 반복해서, 구조적으로 보여줄 수 있을까?”를 기준으로 한 번만 리팩터링해 보시길 권합니다.

핵심 정리

토큰(token)은 LLM이 텍스트를 처리할 때 사용하는 최소 단위로, 단어·단어 조각·글자 등에 해당합니다.
AI는 문장을 토큰들의 연속으로 보고, 매 단계마다 “다음 토큰이 무엇일지”를 확률로 계산해 선택합니다.
헛소리(환각)도, 결국 “사실 검증”이 아니라 “패턴과 확률”에 따라 토큰을 고르는 구조에서 자연스럽게 발생합니다.
토큰과 확률 구조를 이해하면, 핵심 키워드 반복, 불필요한 장식 제거, 대상·목적·형식 명시 같은 프롬프트 개선 방향이 훨씬 명확해집니다.

다음 읽을 거리

AI의 작동 방식을 이해하셨다면, 이제 이 지식을 실전에 활용해보실 수 있습니다. ‘프롬프트 엔지니어링 핵심 원리: AI를 제대로 활용하는 첫걸음‘을 읽으시면 토큰과 확률을 이해한 상태에서 더 효과적인 프롬프트를 작성하실 수 있습니다. ‘ChatGPT에게 좋은 질문하는 방법 – 구체적으로 말하기‘를 함께 읽으시면 작동 원리를 알고 있는 상태에서 실전 질문 기술을 더 쉽게 익히실 수 있습니다. AI의 정확도를 높이는 기술이 궁금하시다면 ‘RAG란? LLM + 검색의 결합으로 정확도 높이는 방법‘을 확인해보세요.