LLM

🔤 LLM (Large Language Model)

🧠 **엄청나게 많은 텍스트(인터넷, 책, 위키, 논문 등)**를 학습해서
📚 사람처럼 자연스럽게 말하고 이해할 수 있는 인공지능 모델

우리말로는 대규모 언어 모델

입력 문장을 보고 다음 단어를 예측하는 구조
예: "나는 고양이를" → 모델이 "좋아해" 라고 예측
GPT는 Transformer 디코더만 써서 문장을 순차적으로 만들어

LLM이 할 수 있는 것들:

질문에 대답하기 (GPT처럼)
요약하기
번역하기
글쓰기 (이력서, 이메일, 소설까지도!)
코드 작성 및 디버깅
챗봇, 가상비서
검색 결과 요약
창작(시, 소설, 대화 시뮬레이션)

어떻게 동작하냐면?

Transformer라는 구조를 기반으로 하고
수십억~수조 개의 파라미터를 학습 후
다음에 올 단어를 예측하는 방식으로 말을 생성

LLM 범주

LLM ──┬── GPT (OpenAI)
      ├── Claude (Anthropic)
      ├── Gemini (Google)
      └── LLaMA (Meta)

🧠 LLM에서 Neural Network가 어떻게 쓰이는가?

✅ GPT가 텍스트를 생성하는 뉴럴 네트워크 흐름

문장을 숫자로 바꿈
숫자를 벡터로 바꿈
Transformer가 문맥 이해
다음 단어를 확률적으로 예측
Softmax로 가장 자연스러운 단어 선택
계속 이어서 생성

1. Input Tokens (입력 토큰)

사용자 입력: "나는 고양이를"

"나는" → 2311
"고양이" → 4201
"를" → 103

이 문장을 단어 또는 subword 단위로 나눠서 **숫자(token ID)**로 바꿈

2. Embedding Layer (임베딩)

숫자로 바뀐 토큰을 벡터로 변환 (단어를 벡터 공간에 매핑)

여기서부터 진짜 뉴럴 네트워크의 계산이 시작됨.

[2311] → [0.15, -0.21, ..., 0.88] (예: 768차원)

3. Transformer Layers (중심 구조)

여기서 LLM의 핵심인 Self-Attention과 Feed Forward Network가 반복됨

Self-Attention:

각 단어가 다른 단어를 얼마나 참고할지 결정
예: "고양이를"이 나왔을 때, "나는"과의 관계를 계산해서 문맥을 파악

FFN (Feed Forward Network):

각 단어 벡터를 비선형으로 처리해서 더 풍부한 의미를 반영

이 과정을 수십~수백 층 반복해서 단어의 의미가 점점 똑똑해짐!

4. Logits (출력 벡터)

각 단어의 다음 단어가 될 가능성을 수치로 표현한 값들이 나옴

"좋아해": 6.3  
"싫어해": 1.2  
"먹었다": 0.5  
...

5. Softmax

위 숫자들을 0~1 사이 확률로 바꿔줌 (총합 1)
→ 가장 높은 확률을 가진 단어가 선택됨

6. Output Tokens (출력 단어)

예측된 다음 단어 "좋아해"가 나옴
→ 다시 이걸 입력으로 넣어서 "요" → "." → … 계속 이어감

🔧 Transformer 구조란?

2017년 Google이 발표한 논문
“Attention Is All You Need” 에서 소개된 자연어 처리 모델 구조

이전에는 RNN, LSTM 같은 시퀀스 모델들이 있었는데,
그걸 다 제치고 속도, 정확도, 병렬 처리 모든 면에서 압도적으로 좋아서 NLP의 혁명이 시작됐지.

🎯 핵심 아이디어: Attention

Transformer는 단순하게 말하면:

"문장에서 중요한 단어에 집중해서 해석하자!"
이걸 Attention이라는 기술로 구현했어.

예를 들어:

"나는 오늘 학교에 갔는데, 거기서 고양이를 봤어."

이 문장에서 "봤어"라는 단어가 나왔을 때, 모델은
"그럼 무엇을 봤는지 찾아야지?" → "고양이"에 주목함 → 이게 Attention의 핵심!

🧱 Transformer 구조의 구성요소

[입력 토큰] → ⬅ Embedding  
            → ⬅ Positional Encoding  
            → [Multi-Head Attention]  
            → [Feed Forward Network]  
            → [출력]

1. Input Embedding

단어를 숫자로 바꿔서 처리 (벡터화)

2. Positional Encoding

단어 순서 정보 추가 (Transformer는 RNN이 아니라 순서를 따로 알려줘야 함)

3. Multi-Head Attention

여러 관점에서 단어 간 관계를 보는 구조 (복수의 "주의집중" 시선)

4. Feed Forward Network

일반적인 신경망 처리 (비선형 변환)

5. Residual + Layer Normalization

학습을 안정화하고 더 깊은 구조로 쌓을 수 있게 함

🎓 한 줄 요약

Transformer는 문장 전체에서 중요한 관계를 동시 파악해서 빠르고 정확하게 자연어를 이해하고 생성하는 구조

🔁 인코더 & 디코더

Transformer는 원래 구조상:

인코더: 입력을 이해함 (예: 번역할 문장을 해석)
디코더: 출력을 생성함 (예: 번역 결과 생성)

💡 하지만 GPT는 디코더만 사용해서 언어 생성 모델로 발전했고,
BERT는 인코더만 사용해서 문장 이해에 특화됐어.

📦 Encoder vs Decoder

구분	Encoder (인코더)	Decoder (디코더)
입력	원본 데이터 (문장, 이미지 등)	"의미 벡터" + 일부 입력 (ex. 이전 단어)
출력	의미 벡터 (context vector)	최종 결과물 (예: 텍스트, 이미지 등)
역할	정보를 요약	정보를 바탕으로 생성

🧠 뉴럴 네트워크 관점에서 보면?

🔹 Encoder

입력(문장)을 token 단위로 나눔
Embedding → 벡터화
여러 층의 Self-Attention + Feed Forward를 거침
각 단어가 문맥을 이해한 벡터로 변환됨

📌 결과:
→ 입력 문장을 **“전체 의미가 반영된 벡터 시퀀스”**로 변환

🔸 Decoder

인코더에서 나온 "의미 벡터"를 받아옴
지금까지 생성된 단어들로 Self-Attention 수행
인코더의 출력도 참고 (Encoder-Decoder Attention)
다음 단어를 예측함

📌 결과:
→ 하나씩 텍스트를 생성해나감 ("나는" → "고양이를" → "좋아해" → "요")

🧾 예시: 번역기

입력 문장: "I love cats"
출력 문장: "나는 고양이를 좋아해"

Encoder
→ "I", "love", "cats" → 벡터 → 문맥 반영된 의미 벡터로 변환
Decoder
→ "나는" → "고양이를" → "좋아해" 순서대로 생성
→ 각 단계에서 인코더의 의미 벡터를 참고함

✨ GPT

GPT는 텍스트 생성 전용 모델이다
Encoder는 필요 없음 (입력 전체를 요약할 필요가 없기 때문)
대신 Decoder만 사용해서 순차적으로 단어를 예측함
미래 단어를 보지 않도록 Causal Attention 구조 사용

✅ GPT는 LLM, 어떤 특징이 있을까?

항목	내용
기반 구조	Transformer (디코더-only)
학습 방식	다음 단어 예측 (Next-token prediction)
역할	텍스트 생성, 번역, 요약, 대화 등
확장 모델	GPT + 이미지(DALL·E), GPT + 툴(코드, 계산기 등) → 멀티모달 모델로 진화

GPT는 왜 Encoder 없이 Decoder만 사용할까?

GPT는 "다음 단어 생성"에만 집중하는 생성 특화 모델이기 때문에
→ Decoder만 사용해서 텍스트를 하나씩 순차적으로 생성해.

🔁 GPT의 작업 흐름

"나는 고양이를"

GPT는 그걸 보고:

다음 단어는? → "좋아해"
그다음은? → "요"
그다음은? → "."

이런 식으로 단어를 하나씩 차례대로 예측하면서 생성해 나가.

입력 자체가 생성의 일부야.
→ 이미 입력된 단어를 기반으로, 다음 단어만 계속 예측하면 되기 때문에
→ Decoder 구조만 있으면 충분해.

🎯 왜 Encoder는 안 쓰냐?

이유	설명
✅ 목적이 “생성”이기 때문	문장을 "이해"하는 게 아니라 "만드는 게 목적"
✅ 입력이 계속 길어짐	생성할수록 입력도 같이 길어짐 → Decoder는 과거만 보고 순차적 생성 가능
✅ 미래를 보면 안 됨	생성 시에는 아직 생성 안 된 단어는 모름 → Encoder는 양방향이라 부적절

🔍 BERT?

BERT는 문장 속에 빈칸을 채우거나,
두 문장이 논리적으로 이어지는지,
문장이 긍정/부정인지를 판단하는 데 강함

모델	목적	예시
🗣 GPT	말을 만들어냄 (생성)	"나는 고양이를" → "좋아해요"
🧠 BERT	말을 이해함 (이해)	"나는 [MASK]를 좋아해" → [MASK] = 고양이

📌 어디서 쓰이냐?

BERT는 지금도 구글 검색 엔진, 감성 분석, 문장 분류 등에서 널리 사용돼
다른 파생 모델들로도 발전했어 (RoBERTa, DistilBERT, ALBERT 등)

📚 BERT 학습

1. Masked Language Modeling (MLM)

문장 일부를 가리고 예측하게 함

"나는 [MASK]를 좋아해요"  
→ 모델이 "[MASK] = 고양이" 라고 맞추는 식

이때 문장의 왼쪽/오른쪽 모두를 참고할 수 있음
→ 양방향(Bidirectional) 이해가 가능해짐! 이게 BERT의 핵심.

2. Next Sentence Prediction (NSP)

두 문장이 이어지는 문장인지 예측

문장1: "나는 고양이를 좋아해."  
문장2: "그래서 자주 동물병원에 간다."

→ 이어진다 (True)

문장2가 랜덤이면 → False

✨ BERT의 강점

특징	설명
✅ 양방향 이해	문장의 좌우 문맥을 모두 참조
✅ 문장 분류	감정 분석, 문장 유사도, QA 등에 강함
✅ 사전 학습 + 파인튜닝	여러 작업에 맞게 쉽게 응용 가능

🧠 Bert 누가 만들었냐?

📄 논문 제목:
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

모두 Google AI Language 팀 소속

👨‍🔬 작성자:

Jacob Devlin
Ming-Wei Chang
Kenton Lee
Kristina Toutanova

🌍 Bert 혁신

BERT는 자연어처리(NLP) 분야에 완전 혁신을 일으킴

전 (BERT 이전)	후 (BERT 등장 이후)
단방향 모델 위주	양방향 문맥 모델 (혁신!)
Task별 모델 따로 학습	하나의 사전 학습 모델 + 파인튜닝
RNN, LSTM 주류	Transformer 기반 대세 확정

LLM 모델 만들기

목표: 로컬 전용 GPT 코드 도우미 만들기

🎯 기능 예시

VSCode/Cursor처럼 코딩 중에 자동완성
"이 함수 리팩터링해줘" 같은 자연어 요청
"이 코드 설명해줘", "유닛 테스트 짜줘" 등 프롬프트 기반 코드 생성
모든 작업은 절대 외부 API 호출 없이 로컬에서 처리

🚀 실현을 위한 구조 제안

1. 경량 LLM 선택 (로컬 실행 가능)

모델 이름	특징	필요 자원
CodeLlama 7B (ggml)	Meta에서 공개한 코드 전용 LLM	약 8GB VRAM (CPU로도 가능)
Mistral 7B	최신 고성능 경량 모델 (코드도 잘함)	~8GB 이상
Phi-2	MS에서 만든 초경량 LLM	CPU에서도 실행 가능
StarCoder	HuggingFace에서 만든 코드 특화 LLM	GPU 있으면 더 좋음

✅ HuggingFace + transformers, llama.cpp, ollama, ggml 중 선택 가능

2. 로컬 환경 실행 툴

llama.cpp: C++ 기반 초경량 LLM 실행 도구 (ggml, gguf 모델 사용)
Ollama: 간단한 명령어만으로 다양한 LLM 실행 가능 (Mac, Linux, Windows)
Text-generation-webui: 웹 기반 UI 제공 (LLM 테스트에 유용)

# 1. Ollama 설치
brew install ollama

# 2. CodeLlama 모델 로드
ollama run codellama

# 3. 프롬프트
> Write a unit test for the following Java method:

3. 코딩 에디터와 연동

자체 Electron 기반 앱	VSCode 느낌의 로컬 앱 직접 개발
VSCode Extension	내부 프록시 서버 + 프롬프트 처리기 직접 만들기
터미널 기반 GPT 도우미	llm CLI 도구처럼 입력 기반 사용도 가능

4. 프롬프트 엔진 구성

로컬 모델에게 프롬프트 템플릿 제공
예: "아래 코드를 리팩터링해줘:\n{code}"
생성된 결과를 텍스트로 받아서 IDE에 반영

✅ 만들 수는 있지만 제한 큼

→ 완전한 GPT-3급 LLM은 불가능
→ 하지만 작고 가벼운 LLM을 직접 학습하거나 돌리는 건 가능

📌 왜 "큰 LLM"은 어렵냐?

😵 일반 노트북이나 맥북으로는 절대 안 됨

항목	GPT-3 기준
파라미터 수	175 Billion (1억 7천 5백만 개 아님, 1천 7백억 개!)
필요한 VRAM	수십~수백 GB (H100 8개 이상)
학습 시간	수 주~~수 개월, 수억~~수천만 원 GPU 비용
학습 데이터	수백 GB ~ TB 단위 텍스트 (웹, 위키, 책 등)

✅ 이런 건 가능해!

가능성 있는 작업	설명
🧪 작은 LLM 훈련 (nanoGPT)	작은 텍스트로 GPT 학습 실습 가능
🧠 로컬 실행 (7B 이하 모델)	LLaMA, Mistral, Phi2, TinyLLM 등 로컬에서 실행 가능
🧩 파인튜닝 / LoRA 학습	기존 모델에 "내 데이터만 약간 추가" 가능
🐍 프롬프트 엔지니어링	내 PC에서 GPT API 써서 응답 생성 실습 가능

저작자표시

'학습 기록 (Learning Logs) > Today I Learned' 카테고리의 다른 글

GPT에서 웹툰을 그린다고?! (0)	2025.04.17
이미지 모델 테스트 (0)	2025.04.17
ObjectOptimisticLockingFailureException (0)	2025.04.15
주소, 세그멘테이션, 페이징 (0)	2025.04.14
분산 시스템 장애 복구 (0)	2025.04.14

LLM