임베딩까지 이해했다면 이제 자연스럽게 이런 생각이 든다.
“그래서 이걸 실제로 어디에 쓰는 거지?”
단어를 벡터로 바꾸고, 의미를 거리로 표현하는 것까지는 알겠는데, 이걸로 실제 서비스가 어떻게 만들어지는지는 감이 잘 안 온다.
이때 등장하는 개념이 바로 RAG(Retrieval-Augmented Generation)다.
결론부터 말하면 RAG는 AI가 모르는 정보를 외부에서 찾아와서 답변에 활용하는 방식이다.

왜 RAG가 필요할까 (LLM의 한계)
ChatGPT 같은 언어 모델은 매우 똑똑해 보이지만, 사실 한 가지 큰 한계가 있다.
바로 “모든 정보를 다 알고 있는 것은 아니다”는 점이다.
예를 들어:
- 최신 정보
- 회사 내부 문서
- 특정 개인 데이터
이런 것들은 모델이 기본적으로 알 수 없다.
나도 한 번 이런 경험이 있었다.
내가 직접 정리한 자료를 기반으로 질문을 했는데, AI가 완전히 엉뚱한 답을 하는 거다. 처음에는 “왜 이렇게 틀리지?” 했는데, 생각해보니까 그 정보는 애초에 학습된 적이 없는 내용이었다.
그때 느낀 게 하나 있다.
AI는 모르는 건 진짜 모른다. 대신 그럴듯하게 말할 뿐이다.
이걸 해결하기 위해 나온 방식이 RAG다.
RAG는 어떻게 동작할까
RAG의 구조는 생각보다 직관적이다.
핵심 흐름은 다음과 같다.
질문 → 관련 정보 검색 → 그 정보를 기반으로 답변 생성
좀 더 구체적으로 보면 이렇게 진행된다.
1. 문서를 임베딩으로 변환
먼저 우리가 가지고 있는 문서들을 전부 임베딩으로 바꾼다.
예를 들어:
- PDF 파일
- 노션 정리 내용
- 회사 내부 문서
이런 것들을 전부 벡터로 변환해서 저장한다.
이때 보통 Vector DB(Pinecone, FAISS 등)를 사용한다.
2. 질문도 임베딩으로 변환
사용자가 질문을 입력하면, 이 질문도 동일하게 임베딩으로 변환한다.
즉, 질문도 하나의 벡터가 된다.
3. 가장 비슷한 문서를 찾는다
이제 중요한 단계다.
질문 벡터와 문서 벡터를 비교해서 “가장 가까운 것”을 찾는다.
즉:
- 의미가 가장 비슷한 문서
를 가져오는 것이다.
이걸 similarity search라고 한다.
4. 찾은 정보를 AI에게 같이 넘긴다
이제 AI에게 질문만 주는 것이 아니라:
- 질문 + 관련 문서
를 같이 전달한다.
즉, AI에게 “참고 자료”를 같이 주는 느낌이다.
5. 그걸 기반으로 답변 생성
AI는 이 정보를 바탕으로 답변을 만든다.
그래서:
- 더 정확하고
- 더 현실적인 답변
이 가능해진다.
왜 RAG가 중요한가
RAG는 단순한 기술이 아니라, AI의 한계를 보완하는 핵심 구조다.
특히 다음에서 큰 역할을 한다.
1. 최신 정보 반영
모델을 다시 학습시키지 않아도 최신 데이터를 사용할 수 있다.
2. 개인화된 AI
내 자료, 내 문서를 기반으로 답변하는 AI를 만들 수 있다.
3. 할루시네이션 감소
근거 없는 답변 대신 실제 데이터 기반 답변이 가능하다.
실제로 어디에 쓰일까
RAG는 이미 다양한 서비스에서 사용되고 있다.
- 회사 내부 챗봇 (문서 기반 Q&A)
- 고객센터 자동 응답 시스템
- 검색 + AI 결합 서비스
- 개인 노트 기반 AI (노션, PDF 등)
특히 “내 자료 기반 AI”는 거의 대부분 RAG 구조라고 보면 된다.
비유로 이해하면 더 쉽다
RAG는 이렇게 생각하면 이해가 쉽다.
- 기존 AI → 기억만으로 시험 보는 학생
- RAG → 자료를 찾아보면서 답하는 학생
당연히 두 번째가 더 정확할 수밖에 없다.
한 줄로 정리하면
RAG는 임베딩을 활용해 관련 정보를 검색하고, 그 정보를 기반으로 AI가 답변을 생성하는 구조이며, 실제 AI 서비스에서 가장 많이 사용되는 핵심 기술이다.