RAG는 무엇일까 (임베딩을 실제로 사용하는 방식)

임베딩까지 이해했다면 이제 자연스럽게 이런 생각이 든다.

“그래서 이걸 실제로 어디에 쓰는 거지?”

단어를 벡터로 바꾸고, 의미를 거리로 표현하는 것까지는 알겠는데, 이걸로 실제 서비스가 어떻게 만들어지는지는 감이 잘 안 온다.

이때 등장하는 개념이 바로 RAG(Retrieval-Augmented Generation)다.

결론부터 말하면 RAG는 AI가 모르는 정보를 외부에서 찾아와서 답변에 활용하는 방식이다.

왜 RAG가 필요할까 (LLM의 한계)

ChatGPT 같은 언어 모델은 매우 똑똑해 보이지만, 사실 한 가지 큰 한계가 있다.

바로 “모든 정보를 다 알고 있는 것은 아니다”는 점이다.

예를 들어:

최신 정보
회사 내부 문서
특정 개인 데이터

이런 것들은 모델이 기본적으로 알 수 없다.

나도 한 번 이런 경험이 있었다.

내가 직접 정리한 자료를 기반으로 질문을 했는데, AI가 완전히 엉뚱한 답을 하는 거다. 처음에는 “왜 이렇게 틀리지?” 했는데, 생각해보니까 그 정보는 애초에 학습된 적이 없는 내용이었다.

그때 느낀 게 하나 있다.

AI는 모르는 건 진짜 모른다. 대신 그럴듯하게 말할 뿐이다.

이걸 해결하기 위해 나온 방식이 RAG다.

RAG는 어떻게 동작할까

RAG의 구조는 생각보다 직관적이다.

핵심 흐름은 다음과 같다.

질문 → 관련 정보 검색 → 그 정보를 기반으로 답변 생성

좀 더 구체적으로 보면 이렇게 진행된다.

1. 문서를 임베딩으로 변환

먼저 우리가 가지고 있는 문서들을 전부 임베딩으로 바꾼다.

예를 들어:

PDF 파일
노션 정리 내용
회사 내부 문서

이런 것들을 전부 벡터로 변환해서 저장한다.

이때 보통 Vector DB(Pinecone, FAISS 등)를 사용한다.

2. 질문도 임베딩으로 변환

사용자가 질문을 입력하면, 이 질문도 동일하게 임베딩으로 변환한다.

즉, 질문도 하나의 벡터가 된다.

3. 가장 비슷한 문서를 찾는다

이제 중요한 단계다.

질문 벡터와 문서 벡터를 비교해서 “가장 가까운 것”을 찾는다.

즉:

의미가 가장 비슷한 문서

를 가져오는 것이다.

이걸 similarity search라고 한다.

4. 찾은 정보를 AI에게 같이 넘긴다

이제 AI에게 질문만 주는 것이 아니라:

질문 + 관련 문서

를 같이 전달한다.

즉, AI에게 “참고 자료”를 같이 주는 느낌이다.

5. 그걸 기반으로 답변 생성

AI는 이 정보를 바탕으로 답변을 만든다.

그래서:

더 정확하고
더 현실적인 답변

이 가능해진다.

왜 RAG가 중요한가

RAG는 단순한 기술이 아니라, AI의 한계를 보완하는 핵심 구조다.

특히 다음에서 큰 역할을 한다.

1. 최신 정보 반영

모델을 다시 학습시키지 않아도 최신 데이터를 사용할 수 있다.

2. 개인화된 AI

내 자료, 내 문서를 기반으로 답변하는 AI를 만들 수 있다.

3. 할루시네이션 감소

근거 없는 답변 대신 실제 데이터 기반 답변이 가능하다.

실제로 어디에 쓰일까

RAG는 이미 다양한 서비스에서 사용되고 있다.

회사 내부 챗봇 (문서 기반 Q&A)
고객센터 자동 응답 시스템
검색 + AI 결합 서비스
개인 노트 기반 AI (노션, PDF 등)

특히 “내 자료 기반 AI”는 거의 대부분 RAG 구조라고 보면 된다.

비유로 이해하면 더 쉽다

RAG는 이렇게 생각하면 이해가 쉽다.

기존 AI → 기억만으로 시험 보는 학생
RAG → 자료를 찾아보면서 답하는 학생

당연히 두 번째가 더 정확할 수밖에 없다.

한 줄로 정리하면

RAG는 임베딩을 활용해 관련 정보를 검색하고, 그 정보를 기반으로 AI가 답변을 생성하는 구조이며, 실제 AI 서비스에서 가장 많이 사용되는 핵심 기술이다.

Merry's 이모저모