벡터 데이터베이스(Vector DB)는 무엇일까 (RAG의 핵심 인프라)

임베딩과 RAG까지 이해하고 나면 자연스럽게 이런 궁금증이 생긴다. “그래서 이 벡터들은 어디에 저장하고, 어떻게 이렇게 빠르게 찾는 거지?” 나도 처음에는 그냥 일반 데이터베이스에 넣고 비교하면 되는 거 아닌가 싶었다. 그런데 실제로 조금만 찾아보니까, 그게 생각보다 단순한 문제가 아니었다. 이때 등장하는 개념이 바로 벡터 데이터베이스다.

일반 데이터베이스와 벡터 데이터베이스는 무엇이 다를까

우리가 흔히 사용하는 데이터베이스는 대부분 텍스트나 숫자를 그대로 저장하고, 정확히 일치하는 데이터를 찾는 데 최적화되어 있다. 예를 들어 SQL 데이터베이스에서는 “이 이름이 정확히 같은 데이터”를 찾거나, 특정 조건을 만족하는 데이터를 필터링하는 식이다. 즉, 기준이 굉장히 명확하다.

그런데 임베딩에서는 상황이 완전히 다르다. 단어와 문장이 숫자 벡터로 바뀌고, 중요한 건 “같은지 여부”가 아니라 “얼마나 비슷한지”다. 나도 처음에 이 부분에서 헷갈렸다. 똑같은 문장이 아니어도 의미가 비슷하면 찾아야 하는데, 기존 방식으로는 이걸 처리하기가 어렵다.

그래서 벡터 데이터베이스는 애초에 설계 자체가 다르다. 데이터를 그냥 저장하는 것이 아니라, 벡터 간의 거리 계산을 빠르게 하기 위해 최적화되어 있다. 즉, 정확한 일치가 아니라 “유사도 기반 검색”을 하기 위한 데이터베이스라고 보면 이해가 훨씬 쉽다.

벡터 데이터베이스는 어떻게 빠르게 ‘비슷한 것’을 찾을까

여기서 가장 신기했던 부분이 바로 검색 방식이었다. 단순히 모든 데이터를 하나씩 비교하면 정확하긴 하겠지만, 데이터가 많아질수록 속도가 엄청 느려질 수밖에 없다. 그래서 벡터 데이터베이스는 이 문제를 해결하기 위해 특별한 구조를 사용한다.

대표적으로 사용하는 방식이 “근사 최근접 탐색(Approximate Nearest Neighbor, ANN)”이다. 이름은 어려워 보이지만 개념은 간단하다. 모든 데이터를 완벽하게 비교하는 대신, “가장 비슷할 가능성이 높은 것들을 빠르게 좁혀가는 방식”이다.

나도 처음에는 “근사라면 정확도가 떨어지는 거 아닌가?”라는 생각이 들었는데, 실제로는 속도와 정확도의 균형을 맞추는 게 더 중요하다는 걸 알게 됐다. 특히 AI 서비스에서는 수백만 개의 데이터 중에서 빠르게 결과를 찾아야 하기 때문에, 이 방식이 훨씬 현실적이다.

그래서 벡터 DB는 단순한 저장소라기보다, “빠르게 비슷한 데이터를 찾아주는 검색 엔진”에 가깝다고 느껴졌다.

RAG에서 벡터 데이터베이스가 왜 중요한지 직접 체감한 순간

RAG 구조를 처음 이해했을 때는, 그냥 “문서를 찾아서 AI에게 주는구나” 정도로 생각했다. 그런데 실제 흐름을 따라가 보니까, 그 중간에서 벡터 데이터베이스 역할이 거의 핵심에 가깝다는 걸 느꼈다.

특히 내가 정리해둔 자료를 기반으로 질문을 던졌을 때, 관련 있는 내용만 딱 골라서 가져오는 걸 보고 좀 놀랐다. 단어가 정확히 일치하지 않아도 의미가 비슷하면 찾아온다는 점이 인상적이었다. 예를 들어 표현이 완전히 다른데도 같은 개념이면 비슷한 결과를 가져오는 걸 보고, “아 이게 임베딩 + 벡터 DB의 힘이구나” 싶었다.

이 과정을 보면서 느낀 건 하나였다. RAG가 제대로 동작하려면, 단순히 AI 모델만 중요한 게 아니라, 그 뒤에서 데이터를 얼마나 잘 찾느냐가 더 중요하다는 점이다. 그리고 그 역할을 담당하는 게 바로 벡터 데이터베이스다.

한 줄로 정리하면 벡터 데이터베이스는 임베딩된 데이터를 저장하고, 의미적으로 가장 비슷한 정보를 빠르게 찾아주는 RAG의 핵심 인프라다.

Merry's 이모저모

벡터 데이터베이스(Vector DB)는 무엇일까 (RAG의 핵심 인프라)

일반 데이터베이스와 벡터 데이터베이스는 무엇이 다를까

벡터 데이터베이스는 어떻게 빠르게 ‘비슷한 것’을 찾을까

RAG에서 벡터 데이터베이스가 왜 중요한지 직접 체감한 순간

티스토리툴바