전체 글136 ANN(Approximate Nearest Neighbor)는 무엇일까 (빠르게 ‘비슷한 것’을 찾는 방법) Similarity Search까지 이해하고 나면 자연스럽게 이런 의문이 생긴다. “그럼 이걸 데이터가 엄청 많을 때도 그대로 쓸 수 있는 걸까?” 나도 처음에는 그냥 벡터끼리 하나씩 비교하면 되는 줄 알았다. 그런데 데이터가 많아지는 순간, 이 방식이 현실적으로 불가능하다는 걸 금방 알게 된다. 이 문제를 해결하기 위해 등장한 개념이 바로 ANN이다. 왜 ‘정확한’ 검색이 아니라 ‘근사’ 검색이 필요할까가장 단순한 방법은 모든 데이터를 하나씩 비교해서 가장 가까운 벡터를 찾는 것이다. 이걸 정확한 최근접 탐색(Exact Nearest Neighbor)이라고 한다. 문제는 이 방식이 너무 느리다는 점이다.예를 들어 데이터가 100개면 괜찮지만, 100만 개, 1000만 개로 늘어나면 비교해야 하는 횟수가.. 2026. 4. 29. Similarity Search는 어떻게 동작할까 (코사인 유사도 쉽게 이해하기) 벡터 데이터베이스까지 이해하고 나면 자연스럽게 이런 궁금증이 생긴다. “그래서 도대체 어떻게 ‘비슷한 것’을 찾는 거지?” 나도 처음에는 그냥 단어가 겹치는 걸 기준으로 찾는 줄 알았다. 그런데 임베딩에서는 전혀 다른 방식으로 유사성을 판단한다. 핵심은 단어가 아니라 ‘벡터’다. Similarity Search는 ‘같은지’가 아니라 ‘얼마나 비슷한지’를 판단한다기존 검색 방식은 대부분 정확한 일치 여부를 기준으로 한다. 예를 들어 “사과”를 검색하면 ‘사과’라는 단어가 포함된 문서가 나온다. 그런데 이런 방식은 한계가 분명하다. 표현이 조금만 달라져도 검색 결과에서 빠지기 때문이다.예를 들어 “나는 과일을 좋아한다”와 “나는 사과를 좋아한다”는 문장은 의미적으로는 꽤 가깝지만, 단어만 보면 완전히 다른 .. 2026. 4. 29. 벡터 데이터베이스(Vector DB)는 무엇일까 (RAG의 핵심 인프라) 임베딩과 RAG까지 이해하고 나면 자연스럽게 이런 궁금증이 생긴다. “그래서 이 벡터들은 어디에 저장하고, 어떻게 이렇게 빠르게 찾는 거지?” 나도 처음에는 그냥 일반 데이터베이스에 넣고 비교하면 되는 거 아닌가 싶었다. 그런데 실제로 조금만 찾아보니까, 그게 생각보다 단순한 문제가 아니었다. 이때 등장하는 개념이 바로 벡터 데이터베이스다. 일반 데이터베이스와 벡터 데이터베이스는 무엇이 다를까우리가 흔히 사용하는 데이터베이스는 대부분 텍스트나 숫자를 그대로 저장하고, 정확히 일치하는 데이터를 찾는 데 최적화되어 있다. 예를 들어 SQL 데이터베이스에서는 “이 이름이 정확히 같은 데이터”를 찾거나, 특정 조건을 만족하는 데이터를 필터링하는 식이다. 즉, 기준이 굉장히 명확하다.그런데 임베딩에서는 상황이 완.. 2026. 4. 29. RAG는 무엇일까 (임베딩을 실제로 사용하는 방식) 임베딩까지 이해했다면 이제 자연스럽게 이런 생각이 든다.“그래서 이걸 실제로 어디에 쓰는 거지?”단어를 벡터로 바꾸고, 의미를 거리로 표현하는 것까지는 알겠는데, 이걸로 실제 서비스가 어떻게 만들어지는지는 감이 잘 안 온다.이때 등장하는 개념이 바로 RAG(Retrieval-Augmented Generation)다.결론부터 말하면 RAG는 AI가 모르는 정보를 외부에서 찾아와서 답변에 활용하는 방식이다. 왜 RAG가 필요할까 (LLM의 한계)ChatGPT 같은 언어 모델은 매우 똑똑해 보이지만, 사실 한 가지 큰 한계가 있다.바로 “모든 정보를 다 알고 있는 것은 아니다”는 점이다.예를 들어:최신 정보회사 내부 문서특정 개인 데이터이런 것들은 모델이 기본적으로 알 수 없다.나도 한 번 이런 경험이 있었다.. 2026. 4. 28. 임베딩(Embedding)은 무엇일까 (텍스트를 숫자로 바꾸는 AI의 핵심 기술) AI, 특히 ChatGPT 같은 언어 모델을 이해하려고 하면 반드시 등장하는 개념이 있다. 바로 ‘임베딩(Embedding)’이다.처음 보면 굉장히 어려워 보인다. 하지만 이 개념 하나를 이해하면 “AI가 어떻게 글을 이해하는지” 거의 절반은 이해했다고 봐도 된다.결론부터 말하면 임베딩은 텍스트를 숫자 벡터로 바꿔서 의미를 표현하는 기술이다. AI는 글을 그대로 이해하지 못하고 숫자로 변환해서 처리한다컴퓨터는 우리가 사용하는 언어를 그대로 이해하지 못한다.예를 들어 “사과”라는 단어를 보면 우리는:과일빨간색먹는 것같은 의미를 떠올린다.하지만 컴퓨터에게 “사과”는 그냥 문자열일 뿐이다.그래서 AI는 텍스트를 숫자로 바꿔서 처리해야 한다.이때 사용하는 것이 바로 임베딩이다.임베딩은 단어를 하나의 ‘좌표’로 .. 2026. 4. 28. DNS는 어떻게 동작할까 (루트 DNS부터 캐시까지 완벽 정리) 도메인을 입력하면 서버에 접속된다는 것은 알지만, 그 과정이 어떻게 이루어지는지는 잘 모르는 경우가 많다.“google.com을 입력하면 어떻게 IP 주소를 찾아서 연결되는 걸까?”이 과정을 담당하는 것이 바로 DNS(Domain Name System)이다.결론부터 말하면 DNS는 도메인을 IP 주소로 변환해주는 인터넷의 주소 변환 시스템이다. DNS가 필요한 이유는 사람이 IP 주소를 기억할 수 없기 때문이다인터넷에 연결된 모든 서버는 IP 주소를 가지고 있다. 하지만 이 IP는 숫자로 이루어져 있기 때문에 사람이 기억하기 어렵다.예를 들어:142.250.206.14이 숫자를 외워서 사이트에 접속하는 것은 사실상 불가능하다.그래서 도메인을 입력하면 DNS가 자동으로 IP를 찾아준다.전체 흐름은 이렇게 .. 2026. 4. 28. 이전 1 ··· 3 4 5 6 7 8 9 ··· 23 다음