기술 정리 및 스터디 내용을 기록합니다.
[스터디] Vector Search 주요 평가 지표: RAG 검색 품질을 측정하는 5가지 메트릭
RAG(Retrieval-Augmented Generation) 파이프라인에서 LLM이 정확한 답변을 생성하려면, 검색 단계에서 관련 문서를 빠짐없이, 높은 순위로 가져와야 한다. 하지만 “검색이 잘 되고 있는가?“를 감으로 판단할 수는 없다. 이 글에서는 Vector Search의 품질을 정량적으로 측정하는 5가지 핵심 메트릭을 정리한다. 각 메트릭이 무엇을 측정하는지, 어떻게 계산하는지, 그리고 어떤 상황에서 활용하는지를 구체적인 예시와 함께 살펴본다. 사전 개념: 골든 증거(Golden Evidence) 메트릭을 이해하기 전에 골든 증거의 개념을 먼저 알아야 한다. 골든 증거란 특정 질문에 대해 **“이 청크가 있어야 정답을 생성할 수 있다”**고 사람이 미리 판정해 둔 정답 문서(청크) 집합이다. 평가 데이터셋을 만들 때 각 질문마다 골든 증거를 함께 라벨링한다. ...