[임베딩]

기존의 SQL LIKE %삼성전자% 방식은 글자가 정확히 일치해야만 찾을 수 있습니다. 하지만 사용자는 다양한 방식으로 질문하죠.

이처럼 '글자'가 아닌 '의미'로 데이터를 검색하기 위해 임베딩이 필수입니다.

임베딩은 텍스트를 수천 개의 숫자로 이루어진 리스트(벡터)로 변환합니다. 이 숫자들은 다차원 공간상의 좌표가 됩니다.

예를 들어, stock101에서 다음 세 문장을 임베딩하면:

1번과 2번은 좌표값이 매우 가깝게 계산되지만, 3번은 완전히 다른 곳에 찍힙니다. 백엔드 개발자는 이 **좌표 간의 거리(유사도)**를 계산해 "유사한 게시글"이나 "질문에 대한 답변 후보"를 찾아내는 로직을 짜게 됩니다.

RAG 시스템을 만들 때 여러분이 하게 될 실제 작업은 다음과 같습니다.

텍스트 추출: DB에서 게시글 텍스트를 가져옵니다.
임베딩 생성: OpenAI의 text-embedding-3 같은 모델 API에 텍스트를 보냅니다.
벡터 저장: API가 돌려준 숫자 리스트(벡터)를 **Vector DB(pgvector 등)**에 저장합니다.
유사도 검색: 사용자가 질문을 하면, 질문도 똑같이 숫자로 바꾼 뒤 DB에서 **"이 숫자랑 가장 가까운 좌표를 가진 글 가져와"**라고 쿼리를 날립니다.

과거에는 이런 수치 계산이 매우 복잡했지만, 이제는 백엔드 개발자가 직접 수학 공식을 짤 필요가 없습니다.

즉, 백엔드 개발자는 이 **데이터의 흐름(Pipeline)**만 설계할 줄 알면 바로 AI 기능을 구현할 수 있는 시대가 된 것입니다.

티스토리툴바