Qwen3 embedding

인코더 기반이 아닌데도 잘하는 이유

Qwen3 기반 디코더 구조 위에, 문장 끝의 [EOS] 토큰 마지막 히든 스테이트를 바로 임베딩으로 사용.

이렇게 하니 LLM의 풍부한 언어 이해 능력을 임베딩으로 그대로 흡수할 수 있습니다.

이게 무슨 말이냐?

즉, 마지막 스텝(문장 끝 [EOS]) 에서 계산된 히든 스테이트엔 - 앞의 모든 단어 정보 - 문장 전체 맥락 이 압축되어 들어가 있다.

"다른 복잡한 후처리 말고, 마지막[EOS] 히든 스테이트 -> 바로 임베딩으로 쓰면 되지 않나?"

전체 문맥을 이미 담고 있으니 문장 대표값으로 충분 추가 레이어(풀링, 선형 변환 등) 없이 빠르고 단순 거대한 LLM이 학습한 언어 이해력을 그대로 임베딩에 투입

합성 데이터로 예열
- Qwen3 LLM이 스스로 문장 쌍(질문-답변, 유사.비유사 문장 등 )을 수억 개 생성 -> "비슷한 건 가깝게, 다른 건 멀게"라는 대비/대조 학습(contrastive) 수행.
- 사람 라벨이 부족해도 저렴하게 방대한 패턴을 학습해 언어.도메인 범용성이 생김
고품질 지도 데이터로 미세 조정
- 실제 사람이 검수한 정답 쌍(예: 검색 쿼리 <-> 정답 문서)을 투입해 정밀도(precision) 향상
- 1단계에서 배운 "배운 맞는 감"에 세밀한 기준선을 새겨 넣는 과정
모델 머징(model merging)으로 보정 작업
- 서로 다른 체크포인트를 Slerp(가중치 보간) 방식으로 섞음.
- 각 버전의 장점(범용성, 정밀성)을 하나의 네트워크에 균형 있게 융합 -> 잡음에 강하고 벤치마크 전반에서 고른 성능