Small-to-Big Chunking Strategy

검색은 정밀하게, 문맥은 풍부하게.

공군 GPT 에이전트 AiRWARDS의 RAG 파이프라인에서는 청크를 작게 자를수록 검색은 정밀해졌지만, LLM에 전할 문맥은 줄어드는 trade-off가 있었습니다. Leaf Node로 정밀하게 검색하고 Parent Node로 풍부한 문맥을 반환하는 Small-to-Big 청킹으로, 정밀한 검색과 풍부한 문맥을 함께 얻었습니다.

공군 AI신기술체계개발대 데이터플랫폼팀에서 복무하며, 공군인들을 위해 운영되는 LLM 서비스인 AiRWARDS 시스템을 위한 RAG 파이프라인을 연구개발
LLM의 환각 현상을 억제하고 올바른 답변에 필요한 정보를 LLM에 서빙하기 위해 공군 도메인의 각종 문서와 일반 지식 문서들을 chunking하여 embedding 후 Vector DB에 저장하는 파이프라인 구축

Document Chunking을 수행함에 있어, 청크 크기를 줄이면 검색 정밀도가 높아지지만, LLM에게 전달되는 청크 정보량이 줄어들어 부족한 답변과 환각 현상 유발
- 주변 window를 포함하는 방식으로 부분적인 해결이 가능하지만, 이는 문단의 의미적 경계를 반영하지 못하는 한계 있음
청크 크기를 키우면 LLM에 전달되는 정보량이 증가하지만, 하나의 임베딩 벡터에 너무 많은 정보가 담기게 되므로 세부 내용의 의미 표현이 희석되어 검색 정밀도가 떨어지는 문제가 식별됨
이로 인해 chunk size에 따른 검색 정밀도-정보량 사이의 trade-off가 존재함을 확인
이러한 trade-off를 극복하고 보다 정밀한 검색과 풍부한 정보량을 제공하는 RAG 파이프라인 구축이 필요

작은 청크

검색 정밀도high

정보량low

큰 청크

검색 정밀도low

정보량high

Small-to-Big

검색 정밀도high

정보량high

Document Chunking 과정에서 문서 노드를 Parent Node와 Leaf Node로 계층화하고, 두 노드 사이의 연결 관계를 저장
검색 단위와 반환 단위를 분리하는 Small-to-Big 청킹 전략을 적용. Leaf Node는 세부 질의에 대한 정밀한 검색 단위로 사용하고, Parent Node는 답변 생성에 필요한 충분한 문맥을 제공하는 반환 단위로 활용
검색 과정에서 Leaf Node가 검색되면 연결된 Parent Node를 반환하도록 구성하여, 검색 단계에서는 세밀한 의미 매칭을 유지하면서도 생성 단계에서는 풍부한 문맥을 LLM에 제공할 수 있도록 설계
Multi-Granularity Indexing: 다중 수준 인덱싱을 통해 다양한 사용자 query 대응. Parent-Level Search가 필요한 거시적 질문은 Parent Node가, Leaf-Level Search가 필요한 세부적 질문은 Leaf Node가 검색되도록 함

Figure 1. Small-to-Big · 검색은 정밀하게, 정보량은 풍부하게

Figure 2. QdrantQueryEngine · Leaf 검색 → Parent 반환 흐름

개발 과정에서의 어려움과 해결 방법.

Context Stitching

경계에서 새는 문맥

Parent Node의 Chunk 경계에서 문맥이 소실되는 문제가 발생하므로, 검색된 Leaf Node가 Parent Node의 맨 앞/맨 마지막 노드인 경우, 인접 Leaf Node의 내용을 이어붙여 같이 반환

Result Collapsing

Top-K 잠식

검색 단계에서 Parent Node와 Leaf Node 사이의 중복 발생으로 인한 Top-K 잠식 문제가 발생하므로, Result Collapsing을 통한 Retrieval 결과 중복 처리가 필요. 서로 겹치는 Parent-Leaf Node가 있을 경우 Parent만 반환. 같은 부모를 공유하는 Leaf Node들이 여러 개 검색될 경우 하나의 Parent만 반환

Small-to-Big 구조를 통해 세부 질의에 대한 정밀한 검색과 답변 생성에 필요한 풍부한 문맥 제공을 동시에 달성
검색된 Leaf Node를 Parent Node 단위의 문맥과 함께 제공함으로써, LLM이 공군 내부 문서의 긴 맥락을 활용해 답변을 생성할 수 있는 구조를 구축
답변에 필요한 내용이 여러 문단에 걸쳐 나타나 있는 경우에 대한 대응 가능
다중 수준 인덱싱을 통한 문서에 대한 구조화된 이해 능력
표 데이터에서의 문맥 보존 능력 개선: 크기가 큰 표 전체를 하나의 Parent Node로 반환할 수 있게 되어 표의 헤더 부분이나 표 데이터 일부분이 청크 경계에 의해 소실되는 문제 완화

표 데이터에서의 한계점

부모 노드의 크기를 초과하는 표는 여전히 청크 경계에 의해 잘려나가 정보가 소실될 수 있음

정량적 성능 평가의 부재

본 개발노트에서는 검색 성능 및 답변 품질 향상을 정성적으로 분석하였으나, Recall@K, Precision@K, MRR, nDCG 등의 검색 성능 지표에 따른 정량 평가는 수행하지 못함. 따라서 제안 방식의 효과를 보다 체계적으로 검증하기 위해서는 향후 정량 평가가 필요함

Parent Node 반환에 따른 노이즈 증가 가능성

Leaf Node 기반 검색은 세부 질의에 대한 정밀한 매칭을 가능하게 하지만, 최종적으로 Parent Node를 반환하는 과정에서 질의와 직접 관련 없는 주변 문맥까지 함께 포함될 수 있음. 이로 인해 LLM의 입력 컨텍스트가 불필요하게 증가하거나, 일부 질의에서는 답변 생성 과정에 노이즈가 유입될 가능성이 있음

공군 AiRWARDS 시스템의 RAG 파이프라인에서 발생한 chunk size에 따른 검색 정밀도와 문맥 정보량 사이의 trade-off를 해결하기 위해 Small-to-Big 청킹 전략을 적용하였다. Leaf Node를 정밀한 검색 단위로, Parent Node를 풍부한 문맥 제공 단위로 활용함으로써 세부 질의에 대한 검색 정확도와 답변 생성에 필요한 문맥 확보를 동시에 달성하고자 했다.

또한 Multi-Granularity Indexing, Result Collapsing, Context Stitching을 함께 적용하여 다양한 질의 유형에 대응하고, 중복 검색 결과와 청크 경계로 인한 문맥 소실 문제를 완화하였다. 이를 통해 여러 문단에 근거가 분산된 질의나 표 데이터처럼 문맥 보존이 중요한 문서에서도 보다 안정적인 답변 생성을 지원할 수 있었다.

향후에는 정량 평가를 통해 기존 fixed-size chunking 방식 대비 성능 향상을 검증하고, 문서 유형별 특성을 반영한 adaptive chunking 전략으로 확장할 여지가 있다.

PLAN

Evaluation Plan

기존 fixed-size chunking 방식과의 비교 평가 — 개발한 Small-to-Big 청킹 전략의 효과를 정량적으로 검증하기 위해 기존 fixed-size chunking 방식과의 비교 평가가 필요하다.
검색 성능 평가 — 검색 성능 측면에서는 Recall@K, Precision@K, MRR, nDCG 등의 지표를 활용하여 정답 근거 문서가 상위 검색 결과에 포함되는지를 측정할 수 있다.
답변 품질 평가 — 답변 품질 측면에서는 검색된 context를 기반으로 생성된 답변에 대해 정답성, 근거 충실성, 환각 발생 여부, 문맥 활용도 등을 평가할 필요가 있다.
긴 맥락 및 표 데이터 기반 질의 평가 — 공군 내부 문서와 같이 긴 맥락과 표 데이터가 포함된 문서에서는 단일 문단 질의뿐 아니라, 여러 문단에 걸쳐 근거가 분산된 질의와 표 전체 구조를 이해해야 하는 질의를 별도로 구성하여 평가할 필요가 있다.

FOLLOW-UP

표 구조 파싱 전처리

표 데이터의 경우 단순 텍스트 청킹만으로는 행·열 관계, 헤더, 병합 셀, 단위 정보 등이 소실될 수 있다.
이를 해결하기 위해 표 구조를 별도로 파싱하여 LLM이 이해하기에 적합한 형태로 전처리를 수행하는 파이프라인을 설계하였다.
이를 통해 긴 표나 복잡한 표에서도 LLM이 올바르게 이해하고 답변할 수 있도록 하여 표 기반 질의응답의 안정성을 높일 수 있었다.

FUTURE

Adaptive Chunking

향후에는 문서 유형에 따라 Parent Node의 크기를 동적으로 조정하는 adaptive chunking 전략을 적용할 수 있다.
일반 텍스트 문서, 규정 문서, 표 중심 문서, 매뉴얼형 문서 등은 서로 다른 구조적 특성을 가지므로, 동일한 chunk size를 일괄 적용하기보다 문서 구조에 맞는 계층적 노드 생성 전략을 적용할 필요가 있다.