대전대신고 ACT(KE)_LLM-DiT Deep Fusion 모델의 다양성 향상을 위한 코사인 유사도 기반 제어 방안 연구

2025-11-15 20

최근 텍스트-이미지 생성 분야에서 대형 언어 모델(LLM)과 확산 트랜스포머(DiT)를 깊게 결합하는 'Deep Fusion' 아키텍처가 주목받고 있습니다. 이 접근법은 기존의 얕은 조건화 방식보다 풍부한 텍스트-이미지 정렬을 가능하게 하지만, 동일 조건에서 생성된 결과물 간의 다양성 부족 문제는 여전히 중요한 과제로 남아있습니다. 본 연구는 선행 연구(CVPR 2025)에서 규명된 Deep Fusion 의 구조적 이점을 바탕으로, '코사인 유사도'를 핵심 제어 신호로 활용하여 샘플 간 유사성을 정량화하고 제어하는 방법을 탐구합니다. 훈련 중 다양성 손실 적용, 텍스트-이미지 정렬 강화, 후처리 샘플 선택 등 다각적인 접근을 통해, 생성 모델의 텍스트 조건 일치도를 유지하면서 동시에 결과물의 다양성을 실질적으로 개선하는 것을 목표로 합니다. 본 보고서는 이러한 목표 달성을 위한 구체적인 개념 정의, 탐구 내용, 실험 설계 및 단계별 실행 계획을 기술합니다.

댓글 0

등록된 댓글이 없습니다.