반응형
https://github.com/dongyh20/Insight-V
InsightV Introduction
대규모 언어 모델(LLM)은 Chain-of-Thought 프롬프트에서 향상된 추론 능력과 신뢰성을 보여줌. 그러나 비전-언어 작업에서 고품질의 긴 chain reasoning dataset과 최적화된 학습 파이프라인은 아직 충분히 탐구되지 않음
⇒ 복잡한 멀티모달 작업을 위한 긴 추론 데이터를 확장 가능하게 생성했음
⇒ 멀티모달 대형 언어 모델(MLLM)의 추론 능력을 향상시키는 효과적인 학습 파이프라인을 제시함
two-staged 자동화된 데이터 생성 파이프라인 디자인
길고 고품질의 추론 데이터를 위한 파이프라인, 확장 가능함
멀티에이전트 시스템
- 길고 복잡한 추론 데이터를 직접적으로 단일 모델 MLLM에 감독 학습시키는 것은 이상적인 추론 능력을 제공하지 못함 ⇒ 추론 + 요약으로 분해하여 학습 및 처리하자
- 추론 에이전트: 입력된 질문에 대한 상세한 추론 과정을 생성
- 요약 에이전트: 추론 과정에서 핵심 정보를 식별하고 선택적으로 질문에 답변
- Iterative DPO 알고리즘 적용: 추론 에이전트의 생성 안정성과 품질을 향상
- 두 에이전트는 협력하여 추론 품질을 더욱 향상시킴
성능 평가
- 모델 통합: LLaVA-NeXT 모델과 (그들만의) 더 강력한 기본 MLLM에 InsightV를 통합하여 평가
- 성과
- LLaVA-NeXT에서의 개선: 7개의 도전적인 시각적 추론 벤치마크에서 평균 7.0%의 성능 향상
- 강력한 기본 MLLM에서의 개선: 2.9%의 성능 향상
연관 연구
- 비전-언어 추론:
- MLLM의 대부분의 연구는 세밀한 디테일 분석과 위치 지정에 중점을 두고 있음
- 기존 방법은 주로 Chain-of-Thought 접근법에서 파생되며, 단계별 추론을 생성하도록 MLLM을 학습시킴
- 이러한 접근법은 구조화된 추론 경로와 확장된 추론 체인의 중요성을 간과하는 경향이 있음
- 복잡한 작업에서 전체 추론 과정을 단일 모델이 처리하는 것은 한계가 있으므로, 문제를 분해하고 개선하기 위한 멀티에이전트 시스템의 필요성이 대두됨
- 비전-언어 정렬:
- RLHF(인간 피드백을 통한 강화 학습): 모델의 응답 품질과 해석 가능성 향상시키기 위해 사용
- DPO(직접 선호 최적화): 인간의 선호 데이터를 직접 학습하여 모델의 출력을 인간이 선택한 응답과 더 잘 일치하도록 최적화함
- 전통적인 DPO의 한계: 오프라인 시나리오에 주로 초점을 맞추며, 모델이 발전함에 따라 그 효과가 감소할 수 있음
- Iterative DPO의 도입: 각 반복에서 DPO를 통해 선호 쌍을 최적화하고, 업데이트된 모델을 사용하여 다음 반복을 위한 새로운 선호 쌍을 생성하며, 이를 보상 모델로 평가함
방법론 Overview
- 멀티모달 LLM의 추론 능력 부족: 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 연구는 많았지만, 멀티모달 LLM(MLLM)의 reasoning potential은 아직 탐구되지 않았음
- 기존 접근법의 한계:
- 대부분의 접근법은 모델이 이미 강력한 추론 기술을 가지고 있다고 가정, inference stage에서의 reasoning을 강화하는데 초점을 둠
- chain-of-thought 데이터를 사용하여 모델 파라미터를 최적화하는 방법도 있지만, 이는 모델이 이전 능력을 유지하면서 새로운 추론 기술을 발전시켜야하므로 쉽지 않음
- 구조화된 고품질 학습 데이터 부족
- Insight-V 제안:
- 두 개의 MLLM 에이전트로 구성된 시스템:
- 추론 모델: 문제 해결을 돕기 위한 상세한 추론 과정을 생성.
- 요약 모델: 추론을 평가하여 답변의 관련성과 유용성을 판단.
- 구조화된 고품질 데이터셋을 구축하여 두 에이전트를 학습.
- 문제 해결 과정을 추론과 요약 단계로 분해하여 MLLM의 추론 능력을 향상시킴.
- 두 개의 MLLM 에이전트로 구성된 시스템:
구조화된 추론 데이터의 생성
- MLLM에 강력한 추론 기술을 학습시키는 것은 데이터 제한으로 인해 쉽지 않다
- 목표: progressive generation process와 multi-granularity assement 를 통한 고품질의 long-chain reasoning data를 생성데이터 생성 파이프라인 소개
- Progressive Long-Chain Reasoning Data Generation
- reasoning generator 사용하여 각 입력 쿼리에 대해 JSON 형식의 구조화된 추론 과정을 생성.
- 각 단계에서:
- 현재 단계의 간단한 요약 제공.
- 상세한 추론 응답 제공.
- 다음 단계의 액션 결정 (continue 또는 summary).
- 수학적 표현:
- 여기서 Rt는 t번째 단계의 응답, Rans는 최종 답변, Ri는 i번째 단계의 추론, n은 총 추론 단계 수, A는 이전 단계에서 결정된 액션.
- 여기서 Rt는 t번째 단계의 응답, Rans는 최종 답변, Ri는 i번째 단계의 추론, n은 총 추론 단계 수, A는 이전 단계에서 결정된 액션.
- 다양한 응답 생성: 이 과정을 N번 반복하여 각 쿼리에 대해 다양한 구조화된 응답을 샘플링하고, 가장 효과적인 reasoning chain을 식별.
- Multi-Granularity Assessment
- 구조화된 responses를 획득했다면 평가를 해야 함
- 1단계 - 직접 답변 필터링: 강력한 LLM(Qwen2)을 사용하여 생성된 최종 답변과 실제 정답을 비교하여 정확한 답변만 선택.
- 2단계 - reasoning path scoring: 고급 멀티모달 모델(Qwen2-VL)을 사용하여 이미지, 질문, 추론 경로, 실제 정답을 입력으로 받아 추론 경로를 평가하고 1~100점의 점수를 부여.
- 일관성 유지: 각 질문에 대한 모든 응답을 한 번에 처리(점수 부여)하여 점수의 일관성을 유지.
- 결과: 이러한 과정을 통해 각 질문에 대한 상세한 추론을 제공하는 구조화된 고품질 데이터셋을 구축하여 모델 학습을 효과적으로 지원.
모델 설계
- 멀티에이전트 프레임워크 개발
- 추론 에이전트: 상세한 단계별 추론 과정을 생성하도록 학습.
- 요약 에이전트: 추론 과정을 평가하고, 필요한 정보를 선택적으로 사용하여 질문에 답변.
- 이 두 에이전트의 결합을 통해 overall reasoning performance를 개선시킴
- Reasoning Agent
- 기존 접근법의 문제: 추론과 답변을 한 과정에서 처리, long-chain reasoning process는 challenging한 과제고, 잘못된 reasoning으로부터 poor response가 종종 나오기도 함
- 입력 쿼리에 대한 상세하고 구조화된 단계별 추론을 생성하는 reasoning agent 도입
- 각 질문에 대해 가장 높은 점수를 받은 추론 경로를 선택하여 추론 데이터셋을 만듦.
- 이 데이터셋으로 학습한 모델은 더욱 상세하고 구조화된 추론 과정을 생성할 수 있음.
- Summary Agent
- multi-step reasoning을 통해 생성된 추론을 평가하여 최종 답변을 제공.
- 추론 에이전트의 응답에 오류가 있을 수 있으므로, 오류를 인식하고 필요한 요소만 선택적으로 사용할 수 있어야 함 (robustness)
- 데이터셋 구성
- robustness 개선: optimal reasoning process 데이터와 flawed reasoning process 데이터를 모두 학습시킴, 다양한 오류 수준의 데이터를 사용하여 모델이 추론 과정을 비판적으로 평가하도록 유도
- reasoning agent와 align 강화: 추론 에이전트가 생성한 질문-추론 쌍도 포함시킴
- 멀티모달 능력 유지: 기본 모델에서 사용한 일반적인 질문-답변 데이터를 약 100만 개 샘플링하여 시각적 인식 능력 유지.
학습 파이프라인
우선 well-trained MLLM에서 시작 (reasoning agent, summary agent 모두)
- 1단계 = supervised fine-tuning to fulfill designated roles
- 일반적인 시각적 질문-답변 작업을 처리할 수 있는 base multi-modal model에서 시작
- 데이터셋 수집: LLaVA-NeXT, Cauldron, Cambrian-1 등의 오픈소스 학술 데이터셋에서 지식 학습에 초점을 맞춘 고품질 이미지-텍스트 데이터셋 수집
- finetuning
- reasoning agent: 선별된 추론 데이터셋으로 단계별 추론 능력 개발.
- summary agent: (앞에서 말함)
- 2단계 = 직접 선호 최적화(DPO) // reasoning model
- 추론 모델을 인간의 추론 과정과 더 잘 정렬시키기 위해 DPO 적용.
- 인간 선호의 true distribution을 알 방법이 없으니까 reward model r(x,y)로 근사시키고, human preference distribution을 위와 같이 모델링 함
- minimize negative log likelihood 방식으로 human-like preference를 반영하도록 finetune
- 전통적인 DPO 방식은 preference dataset generated offline와 model의 학습 도중 distribution과의 괴리가 발생해 효율성이 떨어질 수 있음
- iterative DPO 알고리즘 도입
- 여러 라운드의 DPO 학습과 샘플링을 통해 모델이 online setting을 더 잘 근사하도록 함.
- 모델 시퀀스 학습: M1,…,MT의 모델 시퀀스를 학습하고, 각 후속 모델 Mt+1은 t번째 모델에서 생성된 선호 데이터 Dt를 사용.
- 효과: 추론 에이전트가 인간의 선호와 더 잘 align되고, 복잡한 질문에 대해 구조화되고 상세한 추론 단계를 생성하도록 지원.
결과
- MMMU 및 MMMU-Pro, MMBench, MME, ChartQA, MathVista, MMStar, TextVQ, DocVQA, OCRBench, AI2D 등의 벤치마크에서 성능 향상
- 요약 Agent만 사용하거나, CoT만을 적용한 모델은 성능 향상이 미미했음, 멀티에이전트 시스템이 시스템의 시각적 이해 능력을 향상시키는 데 중요한 역할을 함을 파악함
- 더 큰 데이터셋을 학습할수록 추론 에이전트 능력 향상
- iterative DPO로 추가적인 학습 수행 시 점진적인 (약간의) 성능 향상
반응형
'AI > NLP (LLM)' 카테고리의 다른 글
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (0) | 2025.01.02 |
---|---|
[논문 리뷰] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step (2) | 2024.11.28 |
[논문 리뷰] PARROT: MULTILINGUAL VISUAL INSTRUCTION TUNING (1) | 2024.10.31 |
LLaVA-OneVision (opensource VLM) (0) | 2024.08.15 |
업스테이지 Solar LLM - tool RAG (0) | 2024.05.19 |