AI/NLP (LLM)

[논문 리뷰] Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

민사민서 2024. 11. 28. 23:36

https://github.com/dongyh20/Insight-V

 

GitHub - dongyh20/Insight-V: Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models - dongyh20/Insight-V

github.com

 

InsightV Introduction

대규모 언어 모델(LLM)은 Chain-of-Thought 프롬프트에서 향상된 추론 능력과 신뢰성을 보여줌. 그러나 비전-언어 작업에서 고품질의 긴 chain reasoning dataset과 최적화된 학습 파이프라인은 아직 충분히 탐구되지 않음

⇒ 복잡한 멀티모달 작업을 위한 긴 추론 데이터를 확장 가능하게 생성했음

⇒ 멀티모달 대형 언어 모델(MLLM)의 추론 능력을 향상시키는 효과적인 학습 파이프라인을 제시함

 

two-staged 자동화된 데이터 생성 파이프라인 디자인

길고 고품질의 추론 데이터를 위한 파이프라인, 확장 가능함

 

멀티에이전트 시스템

  • 길고 복잡한 추론 데이터를 직접적으로 단일 모델 MLLM에 감독 학습시키는 것은 이상적인 추론 능력을 제공하지 못함 ⇒ 추론 + 요약으로 분해하여 학습 및 처리하자
  • 추론 에이전트: 입력된 질문에 대한 상세한 추론 과정을 생성
  • 요약 에이전트: 추론 과정에서 핵심 정보를 식별하고 선택적으로 질문에 답변
  • Iterative DPO 알고리즘 적용: 추론 에이전트의 생성 안정성과 품질을 향상
  • 두 에이전트는 협력하여 추론 품질을 더욱 향상시킴

성능 평가

  • 모델 통합: LLaVA-NeXT 모델과 (그들만의) 더 강력한 기본 MLLM에 InsightV를 통합하여 평가
  • 성과
    • LLaVA-NeXT에서의 개선: 7개의 도전적인 시각적 추론 벤치마크에서 평균 7.0%의 성능 향상
    • 강력한 기본 MLLM에서의 개선: 2.9%의 성능 향상

 

연관 연구

  • 비전-언어 추론:
    • MLLM의 대부분의 연구는 세밀한 디테일 분석과 위치 지정에 중점을 두고 있음
    • 기존 방법은 주로 Chain-of-Thought 접근법에서 파생되며, 단계별 추론을 생성하도록 MLLM을 학습시킴
    • 이러한 접근법은 구조화된 추론 경로와 확장된 추론 체인의 중요성을 간과하는 경향이 있음
    • 복잡한 작업에서 전체 추론 과정을 단일 모델이 처리하는 것은 한계가 있으므로, 문제를 분해하고 개선하기 위한 멀티에이전트 시스템의 필요성이 대두됨
  • 비전-언어 정렬:
    • RLHF(인간 피드백을 통한 강화 학습): 모델의 응답 품질과 해석 가능성 향상시키기 위해 사용
    • DPO(직접 선호 최적화): 인간의 선호 데이터를 직접 학습하여 모델의 출력을 인간이 선택한 응답과 더 잘 일치하도록 최적화함
    • 전통적인 DPO의 한계: 오프라인 시나리오에 주로 초점을 맞추며, 모델이 발전함에 따라 그 효과가 감소할 수 있음
    • Iterative DPO의 도입: 각 반복에서 DPO를 통해 선호 쌍을 최적화하고, 업데이트된 모델을 사용하여 다음 반복을 위한 새로운 선호 쌍을 생성하며, 이를 보상 모델로 평가함

 

방법론 Overview

  • 멀티모달 LLM의 추론 능력 부족: 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 연구는 많았지만, 멀티모달 LLM(MLLM)의 reasoning potential은 아직 탐구되지 않았음
  • 기존 접근법의 한계:
    • 대부분의 접근법은 모델이 이미 강력한 추론 기술을 가지고 있다고 가정, inference stage에서의 reasoning을 강화하는데 초점을 둠
    • chain-of-thought 데이터를 사용하여 모델 파라미터를 최적화하는 방법도 있지만, 이는 모델이 이전 능력을 유지하면서 새로운 추론 기술을 발전시켜야하므로 쉽지 않음
    • 구조화된 고품질 학습 데이터 부족
  • Insight-V 제안:
    • 두 개의 MLLM 에이전트로 구성된 시스템:
      • 추론 모델: 문제 해결을 돕기 위한 상세한 추론 과정을 생성.
      • 요약 모델: 추론을 평가하여 답변의 관련성과 유용성을 판단.
    • 구조화된 고품질 데이터셋을 구축하여 두 에이전트를 학습.
    • 문제 해결 과정을 추론과 요약 단계로 분해하여 MLLM의 추론 능력을 향상시킴.

구조화된 추론 데이터의 생성

  • MLLM에 강력한 추론 기술을 학습시키는 것은 데이터 제한으로 인해 쉽지 않다
    • 목표: progressive generation process와 multi-granularity assement 를 통한 고품질의 long-chain reasoning data를 생성데이터 생성 파이프라인 소개

 

  • Progressive Long-Chain Reasoning Data Generation
    • reasoning generator 사용하여 각 입력 쿼리에 대해 JSON 형식의 구조화된 추론 과정을 생성.
    • 각 단계에서:
      • 현재 단계의 간단한 요약 제공.
      • 상세한 추론 응답 제공.
      • 다음 단계의 액션 결정 (continue 또는 summary).
    • 수학적 표현:
      • 여기서 Rt는 t번째 단계의 응답, Rans는 최종 답변, Ri는 i번째 단계의 추론, n은 총 추론 단계 수, A는 이전 단계에서 결정된 액션.
    • 다양한 응답 생성: 이 과정을 N번 반복하여 각 쿼리에 대해 다양한 구조화된 응답을 샘플링하고, 가장 효과적인 reasoning chain을 식별.
  • Multi-Granularity Assessment
    • 구조화된 responses를 획득했다면 평가를 해야 함
    • 1단계 - 직접 답변 필터링: 강력한 LLM(Qwen2)을 사용하여 생성된 최종 답변과 실제 정답을 비교하여 정확한 답변만 선택.
    • 2단계 - reasoning path scoring: 고급 멀티모달 모델(Qwen2-VL)을 사용하여 이미지, 질문, 추론 경로, 실제 정답을 입력으로 받아 추론 경로를 평가하고 1~100점의 점수를 부여.
    • 일관성 유지: 각 질문에 대한 모든 응답을 한 번에 처리(점수 부여)하여 점수의 일관성을 유지.
  • 결과: 이러한 과정을 통해 각 질문에 대한 상세한 추론을 제공하는 구조화된 고품질 데이터셋을 구축하여 모델 학습을 효과적으로 지원.

 

모델 설계

  • 멀티에이전트 프레임워크 개발
    • 추론 에이전트: 상세한 단계별 추론 과정을 생성하도록 학습.
    • 요약 에이전트: 추론 과정을 평가하고, 필요한 정보를 선택적으로 사용하여 질문에 답변.
    • 이 두 에이전트의 결합을 통해 overall reasoning performance를 개선시킴
  • Reasoning Agent
    • 기존 접근법의 문제: 추론과 답변을 한 과정에서 처리, long-chain reasoning process는 challenging한 과제고, 잘못된 reasoning으로부터 poor response가 종종 나오기도 함
    • 입력 쿼리에 대한 상세하고 구조화된 단계별 추론을 생성하는 reasoning agent 도입
    • 각 질문에 대해 가장 높은 점수를 받은 추론 경로를 선택하여 추론 데이터셋을 만듦.
    • 이 데이터셋으로 학습한 모델은 더욱 상세하고 구조화된 추론 과정을 생성할 수 있음.
  • Summary Agent
    • multi-step reasoning을 통해 생성된 추론을 평가하여 최종 답변을 제공.
    • 추론 에이전트의 응답에 오류가 있을 수 있으므로, 오류를 인식하고 필요한 요소만 선택적으로 사용할 수 있어야 함 (robustness)
    • 데이터셋 구성
      • robustness 개선: optimal reasoning process 데이터와 flawed reasoning process 데이터를 모두 학습시킴, 다양한 오류 수준의 데이터를 사용하여 모델이 추론 과정을 비판적으로 평가하도록 유도
      • reasoning agent와 align 강화: 추론 에이전트가 생성한 질문-추론 쌍도 포함시킴
      • 멀티모달 능력 유지: 기본 모델에서 사용한 일반적인 질문-답변 데이터를 약 100만 개 샘플링하여 시각적 인식 능력 유지.

학습 파이프라인

우선 well-trained MLLM에서 시작 (reasoning agent, summary agent 모두)

  • 1단계 = supervised fine-tuning to fulfill designated roles
    • 일반적인 시각적 질문-답변 작업을 처리할 수 있는 base multi-modal model에서 시작
    • 데이터셋 수집: LLaVA-NeXT, Cauldron, Cambrian-1 등의 오픈소스 학술 데이터셋에서 지식 학습에 초점을 맞춘 고품질 이미지-텍스트 데이터셋 수집
    • finetuning
      • reasoning agent: 선별된 추론 데이터셋으로 단계별 추론 능력 개발.
      • summary agent: (앞에서 말함)
  • 2단계 = 직접 선호 최적화(DPO) // reasoning model
    • 추론 모델을 인간의 추론 과정과 더 잘 정렬시키기 위해 DPO 적용.

    • 인간 선호의 true distribution을 알 방법이 없으니까 reward model r(x,y)로 근사시키고, human preference distribution을 위와 같이 모델링 함

    • minimize negative log likelihood 방식으로 human-like preference를 반영하도록 finetune
    • 전통적인 DPO 방식은 preference dataset generated offline와 model의 학습 도중 distribution과의 괴리가 발생해 효율성이 떨어질 수 있음
    • iterative DPO 알고리즘 도입
      • 여러 라운드의 DPO 학습과 샘플링을 통해 모델이 online setting을 더 잘 근사하도록 함.
      • 모델 시퀀스 학습: M1,…,MT의 모델 시퀀스를 학습하고, 각 후속 모델 Mt+1은 t번째 모델에서 생성된 선호 데이터 Dt를 사용.
      • 효과: 추론 에이전트가 인간의 선호와 더 잘 align되고, 복잡한 질문에 대해 구조화되고 상세한 추론 단계를 생성하도록 지원.

 

 

결과

  • MMMUMMMU-Pro, MMBench, MME, ChartQA, MathVista, MMStar, TextVQ, DocVQA, OCRBench, AI2D 등의 벤치마크에서 성능 향상
  • 요약 Agent만 사용하거나, CoT만을 적용한 모델은 성능 향상이 미미했음, 멀티에이전트 시스템이 시스템의 시각적 이해 능력을 향상시키는 데 중요한 역할을 함을 파악함
  • 더 큰 데이터셋을 학습할수록 추론 에이전트 능력 향상
  • iterative DPO로 추가적인 학습 수행 시 점진적인 (약간의) 성능 향상