대충공부한거적어두는블로그

  • 홈
  • 태그
  • 방명록

2024/10/30 1

Vision Encoder - SIGLIP

LLaVA OneVision을 fine-tune 해보고 있는데, LVLM의 mm_vision_tower (vision encoder)로 siglip을 사용중이어서 이참에 정리 겸 공부해볼까 싶어 남긴다 이미지에서 시각 정보를 vision feature vector로 추출하고 그것을 text input과 동일한 embedding 공간에 투영하는 과정을 거쳐 text decoder (여기선 LLM이겠죠)의 인풋으로 들어간다.. encoder 모델CLIP (Contrastive Language-Image Pre-training)* CLIP은 이미지와 텍스트를 같이 학습하여 두 가지의 상호 연관성을 강화하는 contrastive learning 기법을 사용* 이미지 인코더(ViT)와 텍스트 인코더(BERT)를 ..

AI/vision 2024.10.30
이전
1
다음
더보기
프로필사진

(2023.02 ~ ) 해킹 공부 기록용으로 시작했다가 잡다한 거 다올리는 공부 메모장 느낌으로 봐주세요😺

  • 분류 전체보기 (319)
    • security (183)
      • 포너블 - pwnable.xyz (18)
      • 포너블 - pwnable.kr (32)
      • 포너블 - dreamhack (22)
      • 웹해킹 (32)
      • 리버싱핵심원리 (29)
      • 리버싱 - reversing.kr (0)
      • 리버싱 - CodeEngn.com (5)
      • CTF (3)
      • 암호학 (7)
      • 화이트햇 (22)
      • 가디언 (13)
    • BOJ (8)
    • web (76)
      • HTML+CSS+JS (9)
      • 기타 (7)
      • SQL (5)
      • 알고리즘 (11)
      • Vue (14)
      • React (0)
      • nodejs (2)
      • django (18)
      • snulion (9)
    • speech (2)
    • etc (15)
    • AI (35)
      • NLP (LLM) (17)
      • DL (8)
      • vision (9)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2024/10   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바