AI/vision 5

[논문 리뷰] Reducing Hallucinations in Vision-Language Models via Latent Space Steering

https://arxiv.org/abs/2410.15778https://github.com/shengliu66/VTI GitHub - shengliu66/VTI: Code for Reducing Hallucinations in Vision-Language Models via Latent Space SteeringCode for Reducing Hallucinations in Vision-Language Models via Latent Space Steering - shengliu66/VTIgithub.com깃헙 레포는 글 작성일인 오늘 업데이트된 따끈따끈한 논문..인데 어쩌다보니 읽어봄 Abstraction + IntroductionLVLM의 환각은 시각적 입력과 텍스트 출력 간의 불일치로 인해 발생하는..

AI/vision 2024.10.31

Vision Encoder - SIGLIP

LLaVA OneVision을 fine-tune 해보고 있는데, LVLM의 mm_vision_tower (vision encoder)로 siglip을 사용중이어서 이참에 정리 겸 공부해볼까 싶어 남긴다 이미지에서 시각 정보를 vision feature vector로 추출하고 그것을 text input과 동일한 embedding 공간에 투영하는 과정을 거쳐 text decoder (여기선 LLM이겠죠)의 인풋으로 들어간다.. encoder 모델CLIP (Contrastive Language-Image Pre-training)* CLIP은 이미지와 텍스트를 같이 학습하여 두 가지의 상호 연관성을 강화하는 contrastive learning 기법을 사용* 이미지 인코더(ViT)와 텍스트 인코더(BERT)를 ..

AI/vision 2024.10.30

OpenCV 이모저모

1. 이미지 열기cv.imread : 첫 인자는 파일경로IMREAD_COLOR loads the image in the BGR 8-bit format. This is the default that is used here.IMREAD_UNCHANGED loads the image as is (including the alpha channel if present)IMREAD_GRAYSCALE loads the image as an intensity onecv.imshow : 화면에 뵈기cv.waitKey(0) : wait for user input in ms (0 ⇒ forever)cv.imwrite : image is written to a file path 2. 비디오 캡쳐해서 보여주기 및 저장하기 (얘..

AI/vision 2024.08.29