AI 30

[논문 리뷰] Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

https://github.com/dongyh20/Insight-V GitHub - dongyh20/Insight-V: Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language ModelsInsight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models - dongyh20/Insight-Vgithub.com InsightV Introduction대규모 언어 모델(LLM)은 Chain-of-Thought 프롬프트에서 향상된 추론 능력과 신뢰성을 보여줌. 그러나 비전-언어 작업에서 고품질의 긴 chain reasoning dataset..

AI/NLP (LLM) 2024.11.28

[논문 리뷰] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

https://github.com/PKU-YuanGroup/LLaVA-CoT GitHub - PKU-YuanGroup/LLaVA-CoT: LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoningLLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning - PKU-YuanGroup/LLaVA-CoTgithub.com LLaVA-CoT Introduction언어와 시각을 통합하고 효과적이고 체계적이며 심층적인 추론을 촉진하는 멀티모달 모델의 개발은 상당히 중요하다초기 비전-언어 모델(VLM)의 한계direct prediction approa..

AI/NLP (LLM) 2024.11.28

[논문리뷰] Deep Residual Learning for Image Recognition

Introduction당시 deep neural network는 학습시키기 무척이나 어려웠음why?- problem of vanishing/exploding gradients => normalized initialization과 intermediate normalization layers 으로 어느정도 해결되는 듯함 (이제는 10개가 넘는 layer에서도 SGD+back prop으로 수렴하기 시작)- degradation problem = network의 depth가 증가하다 어느순간 성능이 saturate되다가 다시 확 떨어지기 시작한다 => 기존에는 overfitting이라고 생각하지만!!layer 수를 늘렸는데 testing time 뿐 아니라 training time에서도 error rate가 ..

AI/DL 2024.11.23

[논문 리뷰] PARROT: MULTILINGUAL VISUAL INSTRUCTION TUNING

https://github.com/AIDC-AI/Parrot GitHub - AIDC-AI/Parrot: 🎉 The code repository for "Parrot: Multilingual Visual Instruction Tuning" in PyTorch.🎉 The code repository for "Parrot: Multilingual Visual Instruction Tuning" in PyTorch. - AIDC-AI/Parrotgithub.com Abstraction & Introduction기존 MLLM의 학습 방식은 Supervised Fine-Tuning(SFT) 방식주로 사전 학습된 LLM과 Vision encoder에 의존vision encoder를 LLM과 정렬하여 LLM에 멀..

AI/NLP (LLM) 2024.10.31

[논문 리뷰] Reducing Hallucinations in Vision-Language Models via Latent Space Steering

https://arxiv.org/abs/2410.15778https://github.com/shengliu66/VTI GitHub - shengliu66/VTI: Code for Reducing Hallucinations in Vision-Language Models via Latent Space SteeringCode for Reducing Hallucinations in Vision-Language Models via Latent Space Steering - shengliu66/VTIgithub.com깃헙 레포는 글 작성일인 오늘 업데이트된 따끈따끈한 논문..인데 어쩌다보니 읽어봄 Abstraction + IntroductionLVLM의 환각은 시각적 입력과 텍스트 출력 간의 불일치로 인해 발생하는..

AI/vision 2024.10.31

Vision Encoder - SIGLIP

LLaVA OneVision을 fine-tune 해보고 있는데, LVLM의 mm_vision_tower (vision encoder)로 siglip을 사용중이어서 이참에 정리 겸 공부해볼까 싶어 남긴다 이미지에서 시각 정보를 vision feature vector로 추출하고 그것을 text input과 동일한 embedding 공간에 투영하는 과정을 거쳐 text decoder (여기선 LLM이겠죠)의 인풋으로 들어간다.. encoder 모델CLIP (Contrastive Language-Image Pre-training)* CLIP은 이미지와 텍스트를 같이 학습하여 두 가지의 상호 연관성을 강화하는 contrastive learning 기법을 사용* 이미지 인코더(ViT)와 텍스트 인코더(BERT)를 ..

AI/vision 2024.10.30

OpenCV 이모저모

1. 이미지 열기cv.imread : 첫 인자는 파일경로IMREAD_COLOR loads the image in the BGR 8-bit format. This is the default that is used here.IMREAD_UNCHANGED loads the image as is (including the alpha channel if present)IMREAD_GRAYSCALE loads the image as an intensity onecv.imshow : 화면에 뵈기cv.waitKey(0) : wait for user input in ms (0 ⇒ forever)cv.imwrite : image is written to a file path 2. 비디오 캡쳐해서 보여주기 및 저장하기 (얘..

AI/vision 2024.08.29