AI 35

[논문 리뷰] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

https://github.com/salesforce/LAVIS/tree/main/lavis/models/blip2_models LAVIS/lavis/models/blip2_models at main · salesforce/LAVISLAVIS - A One-stop Library for Language-Vision Intelligence - salesforce/LAVISgithub.com Introduction기존 Vision-language pretraining (VLP) 연구의 한계 => end-to-end fashion으로 큰 규모의 모델과 데이터셋을 학습하려다보니 computational cost가 무척 큼일반적이고 compute-efficient한 VLP method 제시, pre-trained..

AI/vision 2025.01.06

[논문 리뷰] Flamingo: a Visual Language Model for Few-Shot Learning

IntroductionVLM의 시초라고도 할 수 있는 모델. 아래와 같은 achievement를 달성하였다pretrained vision-only model과 language-only model을 효과적으로 연결(bridge)했다visual + textual data가 랜덤하게 interleave된 시퀀스도 처리 가능하다 => large scale web data를 긁어올 수 있었음이미지/동영상 모두 원활하게 처리 가능하다in-context few-shot learning capability를 통해 별도의 fine-tune 없이도 여러 vision&language task에서 SOTA를 달성했다기존 computer vision 분야에서의 국룰은 large supervised data로 pretrain →..

AI/vision 2025.01.03

[논문 리뷰] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://github.com/google-research/vision_transformer GitHub - google-research/vision_transformerContribute to google-research/vision_transformer development by creating an account on GitHub.github.com IntroductionTransformer는 그 computational efficiency와 scalability 덕분에 NLP 분야에서의 정론이 되었음model과 dataset이 계속 커지고 있음에도 performance saturation이 (아직) 없음이 논문에서는 CNN이 지배중인 computer vision 분야에 Transformer를 ..

AI/vision 2025.01.03

[논문 간단 리뷰] You Only Look Once: Unified, Real-Time Object Detection

Faster R-CNNtwo stage 방식 (당연히 real-time은 어려움..)이미지 전체에 대해 backbone NW + region proposal NW 쭉 통과시키고각 region에 대해 cropping (rol-pool, rol-align) + class prediction + bbox translate prediction YOLO Introduction기존 모델들의 한계DPM(Deformable Parts Model): sliding window approach + 각각에 대해 classifier 돌아감 (비효율적)R-CNN: generate potential bbox(region proposal) + then run classifier, 느리고 optimize하기 어렵다single con..

AI/vision 2025.01.02

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://littlefoxdiary.tistory.com/44 [논문리뷰] GPT3 - Language Models are Few-Shot Learners오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language Models are Few-Shot Learners 2020/07/20littlefoxdiary.tistory.comGPT-3 관련 논문리뷰 (방법론, evaluation 위주임) AbstractBidirectional Encoder ..

AI/NLP (LLM) 2025.01.02

[논문 리뷰] Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

https://github.com/dongyh20/Insight-V GitHub - dongyh20/Insight-V: Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language ModelsInsight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models - dongyh20/Insight-Vgithub.com InsightV Introduction대규모 언어 모델(LLM)은 Chain-of-Thought 프롬프트에서 향상된 추론 능력과 신뢰성을 보여줌. 그러나 비전-언어 작업에서 고품질의 긴 chain reasoning dataset..

AI/NLP (LLM) 2024.11.28

[논문 리뷰] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

https://github.com/PKU-YuanGroup/LLaVA-CoT GitHub - PKU-YuanGroup/LLaVA-CoT: LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoningLLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning - PKU-YuanGroup/LLaVA-CoTgithub.com LLaVA-CoT Introduction언어와 시각을 통합하고 효과적이고 체계적이며 심층적인 추론을 촉진하는 멀티모달 모델의 개발은 상당히 중요하다초기 비전-언어 모델(VLM)의 한계direct prediction approa..

AI/NLP (LLM) 2024.11.28

[논문리뷰] Deep Residual Learning for Image Recognition

Introduction당시 deep neural network는 학습시키기 무척이나 어려웠음why?- problem of vanishing/exploding gradients => normalized initialization과 intermediate normalization layers 으로 어느정도 해결되는 듯함 (이제는 10개가 넘는 layer에서도 SGD+back prop으로 수렴하기 시작)- degradation problem = network의 depth가 증가하다 어느순간 성능이 saturate되다가 다시 확 떨어지기 시작한다 => 기존에는 overfitting이라고 생각하지만!!layer 수를 늘렸는데 testing time 뿐 아니라 training time에서도 error rate가 ..

AI/DL 2024.11.23

[논문 리뷰] PARROT: MULTILINGUAL VISUAL INSTRUCTION TUNING

https://github.com/AIDC-AI/Parrot GitHub - AIDC-AI/Parrot: 🎉 The code repository for "Parrot: Multilingual Visual Instruction Tuning" in PyTorch.🎉 The code repository for "Parrot: Multilingual Visual Instruction Tuning" in PyTorch. - AIDC-AI/Parrotgithub.com Abstraction & Introduction기존 MLLM의 학습 방식은 Supervised Fine-Tuning(SFT) 방식주로 사전 학습된 LLM과 Vision encoder에 의존vision encoder를 LLM과 정렬하여 LLM에 멀..

AI/NLP (LLM) 2024.10.31
반응형