분류 전체보기 319

[논문 리뷰] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

https://github.com/salesforce/LAVIS/tree/main/lavis/models/blip2_models LAVIS/lavis/models/blip2_models at main · salesforce/LAVISLAVIS - A One-stop Library for Language-Vision Intelligence - salesforce/LAVISgithub.com Introduction기존 Vision-language pretraining (VLP) 연구의 한계 => end-to-end fashion으로 큰 규모의 모델과 데이터셋을 학습하려다보니 computational cost가 무척 큼일반적이고 compute-efficient한 VLP method 제시, pre-trained..

AI/vision 2025.01.06

[논문 리뷰] Flamingo: a Visual Language Model for Few-Shot Learning

IntroductionVLM의 시초라고도 할 수 있는 모델. 아래와 같은 achievement를 달성하였다pretrained vision-only model과 language-only model을 효과적으로 연결(bridge)했다visual + textual data가 랜덤하게 interleave된 시퀀스도 처리 가능하다 => large scale web data를 긁어올 수 있었음이미지/동영상 모두 원활하게 처리 가능하다in-context few-shot learning capability를 통해 별도의 fine-tune 없이도 여러 vision&language task에서 SOTA를 달성했다기존 computer vision 분야에서의 국룰은 large supervised data로 pretrain →..

AI/vision 2025.01.03

[논문 리뷰] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://github.com/google-research/vision_transformer GitHub - google-research/vision_transformerContribute to google-research/vision_transformer development by creating an account on GitHub.github.com IntroductionTransformer는 그 computational efficiency와 scalability 덕분에 NLP 분야에서의 정론이 되었음model과 dataset이 계속 커지고 있음에도 performance saturation이 (아직) 없음이 논문에서는 CNN이 지배중인 computer vision 분야에 Transformer를 ..

AI/vision 2025.01.03

[논문 간단 리뷰] You Only Look Once: Unified, Real-Time Object Detection

Faster R-CNNtwo stage 방식 (당연히 real-time은 어려움..)이미지 전체에 대해 backbone NW + region proposal NW 쭉 통과시키고각 region에 대해 cropping (rol-pool, rol-align) + class prediction + bbox translate prediction YOLO Introduction기존 모델들의 한계DPM(Deformable Parts Model): sliding window approach + 각각에 대해 classifier 돌아감 (비효율적)R-CNN: generate potential bbox(region proposal) + then run classifier, 느리고 optimize하기 어렵다single con..

AI/vision 2025.01.02

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://littlefoxdiary.tistory.com/44 [논문리뷰] GPT3 - Language Models are Few-Shot Learners오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language Models are Few-Shot Learners 2020/07/20littlefoxdiary.tistory.comGPT-3 관련 논문리뷰 (방법론, evaluation 위주임) AbstractBidirectional Encoder ..

AI/NLP (LLM) 2025.01.02

[django] custom authentication 및 custom user를 통해 구글 로그인 구현하기 (feat. supabase) - 2

이제 supabase의 sso 관련 api를 활용해 로그인 기능을 어떻게 구현했는지에 대해 알아보자. (오래되어서 자세한 디테일은 기억이 안나지만...) supabase에서 제공하는 api (https://supabase.com/docs/guides/auth/social-login/auth-google)를 곧바로 사용해도 되지만, 나의 경우는 서비스에서 sso 로그인과 일반 로그인을 전부 제공하고 싶어서 user 테이블을 따로 만들었다.sso 로그인 시 원래는 auth 스키마의 users 테이블 아래 그 정보가 저장되는데, 이제 public 스키마의 users 테이블에다가도 정보를 추가로 저장하여 일반 로그인 정보와 함께 관리하고자 했다. oauth_provider 필드의 값에 따라 일반 로그인 사용자인..

web/django 2024.12.26

[django] custom authentication 및 custom user를 통해 구글 로그인 구현하기 (feat. supabase) - 1

코드 작성한지 몇 달 지나서 (사소한 트러블슈팅들은) 기억은 안나지만 세팅 방법 등을 정리해두고자 글을 남긴다~~  장고에서는 기본적으로 (여러 field와 method가 정의된) Users 모델을 제공하고 있다. username, password, email, first_name, last_name, is_staff, is_active, is_superuser 등의 필드와 check_password, set_password, authenticate 등의 메서드가 포함되어 있다. 기본 User 모델을 상속받아 customize하면 된다. 기본적으로 User 모델은 장고의 세션 인증, 토큰 인증 및 JWT 인증과 연동된다 !!인가(Permission)과 관련되어서는 AllowAny, IsAuthentica..

web/django 2024.12.26

클라우드 컴퓨팅과 네트워크의 핵심 개념 이해하기

클라우드 컴퓨팅과 네트워크의 핵심 개념인 IP, DNS, 포트, VM,그리고 클라우드 서비스 모델인 On-Premise, IaaS, PaaS, SaaS에 대해 자세히 알아봅시다~~ 1. 네트워크의 기초 개념IP(Internet Protocol)인터넷에 연결된 모든 장치에 부여되는 고유한 식별자• IPv4: 일반적으로 사용되는 32비트 주소 체계로, 192.168.0.1과 같은 형태를 가집니다.• IPv6: 주소 공간의 부족을 해결하기 위해 개발된 128비트 주소 체계입니다. DNS(Domain Name System)사람이 이해하기 쉬운 도메인 이름을 컴퓨터가 이해할 수 있는 IP 주소로 변환해주는 시스템• 동작 원리: 사용자가 도메인 이름을 입력하면, DNS 서버가 해당 도메인에 대한 IP 주소를 반환•..

web/snulion 2024.11.30

[논문 리뷰] Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

https://github.com/dongyh20/Insight-V GitHub - dongyh20/Insight-V: Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language ModelsInsight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models - dongyh20/Insight-Vgithub.com InsightV Introduction대규모 언어 모델(LLM)은 Chain-of-Thought 프롬프트에서 향상된 추론 능력과 신뢰성을 보여줌. 그러나 비전-언어 작업에서 고품질의 긴 chain reasoning dataset..

AI/NLP (LLM) 2024.11.28

[논문 리뷰] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

https://github.com/PKU-YuanGroup/LLaVA-CoT GitHub - PKU-YuanGroup/LLaVA-CoT: LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoningLLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning - PKU-YuanGroup/LLaVA-CoTgithub.com LLaVA-CoT Introduction언어와 시각을 통합하고 효과적이고 체계적이며 심층적인 추론을 촉진하는 멀티모달 모델의 개발은 상당히 중요하다초기 비전-언어 모델(VLM)의 한계direct prediction approa..

AI/NLP (LLM) 2024.11.28