전체 글 321

vllm 논문 리뷰 - Efficient Memory Management for Large Language Model Serving with PagedAttention

problem of original transformer architecture현재 대부분의 LLM은 autoregressive Transformer model에 기반을 둔다. 하지만 이 Transformer 기반의 sequential한 연산은 memory-bound하다 (DNN, CNN의 경우 conv 연산이나 GEMM 연산 때문에 compute-bound인 경우가 많음).위 사진에서 회색 부분은 model weight이고(serving 단계에서는 static하게 load되어 있음), 핑크색 부분은 attention mechanism에서 필요한 key와 value tensor를 저장하는 KV cache이다(request에 따라 dynamic하게 바뀜). 기타 부분은 activation 같은 임시 ten..

AI/DL 2025.03.31

2025 겨울 가속기학교 - 딥러닝 추론 모델 병렬화/가속화 하기

연구실의 지원을 받아 ARC Lab 분들과 참여한 2025 겨울 가속기학교..수업 교재가 워낙 자세하기에 배운 내용들은 따로 정리를 안 할 예정이고, 프로젝트 관련해서는 기록용으로 작성해두려고 한다. Target 모델input sentence가 주어졌을 때 Conv - MoE - FC layer를 거쳐 긍정인지 부정인지 판단하는 간단한 딥러닝 모델을 가속화하는 프로젝트였다. 전부 cpu 버전으로 작성되어 있었다. 최적화 과정1. GPU 포팅하기- Conv1D, Linear, ReLU, GetMax, SoftMax 등의 layer를 전부 GPU로 포팅했다- 각 tensor에서 host memory는 pinned memory로 설정하여 DMA direct 전송이 가능하도록 하였고, gpu memory를 미리..

etc 2025.03.01

[논문 리뷰] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

https://github.com/salesforce/LAVIS/tree/main/lavis/models/blip2_models LAVIS/lavis/models/blip2_models at main · salesforce/LAVISLAVIS - A One-stop Library for Language-Vision Intelligence - salesforce/LAVISgithub.com Introduction기존 Vision-language pretraining (VLP) 연구의 한계 => end-to-end fashion으로 큰 규모의 모델과 데이터셋을 학습하려다보니 computational cost가 무척 큼일반적이고 compute-efficient한 VLP method 제시, pre-trained..

AI/vision 2025.01.06

[논문 리뷰] Flamingo: a Visual Language Model for Few-Shot Learning

IntroductionVLM의 시초라고도 할 수 있는 모델. 아래와 같은 achievement를 달성하였다pretrained vision-only model과 language-only model을 효과적으로 연결(bridge)했다visual + textual data가 랜덤하게 interleave된 시퀀스도 처리 가능하다 => large scale web data를 긁어올 수 있었음이미지/동영상 모두 원활하게 처리 가능하다in-context few-shot learning capability를 통해 별도의 fine-tune 없이도 여러 vision&language task에서 SOTA를 달성했다기존 computer vision 분야에서의 국룰은 large supervised data로 pretrain →..

AI/vision 2025.01.03

[논문 리뷰] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://github.com/google-research/vision_transformer GitHub - google-research/vision_transformerContribute to google-research/vision_transformer development by creating an account on GitHub.github.com IntroductionTransformer는 그 computational efficiency와 scalability 덕분에 NLP 분야에서의 정론이 되었음model과 dataset이 계속 커지고 있음에도 performance saturation이 (아직) 없음이 논문에서는 CNN이 지배중인 computer vision 분야에 Transformer를 ..

AI/vision 2025.01.03

[논문 간단 리뷰] You Only Look Once: Unified, Real-Time Object Detection

Faster R-CNNtwo stage 방식 (당연히 real-time은 어려움..)이미지 전체에 대해 backbone NW + region proposal NW 쭉 통과시키고각 region에 대해 cropping (rol-pool, rol-align) + class prediction + bbox translate prediction YOLO Introduction기존 모델들의 한계DPM(Deformable Parts Model): sliding window approach + 각각에 대해 classifier 돌아감 (비효율적)R-CNN: generate potential bbox(region proposal) + then run classifier, 느리고 optimize하기 어렵다single con..

AI/vision 2025.01.02

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://littlefoxdiary.tistory.com/44 [논문리뷰] GPT3 - Language Models are Few-Shot Learners오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language Models are Few-Shot Learners 2020/07/20littlefoxdiary.tistory.comGPT-3 관련 논문리뷰 (방법론, evaluation 위주임) AbstractBidirectional Encoder ..

AI/NLP (LLM) 2025.01.02

[django] custom authentication 및 custom user를 통해 구글 로그인 구현하기 (feat. supabase) - 2

이제 supabase의 sso 관련 api를 활용해 로그인 기능을 어떻게 구현했는지에 대해 알아보자. (오래되어서 자세한 디테일은 기억이 안나지만...) supabase에서 제공하는 api (https://supabase.com/docs/guides/auth/social-login/auth-google)를 곧바로 사용해도 되지만, 나의 경우는 서비스에서 sso 로그인과 일반 로그인을 전부 제공하고 싶어서 user 테이블을 따로 만들었다.sso 로그인 시 원래는 auth 스키마의 users 테이블 아래 그 정보가 저장되는데, 이제 public 스키마의 users 테이블에다가도 정보를 추가로 저장하여 일반 로그인 정보와 함께 관리하고자 했다. oauth_provider 필드의 값에 따라 일반 로그인 사용자인..

web/django 2024.12.26

[django] custom authentication 및 custom user를 통해 구글 로그인 구현하기 (feat. supabase) - 1

코드 작성한지 몇 달 지나서 (사소한 트러블슈팅들은) 기억은 안나지만 세팅 방법 등을 정리해두고자 글을 남긴다~~  장고에서는 기본적으로 (여러 field와 method가 정의된) Users 모델을 제공하고 있다. username, password, email, first_name, last_name, is_staff, is_active, is_superuser 등의 필드와 check_password, set_password, authenticate 등의 메서드가 포함되어 있다. 기본 User 모델을 상속받아 customize하면 된다. 기본적으로 User 모델은 장고의 세션 인증, 토큰 인증 및 JWT 인증과 연동된다 !!인가(Permission)과 관련되어서는 AllowAny, IsAuthentica..

web/django 2024.12.26

클라우드 컴퓨팅과 네트워크의 핵심 개념 이해하기

클라우드 컴퓨팅과 네트워크의 핵심 개념인 IP, DNS, 포트, VM,그리고 클라우드 서비스 모델인 On-Premise, IaaS, PaaS, SaaS에 대해 자세히 알아봅시다~~ 1. 네트워크의 기초 개념IP(Internet Protocol)인터넷에 연결된 모든 장치에 부여되는 고유한 식별자• IPv4: 일반적으로 사용되는 32비트 주소 체계로, 192.168.0.1과 같은 형태를 가집니다.• IPv6: 주소 공간의 부족을 해결하기 위해 개발된 128비트 주소 체계입니다. DNS(Domain Name System)사람이 이해하기 쉬운 도메인 이름을 컴퓨터가 이해할 수 있는 IP 주소로 변환해주는 시스템• 동작 원리: 사용자가 도메인 이름을 입력하면, DNS 서버가 해당 도메인에 대한 IP 주소를 반환•..

web/snulion 2024.11.30
반응형