AI 40

GNN에서의 convolution

https://distill.pub/2021/understanding-gnns/ Understanding Convolutions on GraphsUnderstanding the building blocks and design choices of graph neural networks.distill.pub과거에는 그래프 분석에 graph kernel과 random-walk 기법이 사용되었다계산량이 많고, 알고리즘 기반으로 그래프의 구조적 특성을 미리 설계된 규칙(예: 서브트리, 최단 경로, 랜덤 워크 경로 등)을 활용해 추출하는 방식현재는 GNN으로 대체되었다데이터로부터 end-to-end 학습을 통해 입력 그래프의 노드, 엣지, 글로벌 속성 간의 복잡한 상호작용을 자동으로 모델링하는 방식graph는 특수..

AI/graph 2025.04.14

GNN이란 무엇인가

https://distill.pub/2021/gnn-intro/ A Gentle Introduction to Graph Neural NetworksWhat components are needed for building learning algorithms that leverage the structure and properties of graphs?distill.pub What's graph?- each node, edge, global information은 임베딩 형태로, 고차원 텐서 형태로 저장되어 있다- directed, undirected 두 종류의 edge가 있다 Graph Examples in the wild- 분자 구조: atom이 vertex, bond가 edge에 대응됨- social n..

AI/graph 2025.04.14

[논문리뷰] SqueezeLLM: Dense-andSparse Quantization

LLM inference은 compute-bound가 아니라 memory-bound이다즉 파라미터를 메모리에 load하고 store하는 속도가 핵심 bottleneck이다 = memory bandwidth가 latency에 직결됨"Memory Wall" 이라고 부르기도 함 (https://arxiv.org/pdf/2403.14123) cf) why memory-bound?- LLM inference는 대부분 matrix-vector operation이다- data reuse가 제한적이고, 서로 다른 토큰에 해당하는 벡터를 amortize하기도 힘들다Quantization?이를 해결하기 위한 하나의 approach가 quantization이다어차피 dequantization 및 FP16 computatio..

AI/DL 2025.04.12

[논문리뷰] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness

이전 attention approximation 관련 논문들은 compute complexity를 줄이는데 집중했다.더보기ex) block-sparse attentionhttps://velog.io/@nawnoes/sparse-attentionhttps://huggingface.co/blog/big-bird사전에 정해진 sparse pattern에 따라 어떤 블록을 계산 => 전체 연산량 및 메모리 사용량 줄이면서 로컬 및 글로벌 정보를 적절히 캡쳐할 수 있도록 디자인ex) low-rank approximation이래서는 wall-clock speedup은 없다. 단순히 FLOP 수만 줄일 뿐이다. runtime은 메모리 접근 시간(IO)에 더 관련이 있다 FlashAttention은 tiling이라는 ..

AI/DL 2025.04.11

vllm 논문 리뷰 - Efficient Memory Management for Large Language Model Serving with PagedAttention

problem of original transformer architecture현재 대부분의 LLM은 autoregressive Transformer model에 기반을 둔다. 하지만 이 Transformer 기반의 sequential한 연산은 memory-bound하다 (DNN, CNN의 경우 conv 연산이나 GEMM 연산 때문에 compute-bound인 경우가 많음).위 사진에서 회색 부분은 model weight이고(serving 단계에서는 static하게 load되어 있음), 핑크색 부분은 attention mechanism에서 필요한 key와 value tensor를 저장하는 KV cache이다(request에 따라 dynamic하게 바뀜). 기타 부분은 activation 같은 임시 ten..

AI/DL 2025.03.31

[논문 리뷰] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

https://github.com/salesforce/LAVIS/tree/main/lavis/models/blip2_models LAVIS/lavis/models/blip2_models at main · salesforce/LAVISLAVIS - A One-stop Library for Language-Vision Intelligence - salesforce/LAVISgithub.com Introduction기존 Vision-language pretraining (VLP) 연구의 한계 => end-to-end fashion으로 큰 규모의 모델과 데이터셋을 학습하려다보니 computational cost가 무척 큼일반적이고 compute-efficient한 VLP method 제시, pre-trained..

AI/vision 2025.01.06

[논문 리뷰] Flamingo: a Visual Language Model for Few-Shot Learning

IntroductionVLM의 시초라고도 할 수 있는 모델. 아래와 같은 achievement를 달성하였다pretrained vision-only model과 language-only model을 효과적으로 연결(bridge)했다visual + textual data가 랜덤하게 interleave된 시퀀스도 처리 가능하다 => large scale web data를 긁어올 수 있었음이미지/동영상 모두 원활하게 처리 가능하다in-context few-shot learning capability를 통해 별도의 fine-tune 없이도 여러 vision&language task에서 SOTA를 달성했다기존 computer vision 분야에서의 국룰은 large supervised data로 pretrain →..

AI/vision 2025.01.03

[논문 리뷰] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://github.com/google-research/vision_transformer GitHub - google-research/vision_transformerContribute to google-research/vision_transformer development by creating an account on GitHub.github.com IntroductionTransformer는 그 computational efficiency와 scalability 덕분에 NLP 분야에서의 정론이 되었음model과 dataset이 계속 커지고 있음에도 performance saturation이 (아직) 없음이 논문에서는 CNN이 지배중인 computer vision 분야에 Transformer를 ..

AI/vision 2025.01.03

[논문 간단 리뷰] You Only Look Once: Unified, Real-Time Object Detection

Faster R-CNNtwo stage 방식 (당연히 real-time은 어려움..)이미지 전체에 대해 backbone NW + region proposal NW 쭉 통과시키고각 region에 대해 cropping (rol-pool, rol-align) + class prediction + bbox translate prediction YOLO Introduction기존 모델들의 한계DPM(Deformable Parts Model): sliding window approach + 각각에 대해 classifier 돌아감 (비효율적)R-CNN: generate potential bbox(region proposal) + then run classifier, 느리고 optimize하기 어렵다single con..

AI/vision 2025.01.02

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://littlefoxdiary.tistory.com/44 [논문리뷰] GPT3 - Language Models are Few-Shot Learners오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language Models are Few-Shot Learners 2020/07/20littlefoxdiary.tistory.comGPT-3 관련 논문리뷰 (방법론, evaluation 위주임) AbstractBidirectional Encoder ..

AI/NLP (LLM) 2025.01.02
반응형