'AI/DL' 카테고리의 글 목록

[논문리뷰] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness

이전 attention approximation 관련 논문들은 compute complexity를 줄이는데 집중했다.더보기ex) block-sparse attentionhttps://velog.io/@nawnoes/sparse-attentionhttps://huggingface.co/blog/big-bird사전에 정해진 sparse pattern에 따라 어떤 블록을 계산 => 전체 연산량 및 메모리 사용량 줄이면서 로컬 및 글로벌 정보를 적절히 캡쳐할 수 있도록 디자인ex) low-rank approximation이래서는 wall-clock speedup은 없다. 단순히 FLOP 수만 줄일 뿐이다. runtime은 메모리 접근 시간(IO)에 더 관련이 있다 FlashAttention은 tiling이라는 ..

AI/DL 2025.04.11

vllm 논문 리뷰 - Efficient Memory Management for Large Language Model Serving with PagedAttention

problem of original transformer architecture현재 대부분의 LLM은 autoregressive Transformer model에 기반을 둔다. 하지만 이 Transformer 기반의 sequential한 연산은 memory-bound하다 (DNN, CNN의 경우 conv 연산이나 GEMM 연산 때문에 compute-bound인 경우가 많음).위 사진에서 회색 부분은 model weight이고(serving 단계에서는 static하게 load되어 있음), 핑크색 부분은 attention mechanism에서 필요한 key와 value tensor를 저장하는 KV cache이다(request에 따라 dynamic하게 바뀜). 기타 부분은 activation 같은 임시 ten..

AI/DL 2025.03.31

[논문리뷰] Deep Residual Learning for Image Recognition

Introduction당시 deep neural network는 학습시키기 무척이나 어려웠음why?- problem of vanishing/exploding gradients => normalized initialization과 intermediate normalization layers 으로 어느정도 해결되는 듯함 (이제는 10개가 넘는 layer에서도 SGD+back prop으로 수렴하기 시작)- degradation problem = network의 depth가 증가하다 어느순간 성능이 saturate되다가 다시 확 떨어지기 시작한다 => 기존에는 overfitting이라고 생각하지만!!layer 수를 늘렸는데 testing time 뿐 아니라 training time에서도 error rate가 ..

AI/DL 2024.11.23

ClearML 이모저모

https://github.com/allegroai/clearml/tree/master/examples clearml/examples at master · allegroai/clearmlClearML - Auto-Magical CI/CD to streamline your AI workload. Experiment Management, Data Management, Pipeline, Orchestration, Scheduling & Serving in one MLOps/LLMOps solution - allegroai/clearmlgithub.com요거로 연습해보아도 좋음 1. Task Typestraining (default) - Training a modeltesting - Testing a compo..

AI/DL 2024.08.29

서버 ClearML agent 설정 + 도커에서 돌아가게 세팅하기

보호되어 있는 글입니다.

AI/DL 2024.08.29

효율적인 MLOps를 가능케 하는 ClearML

💡What’s ClearML머신러닝 관련 업무들을 생성하고 자동화, 관리해주는 플랫폼 (실험/모델/데이터)For ML Engineers학습 메트릭, 모델을 추적 및 업로드/다운로드실험 재현데이터 업로드/다운로드, 버전관리For DevOps EngineersCloud/On-premise 상관없이 원격에 있는 리소스를 누구든지 쉽게 사용할 수 있도록 구성clearml-agent그래서 왜쓰냐? (사수님 왈)remote execution 가능 (clearML server 존재할 때)ckpt들을 클라우드에 자유롭게 업로드/다운로드 가능queue에 넣어두고 자동으로 빈 gpu 사용하도록 할 수 있어서 편함hparams를 자동으로 optimize내가 쓰면서 느낀거metric 등을 추가하고 손쉽게 시각화할 수 있음원..

AI/DL 2024.08.29

lightning-hydra-template CIFAR-10 데이터셋 학습해보기

https://github.com/ashleve/lightning-hydra-template GitHub - ashleve/lightning-hydra-template: PyTorch Lightning + Hydra. A very user-friendly template for ML experimentation. ⚡PyTorch Lightning + Hydra. A very user-friendly template for ML experimentation. ⚡🔥⚡ - ashleve/lightning-hydra-templategithub.com 💡 CIFAR-10 데이터셋 활용해보기1. configs/data/cifar10.yaml 파일을 만들어 설정 추가CIFAR10 dataset은 이미 학습세트 /..

AI/DL 2024.08.29

lightning-hydra-template 코드분석

https://github.com/ashleve/lightning-hydra-template GitHub - ashleve/lightning-hydra-template: PyTorch Lightning + Hydra. A very user-friendly template for ML experimentation. ⚡PyTorch Lightning + Hydra. A very user-friendly template for ML experimentation. ⚡🔥⚡ - ashleve/lightning-hydra-templategithub.comPyTorch Lightning과 Hydra를 사용하여 딥러닝 프로젝트를 설정하고 관리하기 위한 템플릿딥러닝 모델 개발, 훈련, 검증, 테스트 등의 과정을 구조화하..

AI/DL 2024.08.29

[책] PyTorch를 활용한 머신러닝/딥러닝 철저 입문

사실 코드 보면서 무작정 부딪히다보면 익숙해지긴하는데.. 인턴 초기엔 책도 읽어보았숨니다(사실 torch lightning을 거의 사용하긴 했는데) PyTorch 함수들텐서 생성torch.from_numpy(ndarray)NumPy 배열을 텐서로 변환한다torch.utils.data.TensorDataset(data_tensor, target_tensor)설명변수와 목적변수를 합쳐 인덱스 붙이고 하나의 data 집합으로torch.utils.data.DataLoader(dataset, batch_size = 16, shuffle=True)데이터집합을 원하는 크기의 미니배치로 나누어 읽음신경망 구성torch.nn.Modules신경망 모듈 기본 클래스torch.nn.Linear(in, out, bias=Tru..

AI/DL 2024.08.29

Loss function for classification & regression

https://uumini.tistory.com/54https://excelsior-cjh.tistory.com/198 Classification에서 사용하는 기술들에는Cross Entropy Loss (예측 확률 분포와 실제 분포 간 차이 측정)Focal Loss (CEL의 변형, 불균형 데이터셋에 효과적임)Labeling Smoothing (soft label을 사용하여 모델이 지나치게 자신있는 예측하는 것을 방지)Regression에서 사용하는 기술들에는MAE (Mean Absolute Error Loss)예측 값과 실제 값의 차이의 절대값을 평균하여 계산합니다.이상치에 덜 민감하며, 더 많은 양의 작은 오차에 대한 중요도를 부여합니다.nn.L1Loss()MSE (Mean Squared Error ..

AI/DL 2024.08.29

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

대충공부한거적어두는블로그

AI/DL 10

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역