연구실의 지원을 받아 ARC Lab 분들과 참여한 2025 겨울 가속기학교..수업 교재가 워낙 자세하기에 배운 내용들은 따로 정리를 안 할 예정이고, 프로젝트 관련해서는 기록용으로 작성해두려고 한다. Target 모델input sentence가 주어졌을 때 Conv - MoE - FC layer를 거쳐 긍정인지 부정인지 판단하는 간단한 딥러닝 모델을 가속화하는 프로젝트였다. 전부 cpu 버전으로 작성되어 있었다. 최적화 과정1. GPU 포팅하기- Conv1D, Linear, ReLU, GetMax, SoftMax 등의 layer를 전부 GPU로 포팅했다- 각 tensor에서 host memory는 pinned memory로 설정하여 DMA direct 전송이 가능하도록 하였고, gpu memory를 미리..