분류 전체보기 312

[논문 리뷰] PARROT: MULTILINGUAL VISUAL INSTRUCTION TUNING

https://github.com/AIDC-AI/Parrot GitHub - AIDC-AI/Parrot: 🎉 The code repository for "Parrot: Multilingual Visual Instruction Tuning" in PyTorch.🎉 The code repository for "Parrot: Multilingual Visual Instruction Tuning" in PyTorch. - AIDC-AI/Parrotgithub.com Abstraction & Introduction기존 MLLM의 학습 방식은 Supervised Fine-Tuning(SFT) 방식주로 사전 학습된 LLM과 Vision encoder에 의존vision encoder를 LLM과 정렬하여 LLM에 멀..

AI/NLP (LLM) 2024.10.31

[논문 리뷰] Reducing Hallucinations in Vision-Language Models via Latent Space Steering

https://arxiv.org/abs/2410.15778https://github.com/shengliu66/VTI GitHub - shengliu66/VTI: Code for Reducing Hallucinations in Vision-Language Models via Latent Space SteeringCode for Reducing Hallucinations in Vision-Language Models via Latent Space Steering - shengliu66/VTIgithub.com깃헙 레포는 글 작성일인 오늘 업데이트된 따끈따끈한 논문..인데 어쩌다보니 읽어봄 Abstraction + IntroductionLVLM의 환각은 시각적 입력과 텍스트 출력 간의 불일치로 인해 발생하는..

AI/vision 2024.10.31

Vision Encoder - SIGLIP

LLaVA OneVision을 fine-tune 해보고 있는데, LVLM의 mm_vision_tower (vision encoder)로 siglip을 사용중이어서 이참에 정리 겸 공부해볼까 싶어 남긴다 이미지에서 시각 정보를 vision feature vector로 추출하고 그것을 text input과 동일한 embedding 공간에 투영하는 과정을 거쳐 text decoder (여기선 LLM이겠죠)의 인풋으로 들어간다.. encoder 모델CLIP (Contrastive Language-Image Pre-training)* CLIP은 이미지와 텍스트를 같이 학습하여 두 가지의 상호 연관성을 강화하는 contrastive learning 기법을 사용* 이미지 인코더(ViT)와 텍스트 인코더(BERT)를 ..

AI/vision 2024.10.30

카카오페이를 이용한 간편결제에 대해 araboza

주요 구성 요소- 구매자 (상품 선택하고 결제 진행하는 사용자)- client (프론트엔드 (React), 구매자가 상호작용하는 웹사이트나 앱. 결제 요청을 받고 결제창을 호출하는 인터페이스 역할)- Server (백엔드 (Django), PG사에게 결제 승인을 요청하고, 그에 대한 응답을 받는 상점의 서버)- 페이먼트(PG사) (실제 결제 처리와 승인, 결제 상태 등을 관리하는 결제 대행사) PG(Payment Gateway)사란?PG사는 이커머스 결제 대행 서비스를 진행하는 중개업체Payment Gateway의 준말로, `‘결제를 위한 관문’`이라고 이해PG사는 카드 결제, 간편결제, 계좌이체, 가상계화(무통장입금) 등 다양한 결제 방식을 사용할 수 있게 연결 결제 flow1. 결제창 호출 (결제 준..

web/snulion 2024.10.05

상태관리에 대해 araboza (2)

상태 관리의 유형은1. 전역 vs 로컬전역 상태 관리전역 상태(global state) 관리는 프로젝트 전체에 영향을 미치는 상태를 관리하는 것로컬 상태 관리로컬 상태(local state) 관리는 특정 기능 또는 컴포넌트 내에서만 사용되는 상태를 관리하는 것 2. 클라이언트 vs 서버클라이언트는 프론트 유저 간 상호작용, 서버는 프론트 백 간 상호작용 느낌으로 이해하자고요 Redux의 원칙1. single source of truthAction → Dispatcher → Store → View의 순서로 데이터 흐름을 단방향으로 제어하기 위한 아키텍처 2. state is read-only 3. Changes are Made with Pure Functionsfunction sampleReducer(..

web/snulion 2024.10.05

상태관리에 대해 araboza

리엑트에서 상태관리가 왜 필요하냐면요* Props-Drilling 이슈  - 리액트는 단방향 바인딩을 지원함, 즉 부모의 상태를 props로 자식으로 전달할 수는 있지만, 자식의 상태를 부모로 전달할 방법은 없음  - 즉 최상위 컴포넌트의 정의하고 관리하는 props를 계속해서 전달전달 해야함* 복잡한 상태관리 로직  - 특정 state에 대한 상태관리 함수들이 산재해있다면 (여러 컴포넌트에 흩어져있다면) 점검 힘듦, 유지보수/추적이 어려움 => 전역 상태관리를 쉽게 할 수 있는 라이브러리를 쓰자 (ex. Redux) 리액트 상태관리 라이브러리에 뭐가 있냐면요redux, context-api, MobX, Recoil, Zustand, Jotai ... Redux란 뭐냐면요Flux라는 아키텍쳐를 실제로 구..

web/snulion 2024.09.25

OAuth 2.0에 대해 araboza

OAuth는 인터넷 사용자들이 비밀번호를 제공하지 않고 다른 웹사이트 상의 자신들의 정보에 대해 웹사이트나 애플리케이션의 접근 권한을 부여할 수 있는 공통적인 수단으로서 사용되는, 접근 위임을 위한 개방형 표준이다. 장점은 뭐냐면요- 사용자 비밀번호를 직접 전달/저장하지 않기 때문에 자격 정보가 노출될 위험을 줄임- 토큰 기반 인증으로 권한 부여 및 제한이 쉬움- 사용자 경험에서는 로그인 절차가 간소화되고, 동일한 계정으로 여러 서비스 로그인이 가능해져 편함 구성요소는요* 자원(개인정보)을 소유하는 주체인 Resource owner* 가입하고자 하는 서비스의 애플리케이션 서버 (Client)* 접근권한 부여하고 응답을 반환하는 서버 (Authorization Server) 동작 메커니즘은요STEP0. 통..

web/snulion 2024.09.25

카메라 캘리브레이션 (Camera Calibration)

카메라 캘리브레이션은 카메라의 왜곡을 보정하고, 실제 세계에서의 3D 좌표를 이미지의 2D 좌표로 변환하는 작업 ⇒ 스테레오 비전과 같은 컴퓨터 비전 애플리케이션에서 매우 중요합니다.왜곡의 종류카메라 렌즈는 일반적으로 두 가지 주요 왜곡을 일으킵니다: 방사 왜곡(Radial Distortion)과 접선 왜곡(Tangential Distortion). 1. 방사 왜곡 (Radia Distortion):- 방사 왜곡은 이미지의 중심에서 멀어질수록 직선이 휘어지는 현상입니다.- 수학적으로, 방사 왜곡은 다음과 같이 표현됩니다:- 여기서 r은 점의 거리입니다. 2. 접선 왜곡(Tangential Distortion):- 접선 왜곡은 렌즈가 이미지 평면에 완벽히 평행하지 않아 발생합니다.- 수학적으로, 접선 왜곡..

etc 2024.08.29

OpenCV 이모저모

1. 이미지 열기cv.imread : 첫 인자는 파일경로IMREAD_COLOR loads the image in the BGR 8-bit format. This is the default that is used here.IMREAD_UNCHANGED loads the image as is (including the alpha channel if present)IMREAD_GRAYSCALE loads the image as an intensity onecv.imshow : 화면에 뵈기cv.waitKey(0) : wait for user input in ms (0 ⇒ forever)cv.imwrite : image is written to a file path 2. 비디오 캡쳐해서 보여주기 및 저장하기 (얘..

AI/vision 2024.08.29