인공지능/Computer Vision 5

LeNet-5

Yann LeCun (얀 르쿤)의 "Gradient-based learning applied to document recognition" 논문에서 손글씨 숫자 인식하는데 문제를 해결하기 위해 사용된 모델 기존의 Fully-Connected Neural Network가 가지고 있는 한계를 이해하고 이것을 개선하기 위해 연구 시작 Fully Connected Layer (완전연결계층)을 이용해 MNIST 데이터셋을 분류하는 모델을 만들 때 3차원인 MNIST 데이터 (28,28,1)를 input으로 넣어주기 위해 3차원을 1차원의 평평한(flat) 데이터로 펼쳐줘야 했다. 즉, 28 * 28 * 1 = 784의 1차원 데이터로 바꾸어 입력층에 넣어주었다. 이미지 데이터는 3차원의 형상을 가지며, 이 형상에는..

CNN의 구조와 처리 과정

이 글은 다음 블로그(라온피플)를 보고 정리하며 공부한 내용입니다. https://laonple.blog.me/220608018546 [Part Ⅳ. CNN] 3. CNN의 구조 - 라온피플 머신러닝 아카데미 - Part I. Machine Learning Part V. Best CNN Architecture Part VII. Semantic ... blog.naver.com CNN의 구조와 처리 과정 Input - Feature Extraction - Shift and distortion invariance - Classification - Output 인풋 이미지 - 특징 추출 - topology 변화에 영향을 받지 않도록 하는 단계 - 분류기 - 아웃풋 CNN에 특징을 추출하는 단계가 포함되어 있어..

Faster R-CNN

Faster R-CNN은 영상 안의 여러 사물을 한꺼번에 분류하고, 데이터 학습에 따라 겹쳐있는 부분들까지도 정확하게 사물들을 분류해낼 수 있다. Architecture 모델의 구조는 두 개의 네트워크로 구성된다. Deep Convolution Network로서 Region Proposal Network Faster R-CNN Detector로서 앞의 proposed regions를 사용하여 객체 감지 이 두 모듈은 전체적으로 하나의 object detection network라고 볼 수 있음 Input Images 높이*너비*깊이를 가지고 있는 텐서이다. (RGB 이미지) Base Network (Shared Network) Name Meaning 이전 R-CNN에서는 Region proposal을 하..

Style Transfer

Visualizing What Convnets Learn 딥러닝의 블랙박스는 학습된 표현에서 사람이 이해하기 쉬운 형태를 뽑아내거나 제시하기 어렵다. ConvNet은 시각적인 개념을 학습한 것이기 때문에 시각화하기에 좋다. 대표적인 세가지 기법 - 컨브넷 중간층의 출력을 시각화하기: 연속적인 컨브넷층이 입력을 어떻게 변형시키는지 이해하고 개별적인 컨브넷 필터의 의미 파악에 도움이 된다. - 컨브넷 필터 시각화: 컨브넷의 필터가 찾으려는 시각적인 패턴과 개념이 무엇인지 상세하게 이해하는데 도움이 된다. - 클래스 활성화에 대하나 히트맵을 이미지에 시각화: 이미지의 어느 부분이 주어진 클래스에 속하는데 기여했는지 이해하고 이미지에서 객체의 위치를 추정하는데 도움이 된다. 중간 층의 활성화 시각화 - 어떤 입..

컴퓨터 비전 Computer Vision

컴퓨터 비전은 영상 데이터를 처리하여 의미있는 데이터를 생성하는 것을 말한다. 제품 결함 검사, 문자 인식, 얼굴 인식, 움직이는 물체 검출 및 추적을 할 수 있다. 이진 영상 (Binary Image)라고 한다면 화소 값이 두 가지 (검정색, 흰색)만 있는 영상으로 0과 1로 양자화하는 것이다. 그레이 레벨 영상(Gray Level Image)은 이진 영상보다는 밝은 흑백 사진에 해당된다. 검정색 ~회색 ~흰색으로 밝기 단계가 있고, 이 때 단계의 수는 양자화 비트 수(n)로 결정된다. 보통 영상처리를 할 때 이것으로 처리한다. 컬러 영상(Color Image)은 실제로 눈에 보이는 모습과 비슷하게 밝기와 색상을 표현하는 영상이다. 컬러 영상은 각 픽셀이 3Byte로 표현된다. 한 픽셀당 2^24개의 ..