과거 cnn 계열로 부터의 이미지 extractor의 발전 과정이 궁금합니다.

Question

현재 다양한 모델이 나오면서 이미지 인식 계통이 많은 발전을 이루고 있는데요
과거 cnn convolution 부터 지금의 yolo 모델에 이르기 까지 많은 과정을 거치고 있습니다.

현재도 convolution block으로 이루어진 cnn 후속 모델이 많은 것으로 알고 있는데요. 현재는 어떤 모델이 이미지 인식계통에서 강점이 있는지 궁금합니다.

이철호 · Accepted Answer

안녕하세요. 이철호 정보처리기사입니다.최근 이미지 인식 분야는 CNN(Convolutional Neural Network)에서 시작해 다양한 발전 단계를 거쳐왔습니다. 과거에는 VGG, ResNet, DenseNet 같은 순수 CNN 기반 모델들이 주류였지만, 지금은 다음과 같은 흐름이 두드러집니다.YOLO 계열과 객체 탐지 모델  YOLO(You Only Look Once)는 실시간 객체 탐지에서 뛰어난 성능과 속도를 보여줍니다. 현재는 YOLOv8이나 YOLO-World 같은 최신 모델들이 등장해 정확도와 추론 속도 모두에서 강점을 가집니다.CNN + Transformer 하이브리드 모델  이미지 인식에서 순수 CNN 대신 트랜스포머(Transformer) 구조를 부분적으로 도입한 모델이 각광받고 있습니다.  예: EfficientNetV2(성능 대비 경량화), ConvNeXt(CNN 구조를 Transformer 수준으로 개선)Vision Transformer(ViT) 계열  순수 트랜스포머 기반의 ViT, Swin Transformer 같은 모델들은 전통적인 CNN을 대체하거나 보완하며 뛰어난 분류·탐지 성능을 보입니다.멀티모달 및 사전학습 기반 모델  최근에는 CLIP, DINOv2 같은 대규모 사전학습 모델이 이미지 인식에 활용되고 있습니다. 이런 모델들은 단일 이미지 인식뿐 아니라 텍스트-이미지 연계 작업에도 뛰어나며, 전통적인 CNN 모델을 초월한 범용성을 지닙니다.정리하면 실시간 객체 탐지는 여전히 YOLO 계열이 강점을 보이고, 고정밀 분류·인식에는 ViT나 ConvNeXt 같은 트랜스포머 기반 모델들이 주류로 자리잡았습니다. 연구 흐름도 점차 CNN 단독보다는 트랜스포머와 멀티모달 방향으로 이동하고 있는 상황입니다.

조원우 · Answer

안녕하세요. 조원우 정보처리기사입니다.이미지 인식 기술은 Convolutional Neural Network(CNN) 기반으로 발전하여 YOLO와 같은 객체 탐지 모델로 확장되었고, 최근에는 Vision Transformer 등 Transformer 기반 모델이 등장하면서 성능 측면에서 새로운 핵심 트렌드로 자리 잡고 있습니다.CNN은 여전히 기본구조로 많이 쓰이나, 최신트랜드는 Transformer 기반 혹은 혼합모델이라 보시면 됩니다