https://arxiv.org/abs/2506.17733
YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception
The YOLO series models reign supreme in real-time object detection due to their superior accuracy and computational efficiency. However, both the convolutional architectures of YOLO11 and earlier versions and the area-based self-attention mechanism introdu
arxiv.org
YOLO 시리즈는 실시간 객체 탐지 분야에서 빠른 속도와 높은 정확도 덕분에 꾸준히 인기를 끌고 있습니다.
- Yolov11 및 이전 모델 : 합성곱 기반 구조라 지역적인 정보만 처리 가능
- Yolov12 : Self-Attention을 도입했지만, 여전히 pairwise 관계까지만 표현 가능
하지만, 위와 같은 한계점도 보였는데, 이는 글로벌한 다대다 상관관계를 제대로 모델링하지 못했기 때문에, 복잡한 장면에서 성능이 떨어질 수 밖에 없었습니다.
Abstract
1. HyperACE (Hypergraph-based Adaptive Correlation Enhancement):
- 기존의 단순한 pairwise correlation 대신, 하이퍼그래프 연산을 활용한 high-order 상관관계를 학습
- 위치 간/스케일 간 글로벌 feature 융합을 효율적으로 수행
2. Full-PAD (Full-Pipeline Aggregation-and-Distribution)
- HyperACE를 통해 강화된 특징을 네트워크 전체에 분배
- 세밀한 정보 흐름과 표현 시너지를 확보 → 더 강력한 feature representation을 형성
3. 경량화 설계
- Depthwise Separable Convolution을 활용해 기존의 큰 커널 합성곱을 대체
- 성능은 유지하며 파라미터 수와 연산량(FLOPs)을 크게 감소시킴
1. Introduction
- HyperACE (Hypergraph-based Adaptive Correlation Enhancement)
- 기존은 "픽셀 간 거리가 비슷하면 연결" 같은 수동적인 연결 규칙
- YOLOv13은 학습 가능한 하이퍼그래프 모듈을 통해
→ 여러 위치·스케일 간 고차(high-order) 상관관계를 자동으로 학습 - Global feature 융합 & 강화로 복잡한 장면에서도 강력한 성능
- FullPAD (Full-Pipeline Aggregation-and-Distribution)
- HyperACE로 강화된 특징을
→ 백본(Backbone), 넥(Neck), Detection Head 전체 파이프라인에 배분 - 결과적으로 **정보 흐름(Gradient flow)**이 원활해지고,
더 정교한 표현(Representation synergy) 가능
- HyperACE로 강화된 특징을
- 경량화 설계 (Lightweight Blocks)
- 기존 큰 커널 합성곱(large-kernel conv) → Depthwise Separable Conv로 대체
- 연산량과 파라미터 대폭 감소
- 추론 속도 빨라지고, 모바일/엣지 환경에서도 효율적
- 성능 결과 (MS COCO 기준)
- YOLOv13-N/S
- YOLOv12 대비 +1.5% / +0.9% mAP ↑
- YOLOv11 대비 +3.0% / +2.2% mAP ↑
- 더 높은 정확도 + 더 가벼운 연산량 → 실시간성 유지
- YOLOv13-N/S
2. Relate Work
A. YOLO 시리즈의 진화 (Evolution of YOLO Detectors)
YOLO는 “You Only Look Once”라는 이름처럼, 객체 탐지를 한 번에 처리하는 단일 단계(single-stage) 모델입니다.
초창기에는 R-CNN 계열처럼 여러 단계를 거쳐야 했지만, YOLO는 이를 단순화하여 속도와 정확도를 동시에 잡으면서 객체 탐지 분야의 대세가 되었습니다.
주요 버전별 특징
- YOLOv1 (2016)
- 객체 탐지를 하나의 회귀(regression) 문제로 정의 → 초고속 탐지 가능
- YOLOv2
- Anchor box 도입 + DarkNet-19 백본 → 정확도 향상
- YOLOv3
- DarkNet-53 백본 + 3단계(3-scale) 예측 → 작은 객체 탐지 강화
- YOLOv4 ~ YOLOv8
- CSP, SPP, PANet, Anchor-free Head 등 다양한 모듈 도입
- 속도/정확도의 균형 최적화
- YOLOv9 & YOLOv10
- 경량화된 백본과 단순화된 구조 → 엣지/실시간 환경 최적화
- YOLOv11
- Backbone-Neck-Head 구조 유지
- C2f 블록 → C3k2 블록 교체
- C2PSA (Partial Spatial Attention) 추가 → 작은/가려진 객체 탐지 개선
- YOLOv12
- 본격적으로 Attention 메커니즘 통합
- R-ELAN, A2 (Area Attention), Flash Attention → 전역+지역 의미적 특징 학습
- 메모리 효율 + 정밀도 향상
기존 YOLO의 한계
지금까지의 YOLO는 지역(Local) 정보와 쌍(Pairwise) 관계까지만 모델링 가능했습니다.
즉, 복잡한 장면에서 여러 위치·스케일 간 고차원(global high-order) 상관관계를 학습하지 못한다는 한계가 있었습니다.
B. High-Order Correlation Modeling (고차 상관관계 모델링)
현실 세계의 데이터는 단순히 1:1 관계(예: 사람 ↔ 물건)만 있는 게 아닙니다. 신경망 연결, 단백질 상호작용, 사회 연결망 같은 곳에서는 복잡한 다대다 관계(고차 상관관계, High-Order Correlation) 가 존재합니다.
이미지와 영상에서도 비슷한 현상이 일어납니다.
- 어떤 객체들은 공간적(spatial) 으로 붙어 있거나,
- 시간적으로 연속적인 관계를 가지거나,
- 의미적으로 함께 등장(semantic)하는 경우가 많죠.
이런 관계들은 단순히 "둘씩 짝지은 관계(pairwise)"가 아니라, 여러 객체가 동시에 얽힌 고차(high-order) 관계일 수 있습니다.
Hypergraph (하이퍼그래프)의 등장
그래프(Graph)는 보통 노드(node)와 엣지(edge)로 1:1 관계를 표현합니다. 하지만 Hypergraph(하이퍼그래프) 는 여러 개 노드가 동시에 연결될 수 있어, 이런 복잡한 고차 상관관계를 더 잘 표현할 수 있습니다.
최근 연구에서는 이를 딥러닝에 적용하기 위해 Hypergraph Neural Networks (HGNNs) 이 활발히 사용되고 있습니다.
- Feng et al. → 스펙트럼 기반 HGNN 제안 → 이미지 검색 성능 향상
- Gao et al. → HGNN+ 제안 → 공간적 하이퍼그래프 컨볼루션 연산 도입
- 최근에는 객체 탐지 모델에도 HGNN 도입 시도 → 고차 상관관계가 탐지 성능에 중요함을 입증
하지만 기존 방법은 고정된 threshold 값으로 "특징이 가까운 픽셀만 관련 있음"이라고 단순 판단하기 때문에,
- 정확도 부족
- 강건성(robustness) 부족 문제를 안고 있었습니다.
YOLOv13에서는 이런 한계를 해결하기 위해 Hypergraph 기반 적응형 상관관계 강화 메커니즘 (Adaptive Correlation Enhancement)을 도입했습니다.
- 픽셀/객체 간 잠재적 관계(latent correlation) 를 자동으로 학습
- 단순 threshold 대신, 네트워크가 적응적으로 위치 간, 스케일 간, 의미 간 관계를 모델링
- 기존 YOLO 시리즈에서 부족했던 전역적(global) 고차 상관관계 모델링을 보완
이로써 모델은 단순한 국소(local) 특징뿐 아니라, 장거리 상호작용(long-range dependencies) 까지도 더 정교하게 학습할 수 있게 되었습니다. YOLOv13은 단순히 backbone이나 head 개선뿐 아니라, 하이퍼그래프 신경망 아이디어를 차용해 객체 간 고차 관계를 학습할 수 있도록 설계된 게 핵심 포인트입니다.
3. Method
YOLOv13은 단순히 backbone을 교체하거나 head 구조를 바꾼 게 아니라, 객체 탐지 과정 전반을 새롭게 설계했습니다.
III-A. Overall Network Architecture (전체 네트워크 아키텍처)
YOLO 계열의 전통적인 Backbone–Neck–Head 구조를 유지하면서도, 새로운 모듈들이 결합되어 있습니다.
기존 YOLO 시리즈는 전통적으로 Backbone → Neck → Head 라는 3단계 구조를 따라왔습니다.
- Backbone : 이미지에서 기본적인 특징(에지, 패턴 등)을 추출
- Neck : 다양한 스케일의 특징을 통합/강화
- Head : 최종적으로 객체의 위치와 클래스 예측
하지만 이 구조에서는 정보 흐름이 단방향적이라 중요한 특징이 충분히 전달되지 못했습니다.
이를 해결하기 위해 YOLOv13에서
1) Full-Pipeline Aggregation-and-Distribution (FullPAD) 패러다임을 도입했습니다.
- 특징을 한 번에 모아(Aggregation)
- 필요한 곳에 다시 뿌려주는(Distribution)
새로운 데이터 흐름 방식을 적용한 것입니다.
2) HyperACE 모듈: 고차 상관관계 학습
Hypergraph 기반 Adaptive Correlation Enhancement (HyperACE) 메커니즘을 통해
- 서로 다른 스케일
- 서로 다른 위치
의 특징들 사이의 복잡한 상관관계 (High-order Correlation)를 학습합니다. 이 과정 덕분에 모델은 더 정교한 정보 표현력을 갖게 되고, 결과적으로 탐지 능력(정확도)도 크게 향상되었습니다.
3) 새로운 Backbone 블록: DS-C3k2
Backbone 단계에서는 기존 YOLO에서 쓰던 대형 커널 컨볼루션 대신, 새롭게 제안한 경량화 DS-C3k2 블록을 적용함으로써 연산량은 줄이고, 표현력은 강화할 수 있었습니다.
4) 정보 흐름 최적화 (3개의 경로 분산)
YOLOv13의 FullPAD는 3개의 분산 터널(tunnel) 을 통해 특징을 전달합니다:
- Backbone → Neck 연결부
- Neck 내부 레이어
- Neck → Head 연결부
이 구조 덕분에 정보가 끊기지 않고 유기적으로 흐르며, 그 결과 작은 물체부터 큰 물체까지 더 균형 있는 탐지 성능을 발휘합니다.
III-B. Hypergraph-based Adaptive Correlation Enhancement (하이퍼그래프 기반 적응형 상관관계 강화)
- YOLOv13은 객체 간의 복잡한 고차(high-order) 상관관계를 학습할 수 있도록 설계되었습니다.
이를 위해 Hypergraph Neural Network(HGNN) 개념을 도입하여, 픽셀·영역 간 잠재적인 관계를 자동으로 모델링합니다. - 쉽게 말해, HyperACE는 두 개의 브랜치로 나뉘는데,
- Global High-Order Branch (C3AH 모듈): Adaptive Hypergraph를 이용해 글로벌 고차 상관관계 학습하고, 객체들 간의 복잡한 의미적 연결을 잡아준다
- Local Low-Order Branch (DS-C3k 블록): 작은 영역의 로컬 저차 상관관계를 학습해, 세부적인 디테일을 보존한다.
- 이 둘을 합쳐서 글로벌 + 로컬 특징을 동시에 강화합니다.
III-C. Full-Pipeline Aggregation-and-Distribution Paradigm (전체 파이프라인 집약-분산 패러다임)
- 다중 스케일 특징을 효율적으로 집약(Aggregation) 한 뒤,
- 필요한 위치에 선택적으로 분산(Distribution) 시키는 새로운 파이프라인을 도입했습니다.
- 이를 통해 작은 객체부터 큰 객체까지 더 균형 있게 탐지 성능을 확보할 수 있습니다.
III-D. Lightweight Feature Extraction Blocks (경량화 특징 추출 블록)
- 새로운 경량화 블록(Lightweight Block) 을 설계하여, 기존 YOLO 대비 낮은 연산량으로도 높은 정확도를 달성할 수 있습니다.
1) Depthwise-Separable Convolution (DSConv):
- 일반적인 Convolution을 두 단계로 분리
- Depthwise: 각 채널별로 공간 특징 추출
- Pointwise (1×1 Conv): 채널 간 결합
- 장점: 파라미터 수와 연산량 감소
- DSConv + BatchNorm + SiLU activation → 핵심 특징 추출
2) DS-Bottleneck
- DSConv 블록을 두 개 연속 연결
- 첫 번째: 3×3 DSConv
- 두 번째: 큰 커널(k×k) DSConv
- 입력과 출력 채널이 같으면 Residual Skip Connection 적용 → 정보 손실 최소화
3) DS-C3k & DS-C3k2
- DS-C3k: CSP-C3 구조를 기반으로,
- 1×1 Conv로 채널 축소
- 여러 DS-Bottleneck을 통과
- 입력 브랜치와 결합 후 1×1 Conv로 채널 복원
- DS-C3k2: C3k2 구조 기반
- 1×1 Conv → Feature 분할 → DS-C3k 여러 개 적용 → Shortcut과 합침
- Backbone과 Neck 모두에 DS-C3k2 블록을 적용
- HyperACE 모듈의 로컬 저차 특성 추출에는 DS-C3k 블록 사용
4) 효과
- YOLOv13 전 모델에서 파라미터 최대 30% 감소
- GFLOPs 최대 28% 감소
- 경량화 덕분에 속도 향상과 실시간 추론 가능
- 동시에 HyperACE로 고차 상관관계 학습과 FullPAD로 정보 흐름 강화를 통해
- → 복잡한 장면에서도 정확하고 효율적인 탐지 가능
4. Experiments
YOLOv13의 성능과 효율성을 검증하기 위해, 다음과 같은 실험을 진행했습니다.
- 실험 환경 및 설정
- 학습 데이터셋, 하이퍼파라미터, 평가 지표 등
- 모델 비교를 위한 기준 환경 설정
- 기존 모델과의 비교
- YOLOv13을 YOLO11, YOLOv12 등 기존 YOLO 시리즈 및 최신 실시간 객체 탐지 모델과 비교
- 결과: 더 높은 정확도(mAP)와 낮은 연산량(GFLOPs) 달성
- Ablation Study (모듈별 효과 분석)
- HyperACE, FullPAD, DSConv 블록 등 각 모듈이 성능에 얼마나 기여하는지 분석
- 결과: 각 모듈이 탐지 성능 향상에 핵심 역할
1) FullPAD와 HyperACE의 효과
- HyperACE를 제거하면 정확도(AP)가 약 1% 정도 하락
- FullPAD가 각 단계(Backbone→Neck, Neck 내부, Neck→Head)로 기능을 분산시키지 않으면, AP가 약 0.2~0.4% 감소
2) 하이퍼엣지(HyperEdges) 개수
- HyperEdges 개수를 줄이면 연산량과 파라미터는 줄지만, 성능 저하 발생
- 너무 많으면 성능 향상은 있으나 계산량 증가
- 적절한 균형으로 모델별 Hyperedge 개수 설정:
- N: 4, S: 8, L: 8, X: 12
3) DS 시리즈 블록의 효율성
- 기존 일반 Convolution → DS 블록으로 교체
- AP 성능 거의 유지 (0~0.1% 차이)
- 연산량(GFLOPs)과 파라미터 크게 감소
- Nano: 파라미터 -0.6M, FLOPs -1.1G
- Small: 파라미터 -2.2M, FLOPs -4.2G
4) 학습 에폭(Epochs)
- 최적 학습 에폭: 600 epochs
- Nano: AP50:95 41.6%
- Small: AP50:95 48.0%
- 더 오래 학습하면 과적합 발생 → 성능 저하
5) 다양한 하드웨어에서의 추론 속도
5. Conclusion
YOLOv13은 정확도와 속도, 효율성을 동시에 잡은 최첨단 실시간 객체 탐지 모델입니다.
Github 주소
https://github.com/iMoonLab/yolov13
GitHub - iMoonLab/yolov13: Implementation of "YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perce
Implementation of "YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception". - iMoonLab/yolov13
github.com
'논문' 카테고리의 다른 글
[NEW] Ultralytics Yolov11 리뷰 (6) | 2024.10.08 |
---|---|
[논문 리뷰] Pegasus-v1 Technical Report (10) | 2024.09.06 |
[논문 리뷰] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (0) | 2024.09.06 |
[논문] YOLOv10: Real-Time End-to-End Object Detection 리뷰 (0) | 2024.08.21 |
[논문] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors 리뷰 (0) | 2024.08.21 |