음향 이벤트 검출을 위한 생성적 대립 신경망 기반 도메인 특징 정렬
Domain Feature Alignment Based on Generative Adversarial Network for Sound Event Detection
- 주제(키워드) 도움말 음향 이벤트 검출 , 합성곱 순환 신경망 , 평균 교사 모델 , 도메인 적응 , 생성적 대립 신경망
- 발행기관 국립강릉원주대학교 일반대학원
- 지도교수 도움말 박상욱
- 발행년도 2025
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 도움말 일반대학원 전자공학과
- 세부분야 디지털-AI
- 실제URI http://www.dcollection.net/handler/kangnung/000000012325
- UCI I804:42001-000000012325
- 본문언어 한국어
초록/요약 도움말
음향 이벤트 검출은 입력 음향 신호로부터 특정 이벤트의 존재 여부와 종류를 판별하고, 각 이벤트의 발생 시점과 종료 시점을 검출하는 기술이다. 이러한 음향 이벤트 검출 시스템을 실제 환경에 적용하기 위해서는, 다양한 센서, 녹음 조건, 배경 잡음 환경에서 수집된 대량의 데이터에 대해 이벤트의 시작 및 종료 시점을 포함하는 강한 레이블을 확보해야 한다. 그러나 실제 환경에서 강한 레이블 데이터를 대규모로 수집하는 작업은 비용과 시간이 매우 많이 드는 작업이다. 이를 보완하기 위해, 음향 이벤트와 배경음을 조합하여 가상 사운드스케이프를 생성하는 오디오 합성 라이브러리인 Scaper를 이용해 음향 이벤트와 배경음을 인위적으로 혼합한 합성 오디오를 생성하고, 이를 음향 이벤트 검출 모델 학습을 위한 강한 레이블 데이터로 활용한다. 하지만 이때 생성된 합성 오디오는 믹싱 방식, 배경 구성, 신호 대 잡음비, 이벤트 발생 패턴 등에서 실제 환경에서 수집된 녹음과 통계적 특성이 달라지며, 이와 같은 분포 차이를 도메인 차이라고 한다. 도메인 차이가 존재하면 인공신경망은 합성 도메인에 편향된 표현을 학습하게 되고, 그 결과 타깃 도메인에서 검출 성능이 저하되는 문제가 발생한다. 본 논문은 이러한 도메인 차이가 존재하는 환경에서 음향 이벤트 검출 성능을 향상시키기 위한 생성적 대립 신경망 기반 도메인 특징 정렬 방법을 탐구한다. 이를 위해, 먼저 합성곱 순환 신경망 기반 평균 교사 모델로 음향 이벤트 검출의 기본 성능을 확보한 뒤, 생성적 대립 신경망을 이용해 합성/실제 오디오의 특징 분포를 정렬하고, 예측 확률이 임계값을 넘는 이벤트 활성 프레임에 대해서만 조건부 정렬을 수행하는 마스크 조건부 결합 특징을 도입한 3단계 도메인 적응 프레임워크를 제안한다. DESED 데이터셋에서의 실험 결과, 제안 방법은 기존 CRNN-MT 및 CRNN-MMT 대비 PSDS와 F1 측면에서 일관된 성능 향상을 보였으며, 클래스별 F1, KL 발산, t-SNE 분석을 통해 이벤트 활성 구간을 중심으로 도메인 간 거리를 줄이면서도 클래스 구조를 유지하는 특징 공간을 형성함을 확인하였다. 이러한 도메인 간 거리 축소와 클래스 구조 보존이 결합되어 PSDS와 F1 성능 향상으로 이어졌음을 확인하였다.
more목차 도움말
Ⅰ. 서론 1
1. 음향 이벤트 검출 소개 1
2. 문제 정의 2
3. 연구 내용 3
Ⅱ. 관련 연구 4
1. DCASE 2023 Task4 Testbed 4
1.1. 합성곱 순환 신경망(Convolution Recurrent Neural Network) 4
1.2. 평균 교사 모델(Mean Teacher) 5
2. 도메인 적응(Domain Adaptation) 7
3. 그라디언트 반전 계층(Gradient Reversal Layer) 9
4. 상호 평균 교사(Mutual Mean Teacher) 10
5. 생성적 대립 신경망(Generative Adversarial Network) 12
6. 조건부 특징(Conditional Feature)과 한계 12
7. 음향 이벤트 검출 평가 지표 13
Ⅲ. 제안하는 방법 16
1. 음향 이벤트 검출을 위한 도메인 적응 프레임워크 개요 16
2. 2단계: 도메인 불변 특징 추출기 학습 18
3. 3단계: 클래스 분류기 미세 조정· 19
4. 마스크 조건부 특징(Mask Conditional Feature) 20
Ⅳ. 실험 설정 21
1. 데이터셋 및 전처리 21
2. 후처리 및 평가 지표 21
Ⅴ. 실험 결과 및 분석 22
1. PSDS, F1 성능 분석· 22
2. 클래스별 F1 성능 분석 23
3. 쿨백-라이블러 발산, t-SNE 시각화 도메인 정렬 · 24
Ⅵ. 결론 28
참고문헌 30
Abstract 32

