학과소식/커뮤니티

department of electronic engineering
sogang university

학과소식

전자공학과 박형민 교수 연구팀, 국제 최대 신호처리 학술대회 ‘ICASSP 2024’ 논문
  • 2024.01.16
  • 450

전자공학과 박형민 교수 연구팀,

국제 최대 신호처리 학술대회 ‘ICASSP 2024’ 논문 채택

 

 ▲(왼쪽부터) 전자공학과 박형민 교수, 신의협 박사과정, 허현준 석사과정

 

 

박형민 전자공학과 교수가 지도하는 지능정보처리 연구실 연구팀이 현대자동차 팀과 공동 연구를 진행해 국제 최대 규모의 신호처리 학회인 ‘IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024’에서 논문을 발표하게 되었다.

 

전자공학과의 신의협 박사과정생과 허현준 석사과정생(공동 1저자)이 주도하여 연구를 진행하였으며, 발표할 논문 제목은 “NeXt-TDNN: Modernizing Multi-Scale Temporal Convolution Backbone for Speaker Verification”으로 해당 연구를 통해서 음성 기반으로 화자를 인식하고 검증하는 최신 딥러닝 네트워크 구조를 설계하였다.

 

화자 검증(Speaker Verification)은 등록된 화자의 음성을 기준으로 이후에 입력되는 음성이 동일한 화자인지 아닌지를 판단하는 과제이다. 이를 위해서 딥러닝 네트워크 기술을 통해서 음성으로부터 화자의 정보를 임베딩 벡터의 형태로 추출한다.

 

 

<최신 딥러닝 기법을 반영한 NeXt-TDNN 네트워크 구조>

연구팀은 기존 화자 검증 분야에서 사용되고 있는 시간차 신경망 (Time-delayed Neural Network, TDNN) 딥러닝 네트워크의 기술이 최신 딥러닝 기술을 반영하고 있지 못한 점을 고려하여 모델을 디자인하였다. 특히 다양한 최신 딥러닝 기술에서 필수적으로 쓰이는 트랜스포머의 구조를 반영하여 이를 화자 검증에 맞는 TDNN 네트워크로 재구성하였다.

 

한편 ICASSP100여 개국 2만여 명의 회원이 가입되어 있는 음성신호처리 분야 세계 최대 규모 학회이다. 주관인 미국 전기전자협회(IEEE) 소속 학회 중에서도 규모가 크고 오래된 학회로 알려져 있다. 오는 2024년에 열리는 ICASSP 2024414~19일 서울 강남구 코엑스에서 개최된다.

 

논문제목: NeXt-TDNN: Modernizing Multi-Scale Temporal Convolution Backbone for Speaker Verification

저자 정보 : 신의협(공동 제 1저자), 허현준(공동 제 1저자), 이란(현대자동차), 천영주(현대자동차), 박형민 교수(교신저자, 서강대)