서강대학교 전자공학과

학과소식

Hand 영상 데이터 생성 및 Transformer 경량화를 주제로 인공지능 분야 Top Conference ‘ECCV 2024’ 논문 2편 채택

2024.07.15
1290

강석주 교수 연구팀,

Hand 영상 데이터 생성 및 Transformer 경량화를 주제로

인공지능 분야 Top Conference ‘ECCV 2024’ 논문 2편 채택

(좌측 상단부터) 강석주 교수, 박준호 석사과정, 유현우 석박통합과정,

(좌측 하단부터) 조유빈 석사과정, 강병우 석사과정, 문승훈 석박통합과정, 부산대 공경보 교수

전자공학과 강석주 교수 연구팀의 Hand 영상 데이터 생성 및 Transformer 경량화를 주제로 한 논문 2편이 인공지능 분야 top-tier conference인 ECCV 2024에 채택되었다.

Hand 영상 데이터 생성 분야는 강석주 교수 연구팀의 박준호 석사과정이 참여하였으며, Transformer 경량화는 강석주 교수 연구팀의 유현우 석박통합과정, 조유빈 석사과정, 강병우 석사과정, 문승훈 석박통합과정과 부산대학교 공경보 교수팀이 공동으로 참여하였다.

European Conference on Computer Vision (ECCV) 학회는 인공지능 관련하여 컴퓨터 비전 및 머신 러닝 분야에서 최고 권위의 학회이다. ECCV 2024는 오는 9월 29일부터 10월 4일까지 밀라노 컨벤션 센터에서 개최될 예정이다.

Hand 영상 데이터 생성 분야의 논문 제목은 “AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild”으로, 본 연구팀은 텍스트 기반으로 자유롭게 Hand 영상 데이터를 생성할 수 있고, 생성된 이미지를 통해 3차원 손 복원 분야에 기여하는 생성 모델을 제안하였다.

본 논문에서 제안한 방법은 크게 2가지이다. 첫 번째 방법은 주어진 텍스트 프롬프트로부터 손과 관련된 토큰(예를 들어, hand, holding, 또는 grasping)에 집중하여 해당 잠재 임베딩의 특징을 강조하는 Text Attention Stage (TAS)이다. 두 번째 방법은 손에 대한 전역적, 국소적 시각 정보 기반으로 잠재 임베딩을 학습시키는 Visual Attention Stage (VAS)이다. 이 두 방법은 Diffusion 기반으로 설계되었기 때문에 주어진 텍스트 프롬프트와 Hand Mesh 영상에 잘 대응되는 Hand 영상을 끊임없이 생성할 수 있다. 특히, 생성된 이미지를 통해 3차원 Hand 영상 데이터 복원 성능을 크게 개선하여 실내 환경과 실외 환경 사이의 도메인 격차를 완화하는데 기여하였다.

이번 연구에 참여한 박준호 학생은 “석사과정 2년동안 강석주 교수님께서 저를 끝까지 믿고 지도해주셔서 좋은 결과를 달성할 수 있었다. 포기하지 않고 끊임없이 노력한 결과 ECCV에 등재할 수 있게 되어 매우 기쁜 마음이며, 연구실 학생들도 좌절하지 않고 진심을 다해 연구하면 국제 학회에 논문이 등재될 수 있을 것이다.”라고 소감을 전했다.

sogang university ▲제안한 프레임워크 세부 구조

sogang university ▲논문의 방법론을 적용하는 과정 (State-of-the-arts와 제안 모델에 대한 정성적 비교)

Transformer 경량화와 관련된 논문 제목은 “Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation”으로 연구팀은 새로운 경량 transformer 구조와 경량화 방법을 제안하였다.

본 논문에서는 transformer의 attention 구조를 query, key, value embedding 단과 global functioning 단으로 나누고 embedding 단을 생략한 효율적인 경량 구조를 제안한다. 이 구조는 attention에서 핵심적인 global functioning만 남긴 구조로, attention에 대한 새로운 방법을 제안한다. 또한 inference 단계에서 key, value의 resolution을 감소시켜 연산량을 줄이는 새로운 경량 기법인 inference spatial reduction을 제안한다. 이 기법은 추가적인 training이 필요없는 기법으로 다양한 분야 및 모델에 적용할 수 있다. 그리고 본 논문은 이 두 가지 경량 구조 및 방법을 segmentation 분야에 효과적으로 적용하였다.

이번 연구에 참여한 유현우 석박통합과정 학생은 “강석주 교수님께서 사려깊게 지도해주시고 긴 시간의 연구를 믿어주신 덕분에 좋은 결과를 얻을 수 있었다. 그리고 연구를 함께하며 큰 도움을 주신 공경보 교수님과 힘든 시간을 함께 견뎌준 동료 조유빈, 강병우, 문승훈에게도 축하와 감사의 마음을 전하고 싶다” 라고 소감을 전했다.

sogang university ▲기존 attention 구조(좌)와 제안하는 embedding-free attention 구조 (우)

sogang university ▲제안하는 inference spatial reduction 방법

[논문정보]

1. AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild

박준호, 공경보, 강석주

2. Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation

유현우, 조유빈, 강병우, 문승훈, 공경보, 강석주

이전글: 남창주 교수, 2024년 과학기술정보통신부·한국연구재단 기초연구실 지원사업 선정

다음글: 전자공학과 김홍석 교수 연구팀, 국제 신재생 에너지 발전량 예측 및 거래 대회 Student Team 부문 최종 2위

학과소식/커뮤니티

학과소식