KAIST-네이버, CVPR서 연구성과 발표…텍스트만으로도 ‘참신하고 유용한’ 이미지 생성 가능모델 내부 얕은 블록 저주파수 증폭 방식…SDXL-Turbo 다양성 한계도 극복
  • ▲ 개발팀에서 연구한 방법론의 적용 사례.ⓒKAIST
    ▲ 개발팀에서 연구한 방법론의 적용 사례.ⓒKAIST
    “추가 학습 없이도 인공지능 생성 모델의 창의적인 생성이 가능하다는 최초의 방법론을 제시했다.”

    최근 텍스트만으로 고해상도 이미지를 생성하는 AI가 주목받는 가운데, KAIST 연구진이 별도 학습 없이도 스테이블 디퓨전(Stable Diffusion) 기반 모델의 창의성을 획기적으로 강화하는 기술을 개발해 주목받고 있다.

    KAIST(총장 이광형)는 19일 김재철AI대학원 최재식 교수 연구팀이 네이버 AI Lab과 공동 연구를 통해, 사전 학습된 이미지 생성 모델의 내부 특징 맵을 증폭하는 방식으로 창의적 이미지 생성을 가능하게 했다고 밝혔다. 해당 연구는 ‘국제 컴퓨터 비전 및 패턴인식 학술대회(CVPR)’에서 지난 15일 발표됐다.

    연구팀은 모델 내부 얕은 블록의 특징 맵을 주파수 영역으로 변환한 뒤, 저주파 영역을 증폭함으로써 기존과 다른 창의적 이미지를 생성할 수 있음을 입증했다. 이 방법은 추가 데이터나 파라미터 학습 없이도 모델 성능을 크게 향상시킨다.
  • ▲ 개발팀에서 연구한 방법론 개요.ⓒKAIST
    ▲ 개발팀에서 연구한 방법론 개요.ⓒKAIST
    또한, 생성된 이미지의 ‘참신성’과 ‘유용성’을 모두 고려해 각 블록 별 최적 증폭값을 자동 선택하는 알고리즘을 개발, 정량적 평가뿐 아니라 사용자 평가에서도 기존 대비 창의성이 크게 향상됐음을 확인했다.

    특히, 속도 최적화 모델인 SDXL-Turbo에서 발생하는 ‘모드 붕괴’ 현상을 줄이고 이미지 다양성을 높였다는 점에서도 실질적인 기술적 기여가 크다.

    공동 제1 저자인 한지연, 권다희 박사과정은 “생성 모델을 새로 학습하거나 미세조정하지 않고 생성 모델의 창의적인 생성을 강화하는 최초의 방법론”이라며 “학습된 인공지능 생성 모델 내부에 잠재된 창의성을 특징 맵 조작을 통해 강화할 수 있음을 보였다”고 설명했다.

    이어 “기존 학습된 모델에서도 텍스트만으로 창의적 이미지를 손쉽게 생성할 수 있게 됐으며, 창의적인 상품 디자인 등 다양한 분야에서 새로운 영감을 제공하고, 인공지능 모델이 창의적 생태계에서 실질적으로 유용하게 활용될 수 있도록 기여할 것으로 기대된다”고 말했다.

    한편 이번 연구는 △KAIST-네이버 초창의적 AI 연구센터 △과기정통부 정보통신기획평가원 △방위사업청 및 국방과학연구소 △KAIST AI대학원 프로그램 등의 지원을 받아 수행됐다.