구글, AI 이미지 모델 크기 4분의 1로 줄였다…같은 부품 반복 활용한 ‘ELT’ 공개

ByJae-yoon Ryu

Published5월 8, 2026

생성형 AI 업계에서는 일반적으로 더 뛰어난 이미지를 만들기 위해 모델의 파라미터 수를 계속 늘려야 한다는 인식이 강했다. 그러나 구글 연구진이 동일한 부품을 반복 사용하는 방식만으로도 기존 최고 수준 모델과 같은 품질을 구현하면서, 모델 크기를 4분의 1 수준으로 줄이는 기술을 공개해 주목받고 있다.

특히 하나의 모델만 학습해도 상황에 따라 빠른 생성과 고품질 생성을 모두 지원할 수 있다는 점에서 모바일 기기와 클라우드 서버를 동시에 겨냥한 차세대 AI 구조로 평가된다.

ELT, 기존 최고급 모델과 같은 품질 구현

구글 연구진이 발표한 ‘Elastic Looped Transformers(ELT)’는 이미지 생성 모델의 핵심 구성 요소 수를 기존 대비 4분의 1 수준으로 줄이면서도 동등한 이미지 품질을 구현한 새로운 아키텍처다.

연구팀은 ImageNet 256×256 이미지 품질 평가에서 FID(Frechet Inception Distance) 2.0을 기록했다고 밝혔다. FID는 AI가 생성한 이미지가 실제 사진과 얼마나 유사한지를 측정하는 대표 지표로, 수치가 낮을수록 실제 이미지와 가까움을 의미한다.

이번 결과는 비교 대상으로 사용된 기존 고성능 모델 ‘MaskGIT-XL’과 동일한 수준이다. 하지만 차이는 모델 규모에 있었다. MaskGIT-XL이 4억4600만 개의 파라미터를 사용하는 반면, ELT는 1억1100만 개만으로 같은 결과를 냈다.

영상 생성 분야에서도 유사한 성과가 확인됐다. UCF-101 데이터셋 평가에서 ELT는 FVD 72.8을 기록하며 기존 MAGVIT(76)를 넘어섰다. 사용된 파라미터는 7600만 개로, MAGVIT의 3억600만 개 대비 약 4분의 1 수준이다.

이를 일상적으로 비유하면, 같은 품질의 이미지를 만들기 위해 필요한 메모리 공간이 기존보다 크게 줄었다는 의미다. 그동안 대형 클라우드 서버에서만 가능했던 AI 이미지 생성 기능이 일반 스마트폰에서도 구동될 가능성이 커졌다는 해석이 나온다.

동일 블록 반복하는 ‘루프드 트랜스포머’ 구조

ELT의 핵심 개념은 ‘Looped Transformer’ 구조다. 이는 트랜스포머 블록을 한 번만 만든 뒤 동일한 구성 요소를 반복적으로 사용하는 방식이다.

기존 AI 모델이 서로 다른 층을 차곡차곡 쌓는 100층 건물 구조라면, 루프드 트랜스포머는 10층짜리 구조물을 10번 반복 통과시키는 방식으로 동일한 효과를 만든다. 따라서 실제 메모리에 저장해야 하는 구성 요소 수는 훨씬 적어진다.

READ Windows 11 빌드 25126은 설정에서 더 나은 구독 관리 기능을 제공합니다.

다만 기존 루프 구조에는 치명적인 한계가 있었다. 학습 시 설정한 반복 횟수에서만 정상적으로 동작한다는 점이다.

예를 들어 8회 반복을 기준으로 학습한 모델은 정확히 8회 수행 시에는 좋은 결과를 내지만, 4회나 6회처럼 다른 반복 횟수를 적용하면 이미지가 흐려지거나 색상이 왜곡되는 문제가 발생했다. 실제 논문 비교 이미지에서도 기존 루프 모델은 학습된 반복 횟수에서만 선명한 결과를 냈고, 다른 구간에서는 품질 저하가 뚜렷하게 나타났다.

이 때문에 동일 부품 재사용이라는 장점에도 불구하고 실제 서비스 환경에서는 활용 범위가 제한적이라는 평가를 받아왔다.

ILSD 학습법으로 반복 횟수 유연성 확보

ELT의 가장 큰 차별점은 ‘ILSD(Intra-Loop Self-Distillation)’라는 새로운 학습 기법이다.

자기 증류(Self-Distillation)는 일반적으로 더 깊게 계산한 결과를 ‘교사 모델’, 더 적게 계산한 결과를 ‘학생 모델’로 두고, 학생이 교사의 결과를 따라가도록 학습시키는 방식이다.

ELT에서는 교사와 학생이 동일한 부품을 공유한다. 즉 학생을 가르치는 과정 자체가 교사 성능 향상으로 이어지는 구조다.

작동 방식은 비교적 단순하다. 학습 과정에서 모델은 두 가지 결과를 동시에 생성한다. 하나는 최대 반복 횟수까지 계산한 결과이며, 다른 하나는 중간 단계에서 임의로 멈춘 결과다.

이후 중간 단계 결과는 실제 정답 데이터뿐 아니라 최대 반복 결과와도 비교된다. 두 비교 과정에서 발생한 오차가 동일한 구성 요소에 함께 반영되면서, 모델은 어느 단계에서 멈추더라도 안정적인 이미지를 생성하도록 학습된다.

기존 증류 방식은 교사 모델과 학생 모델을 각각 별도로 실행해야 해 연산 비용이 크게 증가했다. 반면 ILSD는 학생 계산이 교사 계산 과정 일부에 포함되기 때문에 추가 비용이 거의 발생하지 않는 것이 특징이다.

논문에 따르면 ILSD가 적용된 모델은 4회 반복 학습만 수행했음에도, 실제로는 6회 반복 시 가장 우수한 성능(FVD 69.20)을 기록했다. 학습하지 않은 깊이에서도 안정적으로 동작한 셈이다.

반면 ILSD 없이 학습한 기존 모델은 학습 범위를 벗어나자 FVD가 1958까지 급등하며 품질이 약 26배 악화됐다.

READ Minecraft에서 양동이로 성게를 잡는 방법

하나의 모델로 속도와 품질 동시에 조절

ELT가 실제 산업 현장에서 주목받는 이유는 ‘Any-Time Inference’ 기능 때문이다.

이는 하나의 모델만 학습한 뒤, 실행 시 반복 횟수를 자유롭게 조절할 수 있는 방식이다. 빠른 결과가 필요하면 2회 정도만 반복하고, 고품질 출력이 필요할 경우 10회 이상 반복하는 식이다. 별도의 추가 학습은 필요하지 않다.

구글 연구진은 Google Cloud TPU v6e 환경에서 ELT가 모델 규모에 따라 최대 3.5배 높은 처리 속도를 기록했다고 설명했다.

성능 향상의 배경에는 작은 모델 구조가 있다. 일반적으로 대형 AI 모델은 외부 메모리와 칩 사이에서 데이터를 지속적으로 이동해야 하기 때문에 속도가 저하된다. 하지만 ELT는 구성 요소 자체가 작아 이런 이동을 최소화했다.

학습 속도 역시 빨라졌다. 동일 품질 기준으로 기존 Diffusion Transformer(DiT) 대비 약 1.4~2배 빠르게 학습이 완료됐다.

모바일 AI 시대 가능성 확대

이번 연구는 AI 이미지 생성 모델 효율성 평가 기준이 단순한 파라미터 수만으로 결정되지 않을 수 있다는 점을 시사한다. 동시에 하나의 모델을 스마트폰의 빠른 미리보기 기능과 서버 기반 고품질 생성 작업에 동시에 활용할 수 있는 가능성도 열었다.

다만 아직 검증이 필요한 부분도 남아 있다. 현재 실험은 ImageNet, UCF-101처럼 고정된 범주의 데이터셋 중심으로 진행됐다. 최근 주류가 된 텍스트 입력 기반 이미지 생성 환경에서도 동일한 효과가 유지될지는 추가 연구가 필요하다는 분석이다.

또한 실제 모바일 환경에서 단일 학습 기반 다중 속도 지원이 사용자 경험 향상으로 얼마나 이어질지도 향후 주요 검증 과제로 꼽힌다.

Jae-yoon Ryu

“많이 떨어집니다. 내성적입니다. 분석가. Coffeeaholic. 문제 해결 자. Avid 웹 전도자. Explorer.”

ELT, 기존 최고급 모델과 같은 품질 구현

동일 블록 반복하는 ‘루프드 트랜스포머’ 구조

ILSD 학습법으로 반복 횟수 유연성 확보

하나의 모델로 속도와 품질 동시에 조절

모바일 AI 시대 가능성 확대

Leave a Reply Cancel reply