포스트

Clip 모델 논문 번역

이미지-텍스트 결합 모델인 CLIP 모델에 대해 항상 궁금했다. 조금 자세히 알아보기 위해 논문을 보자. 1 저자에는 일리야 슈츠케버도 있다.

Learning Transferable Visual Models From Natural Language Supervision

자연어 지도로부터 이끌어내는 전이가능한 이미지 모델 학습

Abstract

현존 최고 컴퓨터 비젼 시스템들은 미리 정의된 정해진 객체 카테고리들을 예측하는 방향으로 학습되었다.

그러나 이렇게 한정된 형태의 지도감독은 해당 모델의 일반화 성능과 사용성을 제한한다. 왜냐면 새로운 형태의 비쥬얼을 포착하기 위해서는 추가적으로 데이터를 라벨링해 제공해야하기 때문이다.

이미지들을 표현하는 문자열을 날 것 그대로 학습하는 방식은 지도 학습 데이터를 훨씬 더 넓은 의미로 모델에 흡수시킬 수 있는 유망한 대안이다.

우리는 이미지에 맞는 제목을 예측하는 간단한 방식을 사용했다. 이 방법을 통해 인터넷에서 모은 4억개의 쌍 데이터(이미지,텍스트)로 구성된 SOTA 이미지 표현들을 사전학습하였을 때 가장 효율적이고 확장가능하게 학습할 수 있었다.

사전학습 이후에 자연어는 학습한 시각적 개념들(혹은 새로운 것들을 묘사한)을 참조해 모델이 하위 작업들을 zero-shot으로 쉽게 수행하는 데 사용됐다.

우리는 이러한 접근 방식의 성능에 대해 연구하였다. 벤치마킹 데이터는 30개의 다른 현존하는 컴퓨터 비젼 데이터셋에 걸쳐 수집됐고 소스는 OCR부터 비디오의 행동 인식, 지리 그리고 많은 유형의 정제된 객체 분류 등이다.

사전학습된 모델은 대부분의 과제에 상당히 잘 전이됐고 해당 과제를 위해 전적으로 지도된 베이스라인 모델과 비교해도 견줄만한 적이 많았다. 물론 사전학습 모델은 해당 과제를 수행하기 위한 특정 데이터를 학습하지 않은 상태였다!

성과의 예를 하나 들면 우리는 원본 ResNet-50의 정확도(accuracy)를 ImageNet의 정확도까지 끌어올릴 수 있었다. 128만개의 학습 예제들을 학습하지 않은 zero-shot으로 말이다. 우리는 우리의 코드와 사전학습 모델 weight를 이곳에 업로드한다. https://github.com/OpenAI/CLIP

한줄평

  • 비젼모델의 넓은 일반화 표현력을 위해 단순 카테고리 분류 형태의 지도 라벨링 말고 문자열을 통해 제목을 예측하는 방식으로 학습했더니 SOTA를 달성함은 물론 하위 과제들도 zero-shot으로 잘 해내더라.

1. Introduction and Motivating Work

날 것의 텍스트로부터 직접 학습하는 사전학습 방법은 근 몇년간 NLP 분야에서 발전해왔다.

자동회귀(AutoRegressive)와 MLM(Masked Language Modeling)처럼 특정 과제에 구애받지않는 목표들은 방대한 연산, 모델 처리량, 데이터, 꾸준하게 향상되는 성능 등등에 걸쳐 확장되었다.

“text-to-text” 형식의 입/출력이 인터페이스 표준으로 발전하면서 과제에 구애받지 않는 구조를 가질 때 zero-shot 형태를 활용하여 특정 데이터나 특정 output 레이어를 더하지 않고도 하위 과제들로 전이할 수 있게 하였다.

GPT-3와 같은 주력상품은 이제 소량의 데이터를 필요로하던 맞춤형 모델들과 비교했을 때 수많은 과제에서 충분히 견줄만 한 상태이다.

이러한 결과들은 웹에서 수집한 텍스트 컬렉션으로 사전학습한 현재의 통합 지도 감독 방법이 수 많은 사람들이 라벨링한 고품질의 NLP 데이터셋들보다 훨씬 좋다고 말한다.

그러나 컴퓨터 비젼과 같은 다른 분야에서는 여전히 ImageNet처럼 사람들이 라벨링한 데이터셋을 사용해 모델을 사전학습하는 것이 표준이다.

웹의 텍스트로부터 직접 학습하는 방식의 확장가능한 사전학습 방법이 컴퓨터 비젼에도 비슷한 변화의 바람을 불러올 수 있을까? 이처럼 NLP에서 이룩한 업적들은 큰 참고가 되었다.

20년이 넘는 시간동안 Mori와 그의 사람들은(1999년) 내용 기반 이미지 검색을 향상시키기 위해 모델에게 이미지들과 문서들의 쌍에서 명사들과 형용사들을 예측하도록 학습시켰다.

Quattoni와 그의 사람들은(2007년) 이미지와 연관된 문장에 들어갈 만한 단어들을 예측하도록 분류기의 가중치 공간을 학습시키는 다양한 학습들을 통해 좀 더 데이터 차원에서의 효과적인 이미지 표현들을 학습할 수 있다는 것을 보여주었다.

Srivastava & Salakhutdinov는 (2012년) 낮은 수준의 이미지와 텍스트 태그 기능들을 이용해 멀티모달 Deep Boltzmann Machines를 교육해 깊은 표현 학습을 연구했다.

Joulin과 그 사람들은 (2016년) 위 일련의 작업들을 트렌드에 맞게 다시 작업하여 이미지의 제목에 들어갈 단어들을 예측하도록 학습한 CNN들은 유용한 이미지 표현들을 배운다는 것을 밝혀냈다. 그들은 YFCC100M 데이터셋 이미지의 제목, 설명 그리고 해시태그 메타데이터들을 bag-of-word 멀티라벨 분류 과제로 바꿔 실험하였고 AlexNet을 사전학습해 이를 예측하도록 하였다. 그리고 이 라벨들은 ImageNet 데이터셋 기반으로 사전 학습해 다른 과제에 전이할 때 구성된 것과 유사하였다.

그리고는 Li와 그 사람들은 (2017년) 위 방법론을 확장해 개별 단어들에 n-gram들까지 추가한 구문을 예측하게 했고, 학습한 시각적 n-gram들과 가장 높은 점수로 예측한 것을 매핑한 사전에 기반한 타겟 클래스들로 이런 시스템이 다른 이미지 분류 데이터셋에 전이했을 때 zero-shot 능력을 보여주었다.

(그림 1. 우리 접근방식의 요약. 일반적인 이미지 모델이 이미지의 특징 추출기와 선형 분류기를 같이 학습시켜 레이블을 맞추게 학습한다면 CLIP은 이미지 인코더와 텍스트 인코더를 같이 학습시켜 학습 데이터에서 올바른 (image, text) 쌍을 맞추도록 학습한다. 테스트 시, 학습된 텍스트 인코더는 대상 데이터셋의 클래스 이름이나 설명을 임베딩하여 제로샷 선형 분류기를 생성한다.)

2020년에는 더 최신의 구조와 사전학습 방법론들을 차용한 VirTex와 ICMLM 그리고 Con-VIRT 등이 나와 텍스트로부터 이미지 표현을 배우기 위한 여러 대조적 목표들과 트랜스포머 기반의 언어모델링, 마스킹 언어 모델링의 잠재력을 보여주었다.

흥미로운 개념의 증거로써 자연어 지시감독을 활용해 이미지 표현을 학습하는 것은 여전히 드물다.

이는 일반적인 벤치마크에 대해 측정했을 때 기타 다른 접근법들보다 낮은 성능을 보였기 때문일 것이다. Li (2017)의 연구는 ImageNet에 zero-shot 설정했을 때 11.5%의 낮은 정확도를 기록했는데 이는 최신 sota의 성능인 88.4%보다 많이 뒤쳐지는 값이다. 일반 전통적인 컴퓨터 비젼 방법론보다 50% 낮다. 그 대신 좁은 범위에 잘 타겟팅된 약한 지도감독을 통해 조금 향상된 성능을 얻긴 했다. Mahajan (2018년)의 연구는 인스타그램에 ImageNet 관련 해시태그가 달린 이미지들을 예측하도록 했을 때 효과적인 사전학습이 이뤄진다는 것을 보여주었다. ImageNet에 파인 튜닝한 사전학습 모델들은 5%의 정확도 향상이 있었고 전반적으로 sota가 되었다.

Kolesnikov (2019년)와 Dosovitskiy (2020년)의 연구는 또한 모델이 지저분하게 라벨링된 JFT-300M 데이터셋의 클래스들을 예측하게 사전학습하여 대량의 전이 벤치마크들에서 큰 수확을 얻었다.

이런 결의 작업들은 소중하게 라벨링된 개수가 제한된 데이터로 지도 학습하는 것과 실질적 제한이 없는 다량의 원시 텍스트를 학습하는 것 그 사이 중간 정도의 단계임을 보여준다. 그렇지만 물론 어느 정도의 타협은 필요하다. 두 작업들 모두 섬세하게 고안했고 그 과정에서 한계 또한 존재하기에 1000개의 클래스와 18291개의 클래스들로 각각 제한했다.

자연어는 언어로 일반화할 수 있기에 훨씬 더 큰 규모의 시각적 개념들을 표현하고 지도할 수 있다. 두 접근방법 모두 고정된 softmax 분류기들을 사용하여 예측을 수행하기에 동적으로 출력을 표현하지 못하는 메커니즘적 약점이 있다. 그리고 이 약점은 모델이 가진 zero-shot 능력과 유연성을 크게 제한하고 축소시킨다.

이렇듯 약하게 지도학습된 모델들과 최근 방식인 이미지 표현을 직접 자연어로부터 학습한 모델들의 가장 중요한 차이는 바로 규모이다. Mahajan (2019년)과 Kolesnikov (2019)년의 연구에서 모델을 수백만에서 10억개 이미지 걸쳐 훈련한 것에 반해 VirTex, ICMLM 그리고 ConVIRT는 1~20만 개의 이미지에 대해 가속기 기간을 가졌다.

그러니까 우리는 위 작업에서 이런 격차를 줄이고 큰 규모의 자연어 지도감독으로 학습된 이미지 분류기의 행동 양식을 연구할 수 있었다. 인터넷에 공개된 큰 규모의 퍼블릭 데이터 덕분에 우리는 4억개의 (이미지, 텍스트) 쌍 데이터셋을 새로 만들 수 있었고 ConVIRT 모델의 초석이 되는 버젼을 만들어 선보일 수 있었는데, 이것이 바로 자연어 지도감독으로부터 학습하는 효율적인 방법인 Contrastive Language-Image Pre-training(이하 CLIP)이다. 우리는 거의 2 종류의 연산 크기로 8가지 모델에 걸쳐 CLIP의 확장성에 대해 연구했고 전이 성능은 부드럽게 예측 가능한 연산 함수라는 것을 알아냈다.

우리는 CLIP은 GPT 계열과 유사하게 OCR, geo-localization, 행동 인식 등 여러 다른 넓은 범위의 과제들을 수행하도록 사전학습 과정에서 배운다는 것을 알아냈습니다. 뒷받침할 근거로 CLIP 모델의 zero-shot 전이로 30개의 현존하는 데이터셋에 대한 벤치마크 성능을 측정했고 기존에 그 과제를 위해 지도학습된 모델들의 성능과 견줄만 하다는 것을 알아냈습니다. (그림 2. CLIP은 우리의 이미지 캡션 베이스라인 모델보다 zero-shot 전이에서 훨씬 더 효과적이었다. 트랜스포머 기반 언어 모델들의 표현력이 뛰어나긴 하지만 zero-shot ImageNet 분류에는 비교적 약했다. 여기서 우리는 텍스트 임베딩 BoW를 예측하는 베이스라인보다 3배 느리게 학습하는 것을 볼 수 있었다. 예측 목표를 CLIP의 대조 목표로 바꾸었더니 효율성은 4배가 되었다.)

또한 선형 확률 표현 학습 분석을 통해 이런 결과를 확인했고 CLIP이 퍼블릭 데이터를 학습한 최고의 ImageNet 모델의 성능을 뛰어넘으면서 연산 효율성 또한 더 높다는 걸 보여준다. 우리는 추가적으로 zero-shot CLIP 모델들이 동일한 정확도로 지도학습한 ImageNet 모델들보다 더 강경한 것도 발견했고 이는 작업 종류에 구애받지 않는 모델의 zero-shot 평가가 모델의 능력을 더 대표해 표현하기 적절하다는 것이다. 이 결과들은 중요한 정책과 윤리적 내포들을 갖고 있고 이를 섹션 7에서 다룰 것이다.


이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.