Transformer Model Workload Analysis
‘Full Stack Optimization of Transformer Inference: a Survey’ 리뷰 시리즈 2편 논문의 2.2장에서는 모델 워크로드를 분석합니다. Idle한 상황을 가정하고, 각 트랜스포머 모델의 이론적 최대 성능(upper bound)을 분석합니다. 그 과정에서 각 모델의 특성을 이해해 볼 수 있습니다. 논문 링크: https://arxiv.org/abs/2302.14017 Models 논문은 BERT-Base, BERT-Large, GPT-2 모델로 워크로드를 분석했습니다. 모두 트랜스포머 기반입니다. 주요 특징과 parameter configuration은 아래와 같습니다. 모델 구조 방향성 목적 주요 용도 12-layer BERT-Base 인코더-only 양방향 마스킹된 단어 예측 (MLM) 문장 이해 (분류, 질의응답 등) 24-layer BERT-Large 인코더-only 양방향 BERT-Base 확장 고성능 문장 이해 12-layer GPT-2 디코더-only 단방향 (왼→오) 다음 단어 예측 (causal LM) 텍스트 생성 (요약, 번역, 대화 등) ...