Emergent Ability:
작은 언어 모델에는 존재하지 않지만 큰 모델에서 발생하는 능력으로, 이전 Pretrained LM 들과 구분되는 LLM 만의 두드러지는 특징
1. Emergent Abilities
일반적으로 머신러닝 기반의 학습 모델은 특정한 작업을 수행하도록 명시적으로 훈련된다. 그러나, LLM에서는 크기나 학습 데이터의 양이 일정 수준을 넘어서면 명시적으로 학습되지 않은 작업을 수행할 수 있는 능력이 갑자기 생겨난다. 지금에서야 LLM에 few-shots 형태로 원하는 task instruction을 주입하는 것이 일반화되었으나, 당시에는 이러한 발현 능력 (창발 현상) 이 매우 특별한 LLM 만의 특징이었다.
1.1 왜 발생하는가?
- 모델 파라미터의 수가 증가할수록 더 복잡한 패턴과 관계를 학습할 수 있다. 매우 큰 모델은 작은 모델과 달리 데이터 간의 훨씬 더 복잡한 관계를 학습할 수 있다.
- 대규모 데이터셋으로 훈련되면 그 안에서 다양한 패턴과 규칙을 발견하게 된다. 모델이 대규모 데이터셋을 학습하는 과정에서 자연스럽게 이러한 현상이 발현될 수 있다.
2. 특징
2.1. In-context 학습
GPT-3 에서 처음 도입된 것으로, 자연어 instruction, few-shots들이 제공되었을 때 추가 학습이나 업데이트 없이 원하는 출력 생산이 가능하다.
2.2. Instruction Following
FLAN 과 같은 자연어 instruction 형태의 데이터를 가지고 튜닝하면 (Instruction Tuning), LLM 은 이후 command 형태로도 unseen task에 대하여 잘 수행하는 것으로 나타난다. 이러한 방식을 통해 명시적인 예제를 주지 않더라도 새로운 작업에 대한 일반화 능력이 향상되었다.
2.3. 단계별 추론
작은 모델의 경우, 여러 가지 추론 단계가 필요한 복잡한 작업은 해결이 어렵다. 그러나 LLM 의 경우 CoT와 같은 방법을 사용하여 최종 답을 도출하기 위한 중간 추론 과정을 프롬프트에 추가함으로써 문제 해결이 가능하게 되었다.
- 이러한 단계별 추론 과정 (Reasoning) 은 scratch 학습 시 code 데이터를 함께 학습하면서 잠재적으로 얻게 된 능력으로 알려져 있다.
Emergent Ability는 기존의 scaling laws를 따르지 않고 어느 규모 이상의 모델에서 급작스럽게 발생한다.
'AI' 카테고리의 다른 글
[AI] RAGAS 공식 문서(docs) 파악하기 (2) | 2024.11.10 |
---|---|
[AI] Mixed Precision Training 이란? (3) | 2024.11.01 |
[AI] SwiGLU는 어떤 함수일까? (0) | 2024.10.09 |
[AI] Anthropic의 Contextual Retrieval (0) | 2024.10.05 |
[AI] BM25 분석하기 (0) | 2024.10.02 |