반응형

트랜스포머(Transformer)
1. self-Atteion
2. multi-head-attention
3. positional encoding
4. encoder/decoder
트랜스포머는 RNN과 달리 순차적 구조 없이 문장을 병렬로 처리할 수 있는 모델이다.
Self-Attention은 한 문장 내 단어들 사이의 관련성을 계산해 각 단어의 문맥을 파악한다.
Multi-head-Attention 여러 어텐션을 병렬로 수행하여 다양한 의미 관계를 동시에 학습한다.
Positional Encoding은 순서정보가 없는 프랜스포머에 위치정보를 부여한다.
트랜스포머는 인코더와 디코더 구조로 이루어지며, 번역, 요약 등 시퀀스- 시퀀스 작업에 강하다.
RNN에 비해 병렬처리 가능성과 장기 의존성 학습에서 우위를 가진다.
정규화
모델이 데이터를 과하게 암기하지 않게하고 일반적인 패턴을 학습하도록 유도함으로써 과적함 방지
딥러닝에서 과적합을 방지하기 위한 정규화 기법에 대해 설명하시오.
- L1 정규화
- L2. 정규화
- 드롭아웃
L1 라쏘
모든 가중치의 절대값을 더하여 불필요한 특성의 가중치를 0으로 만듬
L2 릿지
모든 가중치의 제곱합을 더하여 모든 가중치를 작게 만들어 모델을 부드럽게만듬
드롭아웃
일부 뉴런을 무작위로 꺼서 특정 뉴런에 의존하는 것을 막고 다양한 신호를 학습하도록함
분산 표준편차 평균의 정의
평균
주어진 데이터를 모두 더한 후 총 수로 나눈 값으로 데이터의 중심값을 나타낸다
분산
평균으로 부터 얼마나 분포되어있는 지를 나타낸다
표준편차
분산의 제곱근이다. => 표준으로부터 얼마나 떨어있는지를 값으로 구분
ex) 학생의 시험점수로 예를 들 수 있음
vit와 cnn의 차이
- vit는 전체이미지를 16*16 사이즈로 픽셀 단위 패치들로 잘라서 임베딩한다.
- CLS토큰을 분류기로 최종출력을하고,
- vit는 자기어텐션으로 전역적 관계를 파악하고, 순서 정보가 없는 부분을 포지셔널 인코딩을 사용한다.,대규모 사전학습이 필요하지만,.
- CNN은 지역적 필터를 사용하여 국소 특징을 추출하고 소규모도 가능하다.
RNN vs LSTM 핵심 정리
1) 구조적 차이점
RNN(바닐라)
입력과 이전 hidden state로 새로운 hidden state를 한 번에 갱신하는 단순 순환 구조. 내부 "게이트"나 별도의 장기 메모리 없음.
LSTM
순환 유닛 안에 3개의 게이트(입력·망각·출력)와 별도 경로의 cell state(장기 메모리)가 있음. 게이트들이 정보의 유입/유지/방출을 조절해 유용한 정보는 오래 저장하고, 불필요한 정보는 지움.
RNN은 한 줄짜리 파이프, LSTM은 밸브(게이트) 3개 달린 이중 파이프(hidden과 cell) 구조.
2) 왜 LSTM이 시계열에 더 적합한가
- 선택적 기억/망각: 게이트가 과거 정보를 선별적으로 유지/폐기하여 추세, 계절성 같은 장기 패턴을 오래 보존 가능.
- 장기 의존성 학습: cell state 경로가 정보와 그래디언트가 흐르는 “고속도로” 역할을 해 먼 과거의 영향도 학습하기 쉬움.
- 실무 적합성: 긴 시퀀스 맥락이 중요한 예측(수요, 이상탐지, 번역 등)에서 성능·안정성이 좋게 나오는 경우가 많음.
단, LSTM은 파라미터가 많고 계산이 더 무겁다는 트레이드오프가 있음.
3) 기울기 소실과의 연관성
RNN의 문제
시간축을 따라 연쇄 미분할 때, 활성화 함수 미분값(< 1)이 반복 곱해져 그래디언트가 지수적으로 작아짐(소실) 또는 커짐(폭주). 긴 시퀀스에서 초반 정보 학습이 어려워짐.

반응형
'AI' 카테고리의 다른 글
| 태태코딩 - 개발자를 위한 AI 알고리즘 서평 이벤트 (0) | 2025.12.25 |
|---|---|
| 태태개발일지 - AI 대학원 면접 준비자료(machine learning) (0) | 2025.10.18 |
| 태태개발일지 - 객체탐지 서비스 Springboot로 서빙하기 AI API 사용하기 (0) | 2025.10.08 |