반응형

지도학습과 비지도학습의 차이를 설명하고 각각 예를 드시오
지도학습과 비지도학습은 데이터의 정답(label)의 유무에 따라 구분된다.
지도학습(Supervised Learning)
입력 데이터에 대한 정답 레이블이 주어진 상태에서 모델을 학습시키는 방법이다.
데이터 (X, y) 에서 함수 f: X → y 를 학습하며, 새로운 입력에 대해 올바른 출력을 예측하는 것이 목표이다.
ex)
모의고사와 정답지를 보며 채점 기준을 익히는 공부
로지스틱/선형회귀,결정트리,SVM
비지도학습(Unsupervised Learning)
입력 데이터에 대한 정답(label)없이 데이터의 구조나 패턴을 학습하는 방식이다.
즉 주어진 데이터 X만으로 데이터 간의 유사성, 군집 구조, 저차원 표현 등을 찾아낸다.
ex)
정답지 없이 문제들을 묶어보며 유형과 구조를 스스로 찾는 공부
K-평균, DBSCAN,계층군집,연관규칙
준지도학습
레이블링된 데이터가 적을 때, 레이블이 없는 데이터를 pseudo labeling과정을 통해 성능을 향상시키는 방식임.
데이터 분포 문제를 고려해야하며,mixmatch방법이 대표적임.
강화학습
에이전트가 환경과 상호작용하여 보상을 최대화하는 행동을 학습하는 방식임.
알파고와 자율주행 등이 있음.
과적합(Overfitting)과 과소적합(Underfitting)의 차이를 설명하고, 과적합을 완화하는 방법을 두 가지 이상 제시하시오.
모델의 복잡도와 일반화 성능의 관점에서 과적합과 과소적합을 구분할 수 있다.
과적합
학습 데이터에는 성능이 매우 좋지만, 새로운 데이터로 일반화가 잘 안 됨. 모델이 너무 복잡하거나 데이터가 부족해 학습셋의 잡음까지 외워버릴 때 발생한다.
대처방법
모델의 복잡도를 낮추거나, 규제화 기법을 사용한다. L1/L2 정규화, 드롭아웃 적용, 얼리 스타핑으로 과도한 학습 방지등이 효과적이다. 훈련데이터의 양을 증가시켜도 과적합을 줄일 수 있다.
과소적합
학습데이터조차 충분히 설명 못함. 주로 모델이 지나치게 단순하거나 특징 표현이 부족할 때 발생한다.
대처 방법
더 복잡한 모델을 사용하거나, 충분한 학습을 위해 더 오래 훈련하거나 더 풍부한 특성을 투입한다. 모델에 충분한 표현력이 부여되면 underfitting을 해결할 수 있다.
정규화
norm이란 벡터 메트릭스 텐서의 값을 하나의 숫자로 나타내려고 하는 것이다.
머신러닝에서는 이 값을 가지고 모델의 복잡도로 정의하고, 모델의 복잡해지는 람다값을 줘서 모델이 복잡해지지않는 방향으로 가게 값을 준다.
딥러닝 모델이 과적합을 피하게 하는 방법.
모델이 학습하는 동안 중요하지 않은 부분을 지워버리는 것
ex) 영화 추천 시스템
손실이 더 커져서 학습에 방해가 될거같지만, 불필요한 가중치는 감소하고 필요한 가중치는 증가한다.
L1은 모든 가중치들의 절댓값들의 합을 regulatization term으로 사용한다.
L2는 모든 가중치들의 제곱의 합을 regulatization term으로 사용한다.
L2를 좀 더 많이 사용한다고 한다. 그러나 L1은 장점이 많다.
선형 회귀(Linear Regression)와 로지스틱 회귀(Logistic Regression)의 차이를 비교 설명하시오.
선형 회귀는 연속값을 직접 예측하는 최소제곱 기반 모델이고, 로지스틱 회귀는 선형 점수를 시그모이드로 확률화하여 분류를 수행하는 최대 우도 기반 모델이다.
둘다 선형결합을 사용하지만, 선형은 값을 직접출력하고, 로지스틱은 시그모이드로 확률을 사용합니다.
선형은 MSE, 로지스틱은 크로스 엔트로피를 사용한다.
분류 문제에서 자주 쓰이는 교차 엔트로피 손실(cross-entropy loss)을 설명하고, 회귀 문제에서 사용하는 평균제곱오차(MSE)와의 차이점을 설명하시오.
손실함수는 모델 예측과, 실제 정답 간 차이를 수치화한것으로, 모델 학습의 지표이자 목표이다.
교차 엔트로피 손실
주로 분류문제에서 사용되는 손실이다. 모델이 출력한 확률 분포와 실제 정답 분포 사이의 엔트로피 차이를 계산한다.
모델이 정답을 확신하여 맞추면 손실이 매우 작아지고 틀리면 매우 커지도록 설계되어있다.
평균제곱오차
주로 회귀 문제에서 사용하는 손실로, 예측 값과 실제 값의 차이를 제곱하여 평균을 낸 것이다.
오차의 크기에 비례하여 벌점이 커진다. 연속적인 오류의 크기를 잘 반영하며, 정규분포를 가정한 최소 제곱 추정과 관련이 있다.
차이점
MSE를 분류 문제에서 적용하면, 출력 확률 대신 레이블과 연속값 간의 오차를 취해 학습이 불안정하거나 성능이 떨어질 수 있다.
반면 교차 엔트로피는 확률 공간에서 정의되어 분류에 적합하다.
머신러닝 모델의 편향 - 분산 트레이드오프(Bias-Variance Tradeoff)에 대해 설명하시오.
모델의 복잡도와 오차간의 관계, 편향이 낮으면 분산이 높고, 분산이 높으면 편향이 낮아지는 현상을 의미
머신러닝 모델의 일반화 성능을 이해하는데 중요한 개념이며, 모델의 오차를 편향과 분산으로 분해하여 분삭하는 방식임.
낮은 편향과 낮은 분산 사이에 균형을 찾는 것을 편향 - 분산 트레이드 오프라고 하며, 모델의 성능을 최적화 할 수 있다.
편향
모델의 학습데이터의 본질적인 구조나 패턴을 놓치는 현상, 편향이 높으면 복잡한 패턴을 포착하지 못해 underfitting이 될 수 있음
분산
모델이 학습데이터의 작은 변동에도 과도하게 민감한 경향을 나타내며, 분산이 높은 모델은 overfitting이 일어날 수 있음.

반응형
'AI' 카테고리의 다른 글
| 태태코딩 - 개발자를 위한 AI 알고리즘 서평 이벤트 (0) | 2025.12.25 |
|---|---|
| 태태개발일지 - AI 대학원 면접 준비자료(deep learning) (0) | 2025.10.19 |
| 태태개발일지 - 객체탐지 서비스 Springboot로 서빙하기 AI API 사용하기 (0) | 2025.10.08 |