반응형

머신러닝 8

태태개발일지 - 구름톤 머신러닝

효율적인 AI Code 기존 데이터를 처리할 때 train 과 test를 분리하지 않아서 과적합이 일어나는 상황을 볼 수 있었다. 1. 과적합(Overfitting)이란?과적합이란, 모델이 학습 데이터에 너무 맞춰져서 새로운 데이터(테스트 데이터)에서는 성능이 떨어지는 현상이다. 즉, 학습 데이터만 잘 맞추고 실제로는 예측을 잘 못하는 모델이 된다. 2. 데이터 분할의 중요성이 문제를 방지하려면 데이터를 **train set(학습용)**과 **test set(테스트용)**으로 나누는 게 필수다. 일반적으로 8:2(80%:20%) 비율로 많이 나눈다. from sklearn.model_selection import train_test_split# X: feature 데이터, y: 라벨 데이터라고 가정X_t..

태태개발일지 - 구름톤 ICT 퍼셉트론

딥러닝 퍼셉트론: 뇌를 구성하는 신경 세포 뉴련의 동작과 유사하다. 뇌에서 뉴런은 신경물질을 전달한다. 이를 유사하게 구현한게 퍼셉트론이다. 입력값과 가중치의 값을 곱하여, 그 값을 1과 0으로 구분하는 것이다.가중치가 높으면 높을 수 록 그 정보는 중요하다는 뜻이다. 바이어스 또한 더하고, 시그모이드나 소프트맥스 함수로, 활성화함수를 통해 출력을 해준다. 컴퓨터는 두 개의 값 0과 1을 입력해 하나의 값을 출력하는 회로가 모여 만들어지는데, 이 회로를 게이트(gate)라고 부릅니다. 초기 형태의 인공 신경망인 단층 퍼셉트론은 간단한 XOR 게이트조차도 구현할 수 없는 부족한 인공 신경망이라는 지적을 받았다. def AND_gate(x1, x2): w1 = 0.5 w2 = 0.5 b..

태태개발일지 - 다중선형회귀, 로지스틱회귀

다중선형회귀 다중 선형 회귀는 x의 값이 여러개인 그래프이다. 이전과 동일하게 식을 작성하면 되는데 기본 선형 회귀와 다른 점은 행렬의 곱을 사용하면 된다는 것이다. X[x1,x2,x3,x4] , W[w1, w2, w3, w4] 를 내적하게 되면 위와같은 식이 나오게 되는 것이다. 여기서 문제는 b이다. b는 마지막에 붙여줘도 되고,X[x1,x2,x3,x4,1] , W[w1, w2, w3, ..

태태개발일지 - 머신러닝 기초

선형회귀독립 변수와 종속 변수간의 선형 관계를 모델링한것. y = mx + b 형태의 직선 방정식을 사용하여 데이터를 예측한다. ex) 집값 예측, 판매량 예측 import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as plt# 데이터 준비data = {'area': [1500, 2000, 2500], 'price': [300000, 400000, 500000]}df = pd.DataFrame(data)# 모델 학습model = LinearRegression()model.fit(df[['area']], df['price'])# 예측 및 시각화predicted_p..

태태개발일지 - AI 기초(머신러닝)

기본적으로 지도학습, 비지도학습, 강화학습 으로 나눈다. 지도학습실제 정답이 있는 문제를 내서 학습시키는 것이다.                                                                   (실제로 text와 label을 함께 입력한다.) feature: 입력값label : 출력값,정답   비지도학습실제 정답을 넣지않고, 알아서 군집을 구성하게 하여 처리하게 하는 것이다.  강화학습실제 경험을 토대로 학습해 나가는 것이다. (ex 알파고)  강화학습은 다루지 않고, 지도학습  비지도학습에 대해서 다룰 것이다.  지도학습  분류와 회귀 두종류가 있다. 1) 분류주어진 데이터를 통해 카테고리에 따라 분류하는 문제. ex)분류는 맞다,아니다의 이진분류 모델이있고, 사..

태태코딩 - AI 시작

keep상황항해 백엔드 과정에 이어서 생성형 AI에 대해서 배우는 과정을 등록해서 재직중에 AI를 배울 기회가 생겨서 AI를 수강하고 있다. 데일리 일정평일에는 퇴근후 2-3시간씩 AI자료를 보며 공부하고, 토요일 실 수업 끝난 후 일요일에는 수업내용을 정리하는 계획을 가지고 있다.   problem아무래도 AI가 아예 처음이다 보니 개념도 익숙하지 않고, 수식이 정말 이해가 하나도 안되는 상황이였다..머신러닝, 딥러닝의 차이도 전혀몰랐고, python으로 머신러닝을 어떻게 사용하는 지 딥러닝을 어떻게 사용하는지 전혀 감을 못잡는 문제가 있었다. try1. 우선 강의 자료를 보면서 아주 기초부터 머신러닝과 딥러닝에 대해서 학습했다.2. 사전 과제에 있던 강의를 다시 돌려보면서 개념을 익숙하게 했다.3. ..

태태개발일지 - 머신러닝

데이터 전처리데이터 분석 및 머신러닝 모델링을 위해 데이터를 준비하는 과정.  원시 데이터는 종종 불완전하거나, 노이즈가 많거나 형식이 일관되지 않아 직접 모델링에 사용하기 어렵다. 데이터 전처리는 데이터의 품질을 올린다.  1. 결측값 처리: None , null 데이터가 들어가있다는 뜻이다.삭제: 행이나 열 삭제대체: 평균,중앙값으로 바꿔버린다.예측: 예측하고, 채웁니다. 2. 이상값 처리: 값 자체가 이상한경우 ex) 사람키가 270이 넘는경우제거: 제거변환: 상한선 하한서으로 대체IQR방법: 이상치를 발견하는 방법(특정범위를 잡아놓고 범위가 넘어가는 것을 이상값이라고 처리) 3. 중복데이터 제거: 동일한 데이터가 여러번 나타나는 경우 ex) 개,고양이 사진을 넣는데 개가 99%고 고양이가 1%일경..

카테고리 없음 2025.01.30

태태개발일지 - [스파르타코딩클럽 후기]실무에 바로 쓰는 바닥부터 시작하는 머신러닝

수강 내용(실무에 바로 쓰는 바닥부터 시작하는 머신러닝)머신러닝 컴퓨터가 명시적으로 프로그래밍 되지 않아도, 데이터를 통해 학습하고 예측할 수 있도록 하는 기능. (AI일부분의 알고리즘이다.)최근에는 딥러닝을 많이사용한다. 하지만 딥러닝도 머신러닝의 일부분이다.ex) 스스로 규칙과 논리를 학습하고 결과를 도출해 낸다. 오해하는부분 코딩없이 가능하다?X 규칙과 논리를 스스로 찾는것이지 그 찾는 것은 프로그래밍해야한다.  인공지능 -> 가장 큰 범위(스스로 생각할 수 있는 프로그래밍) 머신러닝은 그중에 하나이다.또 딥러닝과 강화학습은 머신러닝의 부분이다. 지도학습 비지도학습 강화학습 머신러닝의 역사과거에 머신러닝을 활용하지 못했던 이유 근본적인 문제: 데이터가 굉장히 많이 필요했었다. 데이터의 질과 양이 필..

Python 2025.01.29
반응형