자격증/ADSP

태태개발일지 - ADSP 1 과목 데이터의 이해 총정리

태태코 2025. 10. 23. 16:34
반응형

1 과목 데이터의 이해

데이터 유형

정성적 데이터(질적 자료)

저장,검색, 분석에 많은 비요이 소모되는 언어/문자 형태의 데이터 

 

  1. 주관적 내용
  2. 통계분석이 어렵다.

ex) 회사 매출 증가함

 

정량적 데이터(양적 자료)

정형화 된 데이터로 수치, 도형, 기호 등의 형태를 가진 데이터
  1. 객관적 내용
  2. 비용 소모가 적어 통계분석에 용이

ex) 나이, 몸무게 ,주가

 

데이터의 역할

지식 경영의 핵심 이슈인 암묵지와 형식지 간의 상호작용에 중요한 역할을 한다. 지식 형성의 중요한 기초가 된다.

 

암묵지 

학습과 체험을 통해 개인에게 습득된 무형의 지식

1. 내면화

학습과 체험을 통해 개인이 습득하는 과정

 

2. 공통화

내면화된 지식을 조직의 지식으로 만드는 과정

 

형식지

문서나 메뉴얼처럼 형상화된 지식으로, 지식의 전달과 공유가 매우 용이

 

3. 표출화

개인의 암묵지를 언어나 기호, 숫자 등의 형태로 표출화

 

4. 연결화

표출화 된 것을 다시 다른 개인의 본인의 지식에 연결

 

관계

내면화 -> 공통화 -> 표출화 -> 연결화

 

 

 

DIKW 피라미드: 데이터 정보 지식 지혜

데이터

개별 데이터 자체, 데이터 자체로는 의미가 중요하지 않은 객관적 사실

 

ex) A마트는 100원에, B마트는 200원에 연필을 판매

 

정보

데이터의 가공,처리와 데이터 간 연관관계 속에서 의미가 도출 된 것

 

ex) A마트의 가격이 더 싸다.

 

지식

데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고, 개인적인 경험을 결합하여 고유의 지식으로 내재화한것

 

ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다.

 

지혜

지식의 축적과 아이디어가 결한된 창의적 산물

 

ex) A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단.,

 

db특징

  1. 통합된 데이터: 동일한 내용의 데이터가 중복되어있지 않음
  2. 저장된 데이터: 컴퓨터가 디스크와 같은 접근할 수 있는 저장 매체에 저장됨
  3. 공용 데이터: 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용(보통 대량화되고 구조가 복잡함)
  4. 변화되는 데이터: 새로운 데이터의 삽입 기존데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터 유지

 

데이터베이스 관리시스템 DBMS

정의: 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어

 

종류

 

1) 관계형 DB RDMS

컬럼과 로우로 구성되는 하나 이상의 테이블로 구성

 

테이블에서 기본키로 각 행을 구별

 

2.객체지향

정보를 객체 형태로 표현하는 데이터베이스 모델로, 오브젝트 데이터 베이스라고도 부름

 

이미지 및 동영상 저장에 적합하지만, RDMS보다 정확성과 예측성이 떨어짐

RDMS + OODBMS 혼합한 ORDBMS를 사용

 

3.NOSQL

전통적인 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 매커니즘 제공

 

ex) MONGODB, CASSANDRA, HBASE

 

 

 

SQL

데이터베이스에 접근할 수 있는 데이터베이스 언어

 

종류

  1. DDL: creat,alter, drop
  2. DML: select, update, delete,insert
  3. DCL: grant, revoke

데이터 베이스 관련 용어정의

  1. 메타데이터: 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명
  2. 인덱스: 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조
  3. 스키마: 데이터베이스의 구조와 제약조건에 관해 전반적인 명세를 기술
  4. 트리거: 어느 특정한 동작에 반응해 자동으로 필요한 동작을 실행하는 것
  5. 데이터 사전: 시스템 전체에서 나타나는 데이터 항목들에 대한 정보를 지정한 중앙 저장소

 

데이터베이스의 활용

  1. OLTP
  2. 호스트 컴퓨터와 온라인으로 접속된 여러 단말기 간의 처리형태의 하나
  3. OLAP
  4. 정보 위주의 분석 처리를 의미하며, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 도움을 줄 수 있는 기술
  5.  
  6. CRM: 고객관계 관리, 기업이 고객과 관련된 내 외부자료를 분석 통합한다.
  7. SCM: 공급망 관리라는 뜻으로 기업에서 원재료의 생산,유통 등 모든 공급망 단계를 최적화한다.
  8. ERP: 인사,재무,생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을 하나의 통합시스템으로 재구축
  9. BI: 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스/레포트 지원
  10. RTE: 회사의 주요 경영정보를 통합 관리하는 새로운 실시간 기업 경영 시스템

 

 

 

빅테이터의 특징

3v

규모 , 형태, 속도

 

규모

GB-TB-PE-EB-ZB-YB

 

1024승 단위로 뛴다.

 

형태

데이터 유형과 소스 측면의 다양성 증가

 

정형(RDMS,스프레드 시트), 반정형(웹 로그, 센서데이터), 비정형 데이터(텍스트,음성,메모장,영상)

 

속도

데이터 수집과 처리측면에서 속도 향상

 

가치

만약 4V일 경우

 

빅데이터의 출현 배경

  1. 디지털화
  2. 저장 기술의 발전과 가격하락
  3. 인터넷 발전
  4. 모바일 시대
  5. 클라우드 컴퓨팅(가장 큰 영향을줌)

 

빅데이터가 만들어 내는 본질적인 변화

 

전 후 양 상

  1. 사전처리 -> 사후처리
  2. 표본조사 -> 전수조사
  3. 질 -> 양
  4. 인과관계 -> 상관관계

 

 

빅데이터의 가치 선정이 어려운 이유

데이터의 활용방식

재사용,재조합, 다목적용 개발 등 활용방식이 다양해짐

 

새로운 가치 창출

데이터가 기존에 없던 가치를 창출해서 가치 선정이 어렵다.

 

분석기술 발전

클라우드 분산 컴퓨팅과 새로운 기법의 등장으로 없던 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높다.

 

 

빅데이터 활용 기본 테크닉 7가지

연관 규칙 학습

어떤 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법

 

ex) A를 구매한 사람이 B를 많이 사는가?

 

유형 분석

새로운 사건이 속하게 될 범주를 찾는 일

 

ex) 사용자가 어떤 특성을 가진 집단에 속하는 가

 

유전알고리즘

최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법

 

ex) 최대 시청율을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야하는가

 

기계학습

훈련 데이터로부터 학습하여, 알려진 특성을 활용해 예측 하는데 초점

 

ex) 기존 시청기록을 바탕으로 시청자는 보유한 영화중 어떤 영화를 보고싶어하는가?

 

회귀분석

독립변수를 조작했을 때 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악

 

ex) 구매자의 나이가 구매차량의 타입에 어떤 영향을 미치는가

 

감성분석

특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석

 

ex) 새로운 환불 정택에 대한 고객의 평가

 

소셜 네트워크 분석

영향력 있는 사람이나 고객들 간 소셜 관계 파악

 

빅데이터의 위기 요인 3가지

  1. 사생활책임 -> 동의에서 책임으로
  2. 책임 원칙 훼손-> 결과 기반 책임 원칙 고수(과정이아닌 결과로 판단)
  3. 데이터오용 -> 알고리즘 접근 허용 알고리즈미스트를 통해 구제

 

익명화 기술

데이터 마스킹

데이터의 길이, 유형,형식과 같은 속성을 유지한 채, 새롭 고 읽기 쉬운 데이터를 익명으로 생성하는 기술

 

가명처리

개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 규칙 노출 방지해야한다.

 

총계처리

데이터의 총합 값을 보임으로서 개별 데이터 값을 보이지 않게함, 특정 집단의 특성을 공개하는건 주의 해야한다.

 

데이터값 삭제

데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요없는 값 삭제

 

데이터 범주화

데이터의 값을 범주의 값으로 변환하여 값을 숨김

 

 

빅데이터 활용에 필요한 기본 3요소

데이터

IOT ..

 

기술

인공지능 ..

 

인력

데이터 사이언 티스트

알고리즈미스트

 

 

빅데이터 분석은 BIG이 핵심이 아니다.

  1. 데이터 분석 기반의 통찰이 중요
  2. 직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요
  3. 더 많은 데이터가 더 많은 가치로는 연결되지않음
  4. 직관< 데이터 의사결정
  5. 정형+ 비정형 혼합사용
  6. 객관적이고 종합적인 통찰을 줄 수 있는 데이터 찾기
  7. 전략과 비지니스의 핵심가치에 집중

 

 

데이터 사이언스의 의미

데이터, 수학, 통계, 컴퓨터 , 시각화, 해커 등 전문지식을 종합한 학문

분석은 선거결과에 결정적인 영향을 미칠 수 있다.

 

데이터 사이언스의 구성요소

분석영역

수학, 확률모델, 머신러닝, 분석학,

 

it영역

프로그래밍, 데이터 엔지니어링, 데이터웨어하우징

 

비지니스 분석

커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화

 

 

데이터 사이언티스트의 요구 역량

 

하드스킬

빅데이터에 대한 이론적인 지식, 데이터 처리나 분석 기술 관련 숙련 기술

 

소프트 스킬

통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력

 

전략적 통찰력과 인문학 부활의 원인

1. 외부환경적 측면

단순 세계 => 복잡한 세계

비지니스 중심 제품 생산 -> 서비스로 이동

경제와 산업의 논리: 생산 -> 시장 창조로 변환

 

2. 내부적 환경

기존 사고의 틀에 벗어나 문제를 바라보고 해결하는 능력

비지니스의 핵심 가치를 이해하고 고객과 직원의 내면적 요구를 이해하는 능력

 

 

 

데이터 웨어하우스

사용자의 의사결정에 도움을 주기 위하여, 기간시스템에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스

 

데이터 웨어하우스의 특성

 

주제 지향성

데이터를 주제별로 구성함으로써 최종 사용자 및 전산에 약한 분석자라도 이해하기 쉬운 형태로 만드는 것

 

통합성

데이터가 데이터 웨어하우스에 들어갈 때 일관적인 형태로 변환되는 것

 

시계열성

데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타냄

 

비휘발성

데이터 웨어하우스에 일단 적재되면, 일괄처리 작업에 의한 갱신외에는 insert delete 변경이 수행되지 않는다.

 

 

ETL

기업 내부 또는 외부로 부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에 적재

 

ODS

다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리

 

 

 

데이터 레이크

현재 정의된 목적이없는 비정형 원시데이터를 저장

 

대규모의 다양한 원시 데이터를 세트를 기본형식으로 저장하는 데이터 레파지토리 유형

보통 스키마가 없는 큰 규모의 구조를 지향하기때문에 하둡과 HDFS를 비롯한 에코시스템 사용

 

데이터 마이닝

대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정 KDD

통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다.

 

빅데이터 기술

하둡

대규모 분산 벙렬 처리의 업계 표준으로 맵 리듀스 시스템과 분산 파일 시스템인 HDFS로 구서된 플랫폼 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고있다.

 

여러개의 컴퓨터를 하나인 것 처럼 묶어 대용량 데이터를 처리하는 기술

 

HDFS를 통해 수 천대의 장비에 대용량 파일을 저장할수 있는 기능 제공

맵 리듀스로 HDFS에 저장된 대용량 데이터들의 대상으로 SQL을 이용하여 사용자의 질의를 실시간으로 처리

하둡 에코시스템이 등장하여 다양한 솔루션 제공 및 부족한 기능 보완.

 

아파치 스파크

분산형 컴퓨터 플랫폼이지만, 자바 파이썬 API 지원

in-memory여서 하둡보다 빠름

 

스마트 팩토리

공장에 IOT설치하여 실시간 데이터 수집

 

아마존

EC2 서버제공 클라우드 서비스

 

2과목 정리

https://taetaecoding.tistory.com/351

 

태태개발일지 - ADSP 2 데이터 분석 기획 총정리

데이터 분석 기획 분석 기획의 특징분석기획실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계

taetaecoding.tistory.com

 

 

3과목정리

https://taetaecoding.tistory.com/352

 

태태개발일지 - ADSP 3 통계와 회귀분석

통계와 회귀분석 기초통계통계학개론모집단/표본표본추출방법자료의 종류기초통계분석기술통계/추측통계회귀분석다변량분석상관분석(상관계수)다차원 척도법(MDS)주성분 분석(PCA) 시계열 예

taetaecoding.tistory.com

 

 

반응형