메뉴버튼

전체글

엔지닉 반도체 데이터 분석 스터디 29기 1일차 학습일지

상세페이지-메뉴
https://community.weport.co.kr/community/111802388

 

1강. Data 분석 기초 용어 및 개념

 

모집단과 표본

모집단(population)에 대한 표본(sample)을 추출하여 조사한다

이를 표본조사라고 한다: 일부를 조사 후, 이를 근거로 모집단을 추측

표본조사를 통하여 전체 집단의 평균과 분산을 추측할 수 있다

표본의 개수가 늘어날수록 분산과 표준편차의 수가 줄어들어 튀는 데이터들로 인한 오류가 줄어든다

-전수조사: 모집단 전체 조사(모든 Wafer들에 대한 조사)

-표본조사: 일부를 조사 후, 이를 근거로 모집단을 추측(Wafer 중 일부만 조사)

 

표본 추출

Data 수집 시 유의사항

  • 전체를 대표할 수 있는가?⭐(소득, 나이, 지역 등 편향되지 않아야함)

  • 무작위로 추출 되었는가?⭐(표본을 추출할 때 경향성을 띄지 않도록 해야함)

  • 표본의 크기는 충분한가?

  • Data 수집 단계에서 일관성을 유지하였는가?

  • 의도하는 목적에 맞게 수집하는가?(목적에 영향이 있는 데이터를 사용해야함)

  • 전문교육을 이수한 자를 통해 수집하는가?

 

중심위치

중심에 대한 다양한 정의

평균(mean)

가장 일반적인 평균

절사 평균(trimmed mean)

가장 크거나 작은 Data를 버린 뒤, 평균

중앙값(Median)

Data크기 순으로 나열 후, 가운데 값

범위의 중앙값(Mid-range)

최대/최소의 평균

최빈수(mode)

가장 많은 빈도를 가지는 값

가중 평균(weighted mean)

각 Data별로 비중을 다르게 주어 계산(알고리즘)

평균:

$\frac{\sum _{\ i=1}^{\ n}x_i}{n}$ n i=1xin

절사평균:

위에서 k개, 아래에서 k개를 뺀 후에 평균을 구함

$\frac{\sum _{\ i=k+1}^{\ n-k}x_i}{n-2k}$ nk i=k+1xin2k
 

데이터 분포에 따른 관계

negatively skewed: median값이 중심위치

normal distribution: mean, median, mode값이 비슷하게 위치해 있음

positively skewed: median값이 중심위치

 

산포

산포(분산, 표준편차)의 의미

각 Data가 중심으로부터 얼마나 퍼져 있는가?

(범위, 표준편차 등을 의미)

V, σ: 작을 수록 데이터의 산포가 작음->우수한 상품

 

불량 확률

3σ 안에 대부분이 포진해있음

벗어날 확률 중요! 반도체 공정에서는 불량률

6σ정도 되어야 불량률이 적다고 평가할 수 있음

 

산포의 종류

분산(Variance)

편차 제곱의 평균

표준편차(Standard Deviaton)

분산의 제곱근

변동계수(Coefficient of variation)

표준편차를 평균으로 나는 백분율

여러 모집단의 상대적인 변동/산포를 측정

범위(Range)

최소값~최대값의 차이

사분위수 범위(Interquartile range(IQR))

범위가 이상값을 제외한 것.

Data가 100개라면 25~75번째의 범위를 의미

분산:

$V=\frac{\left(\sum _{i=1}^n\left(x_i-m\right)^2\right)}{n}$V=(ni=1(xim)2)n

표준편차:

$\sigma \ =\ \sqrt{\frac{\left(\sum _{i=1}^{\ n}\left(x_i-m\right)^2\right)}{n}}$σ = ( ni=1(xim)2)n

변동계수:

$\frac{\sigma }{m}\ =\ \frac{\sqrt{\frac{\left(\sum _{i=1}^{\ n}\left(x_i-m\right)^2\right)}{n}}}{m}$σm = ( ni=1(xim)2)nm

범위

$x_n-x_1$xnx1
 

산포의 계산식

  • 총 변동(Total Sum of Square, S)

-편차 제곱의 합으로 표현

Variance x n = S

  • 자유도⭐

-주어진 조건에서 자유롭게 변화할 수 있는 데이터 수

-일반적으로 표본의 크기를 n이라 할 때, n-1이 된다.

(평균 및 편차에 의해, 마지막 값이 정해지므로)

  • 불편분산(Unbiased Variance)

-총 변동을 자유도로 나눈 값

-n이 아닌 n-1로 나누는 이유는 표본분산을 통헤 모분산의 추정치에 근접하기 위해서임.

 

 

강의 수강 후 느낀 점

고등학교 수학에서 배웠던 내용들과 통계의 기본적인 내용을 학습할 수 있어서 좋았다. 기본적인 식들과 함께 기초적인 내용들을 학습할 수 있었고, 강사님의 친절한 설명으로 쉽게 이해하고 정리할 수 있어 남은 두 개의 강의들이 기대가 된다.

 

테크노트 겸 일상 블로그🍓

https://blog.naver.com/daye-by-daye/223933485593

신고하기
close-icon

작성자 잘난사슴8968

신고글 엔지닉 반도체 데이터 분석 스터디 29기 1일차 학습일지

사유선택
  • check-icon
    욕설/비하 발언
  • check-icon
    음란성
  • check-icon
    홍보성 콘텐츠 및 도배글
  • check-icon
    개인정보 노출
  • check-icon
    특정인 비방
  • check-icon
    기타

허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.

댓글 0