
엔지닉 반도체 데이터 분석 스터디 29기 1일차 학습일지

1강. Data 분석 기초 용어 및 개념
모집단과 표본
모집단(population)에 대한 표본(sample)을 추출하여 조사한다
이를 표본조사라고 한다: 일부를 조사 후, 이를 근거로 모집단을 추측
표본조사를 통하여 전체 집단의 평균과 분산을 추측할 수 있다
-전수조사: 모집단 전체 조사(모든 Wafer들에 대한 조사)
-표본조사: 일부를 조사 후, 이를 근거로 모집단을 추측(Wafer 중 일부만 조사)
표본 추출
Data 수집 시 유의사항
-
전체를 대표할 수 있는가?⭐(소득, 나이, 지역 등 편향되지 않아야함)
-
무작위로 추출 되었는가?⭐(표본을 추출할 때 경향성을 띄지 않도록 해야함)
-
표본의 크기는 충분한가?
-
Data 수집 단계에서 일관성을 유지하였는가?
-
의도하는 목적에 맞게 수집하는가?(목적에 영향이 있는 데이터를 사용해야함)
-
전문교육을 이수한 자를 통해 수집하는가?
중심위치
중심에 대한 다양한 정의
평균(mean) |
가장 일반적인 평균 |
절사 평균(trimmed mean) |
가장 크거나 작은 Data를 버린 뒤, 평균 |
중앙값(Median) |
Data크기 순으로 나열 후, 가운데 값 |
범위의 중앙값(Mid-range) |
최대/최소의 평균 |
최빈수(mode) |
가장 많은 빈도를 가지는 값 |
가중 평균(weighted mean) |
각 Data별로 비중을 다르게 주어 계산(알고리즘) |
평균:
절사평균:
위에서 k개, 아래에서 k개를 뺀 후에 평균을 구함
데이터 분포에 따른 관계
negatively skewed: median값이 중심위치
normal distribution: mean, median, mode값이 비슷하게 위치해 있음
positively skewed: median값이 중심위치
산포
산포(분산, 표준편차)의 의미
각 Data가 중심으로부터 얼마나 퍼져 있는가?
(범위, 표준편차 등을 의미)
V, σ: 작을 수록 데이터의 산포가 작음->우수한 상품
불량 확률
벗어날 확률 중요! 반도체 공정에서는 불량률
6σ정도 되어야 불량률이 적다고 평가할 수 있음
산포의 종류
분산(Variance) |
편차 제곱의 평균 |
표준편차(Standard Deviaton) |
분산의 제곱근 |
변동계수(Coefficient of variation) |
표준편차를 평균으로 나는 백분율 여러 모집단의 상대적인 변동/산포를 측정 |
범위(Range) |
최소값~최대값의 차이 |
사분위수 범위(Interquartile range(IQR)) |
범위가 이상값을 제외한 것. Data가 100개라면 25~75번째의 범위를 의미 |
분산:
표준편차:
변동계수:
범위
산포의 계산식
-
총 변동(Total Sum of Square, S)
-편차 제곱의 합으로 표현
Variance x n = S
-
자유도⭐
-주어진 조건에서 자유롭게 변화할 수 있는 데이터 수
-일반적으로 표본의 크기를 n이라 할 때, n-1이 된다.
(평균 및 편차에 의해, 마지막 값이 정해지므로)
-
불편분산(Unbiased Variance)⭐
-총 변동을 자유도로 나눈 값
-n이 아닌 n-1로 나누는 이유는 표본분산을 통헤 모분산의 추정치에 근접하기 위해서임.
강의 수강 후 느낀 점
고등학교 수학에서 배웠던 내용들과 통계의 기본적인 내용을 학습할 수 있어서 좋았다. 기본적인 식들과 함께 기초적인 내용들을 학습할 수 있었고, 강사님의 친절한 설명으로 쉽게 이해하고 정리할 수 있어 남은 두 개의 강의들이 기대가 된다.
테크노트 겸 일상 블로그🍓
작성자 잘난사슴8968
신고글 엔지닉 반도체 데이터 분석 스터디 29기 1일차 학습일지
- 욕설/비하 발언
- 음란성
- 홍보성 콘텐츠 및 도배글
- 개인정보 노출
- 특정인 비방
- 기타
허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.