
엔지닉 반도체 데이터 분석 스터디 25기

1. 모집단과 표본
전수조사: 모집단 전체 조사 (모든 Wafer들에 대한 조사)
검사를 받는 과정에서 모든 Wafer를 조사하면 비용과 양품을 생산하는데 문제가 생김
표본조사: 일부를 조사 후, 이를 근거로 모집단을 추즉 (Wafer 중 일부만 조사)
표본 평균과 분산으로 모평균과 모분산을 추측해보는 것이다.
표본(군대 남성들)을 예로 들면 쉽다.
모집단에 의해서 표본집단 평균/분산/표준편차가 나오게 된다.
- Data 수집 시 유의사항
전체를 대표 / 무작위 추출(경향성이 생길 수 있다) / 표본의 크기가 충분 / Data 수집 단체 일관성 유지(기준이 다르면 A,B,C에 대한 결과가 달라지기 때문에) / 의도하는 목적에 맞게(요인 분석을 정확하고 효율적으로 하기위해) / 전문교육을 이수한 자
2. 중심 위치
평균(mean): 가장 일반적인 평균
절사 평균(trimmed mean): 가장 크거나 작은 Data를 버린 뒤, 평균 (올림픽 점수)
중앙값(Median): Data 크기 순으로 나열 후, 가운데 값 (월급통계)
범위의 중앙값(Mid-range): 최대/최소의 평균 (중심치로는 쓰이지 않음)
최빈수(mode): 가장 많은 빈도를 가지는 값
가중 평균(weighted mean): 각 Data 별로 비중을 다르게 주어 계산 (알고리즘, 소비 시 중요한 항목에 비중을 둘 때)
평균, 중앙값, 최빈수를 많이 사용한다.
3. 산포
산포: 각 Data가 중심으로부터 얼마나 퍼져 있는가? (범위, 표준편차 등을 의미)
산포가 작을수록 제품의 품질이 유지된다.
- 불량확률=벗어날 확률
- 산포의 종류
분산(Variance): 편차 제곱의 평균
표준편차(Standard Deviation): 분산의 제곱근
변동계수(Coefficient of variation): 표준편차를 평균으로 나눈 백분율, 여러 모집단의 상대적인 변동/산포를 측정
범위(Range): 최소값~최대값의 차이
사분위수 범위(interquartile range)(IQR): 범위에서 이상값을 제외한 것. Data가 100개라면 25~75번째의 범위를 의미
- 산포의 계산식
* 총 변동 (Total Sum of Square, S): 편차 제곱의 합으로 표현
* 자유도: 주어진 조건에서 자유롭게 변화할 수 있는 데이터 수, 일반적으로 표본의 크기를 n이라 할 때, n-1이 된다. (평균 및 편차에 의해, 마지막 값이 정해지므로)
* 불편분산(Unbiased Variance): 총 변동을 자유도로 나눈 값, n이 아닌 n-1로 나누는 이유는 표본분산을 통해 모분산의 추정치에 근접하기 위해서임. S/(n-1)
표본에서 사용하는 대부분에 분산은 불편분산이다.
작성자 성실한오리1865
신고글 엔지닉 반도체 데이터 분석 스터디 25기
- 욕설/비하 발언
- 음란성
- 홍보성 콘텐츠 및 도배글
- 개인정보 노출
- 특정인 비방
- 기타
허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.