메뉴버튼

엔지닉 반도체 데이터 분석 스터디 25기

상세페이지-메뉴
https://community.weport.co.kr/board_EouY72/109952178

1. 모집단과 표본

전수조사: 모집단 전체 조사 (모든 Wafer들에 대한 조사)

검사를 받는 과정에서 모든 Wafer를 조사하면 비용과 양품을 생산하는데 문제가 생김

표본조사: 일부를 조사 후, 이를 근거로 모집단을 추즉 (Wafer 중 일부만 조사)

표본 평균과 분산으로 모평균과 모분산을 추측해보는 것이다.

표본(군대 남성들)을 예로 들면 쉽다.

모집단에 의해서 표본집단 평균/분산/표준편차가 나오게 된다.

- Data 수집 시 유의사항

전체를 대표 / 무작위 추출(경향성이 생길 수 있다) / 표본의 크기가 충분 / Data 수집 단체 일관성 유지(기준이 다르면 A,B,C에 대한 결과가 달라지기 때문에) / 의도하는 목적에 맞게(요인 분석을 정확하고 효율적으로 하기위해) / 전문교육을 이수한 자

2. 중심 위치

평균(mean): 가장 일반적인 평균

절사 평균(trimmed mean): 가장 크거나 작은 Data를 버린 뒤, 평균 (올림픽 점수)

중앙값(Median): Data 크기 순으로 나열 후, 가운데 값 (월급통계)

범위의 중앙값(Mid-range): 최대/최소의 평균 (중심치로는 쓰이지 않음)

최빈수(mode): 가장 많은 빈도를 가지는 값

가중 평균(weighted mean): Data 별로 비중을 다르게 주어 계산 (알고리즘, 소비 시 중요한 항목에 비중을 둘 때)

평균, 중앙값, 최빈수를 많이 사용한다.

3. 산포

산포: Data가 중심으로부터 얼마나 퍼져 있는가? (범위, 표준편차 등을 의미)

산포가 작을수록 제품의 품질이 유지된다.

- 불량확률=벗어날 확률

- 산포의 종류

분산(Variance): 편차 제곱의 평균

표준편차(Standard Deviation): 분산의 제곱근

변동계수(Coefficient of variation): 표준편차를 평균으로 나눈 백분율, 여러 모집단의 상대적인 변동/산포를 측정

범위(Range): 최소값~최대값의 차이

사분위수 범위(interquartile range)(IQR): 범위에서 이상값을 제외한 것. Data 100개라면 25~75번째의 범위를 의미

- 산포의 계산식

* 총 변동 (Total Sum of Square, S): 편차 제곱의 합으로 표현

* 자유도: 주어진 조건에서 자유롭게 변화할 수 있는 데이터 수, 일반적으로 표본의 크기를 n이라 할 때, n-1이 된다. (평균 및 편차에 의해, 마지막 값이 정해지므로)

* 불편분산(Unbiased Variance): 총 변동을 자유도로 나눈 값, n이 아닌 n-1로 나누는 이유는 표본분산을 통해 모분산의 추정치에 근접하기 위해서임. S/(n-1)

표본에서 사용하는 대부분에 분산은 불편분산이다.

신고하기
close-icon

작성자 성실한오리1865

신고글 엔지닉 반도체 데이터 분석 스터디 25기

사유선택
  • check-icon
    욕설/비하 발언
  • check-icon
    음란성
  • check-icon
    홍보성 콘텐츠 및 도배글
  • check-icon
    개인정보 노출
  • check-icon
    특정인 비방
  • check-icon
    기타

허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.

댓글 0