
전체글
엔지닉 반도체 데이터 분석 스터디 29기 2일차 학습일지

2강. Data유형 - 이산형 Data
Data 유형
-Data 형태에 따라 분석 기법, 계산볍 등의 후속 작업이 달라지므로 이에 대한 정확한 판단 및 고민이 필요함
-크게 수치형(이산형, 연속형)과 범주형 Data로 나뉨
이산형 Data 종류
수치로 나타낼 수 있는 셀 수 있는 데이터 / 확률, 분포 등을 알아낼 수 있음
이산형 |
베르누이분포 |
Pass/Fail의 분포 |
문제를 찍었을 떄 맞출 확률 |
이항분포 |
성공 횟수의 분포 |
문제를 몇 개 이상 맞출 확률 |
|
다항분포 |
각 결과의 횟수 분포 |
문제에서 1번 답이 몇개 이상일 확률 |
|
기하분포 |
한 번 성공할 때까지의 횟수 분포 |
찍은 문제가 처음으로 정답이 될 확률 |
|
음이항분포 |
r회 성공에 대한 시행 횟수 분포 |
2회 정답을 얻기 위해 푼 문제 수 |
|
포아송분포 |
우발적 사건의 확률 |
하루 중 걸려오는 스팸 전화의 갯수 |
베르누이분포
-확률 실험의 결과가 P/F 형태의 2가지로만 나뉨, pass의 확률이 p, fail의 확률이 q (q=1-p)
기댓값
분포
이항분포
-베르누이 시행을 n번 반복했을 때, 성공 횟수에 대한 확률
-불량률이 p인 제품의 표본은 n개 추출했을 때, 불량품의 갯수
다항분포
-이항 분포의 확장판, 결과가 3개 이상
분포 종류 |
이항 분포 |
다항 분포 |
사건 |
1이 나오거나 나머지가 나오는 경우 |
1이 나오거나 2가 나오거나 3이 나오거나 나머지가 나오는 경우 |
시행 결과 |
10번 시행: 1이 3번 나옴 |
10번 시행: 1이 3번, 2가 1번, 3이 1번 나옴 |
확률 |
p(3)=_10C3_(1/6)^3*(5/6)^7 |
p(3,1,1,5)=10!/(3!*1!*1!*5!)(1/6)^3*(1/6)^1*(1/6)^1*(5/6)^5 |
-n번 시행, 가능한 사건의 갯수 k개
-
확률: p_1, p_2, ..., p_k
-
사건 발생 횟수: x_1, x_2, ..., x_k
-독립변수
-
사건이 k일 때, k-1개의 독립변수와 1개의 종속변수
-
cf)이항분포는 1개의 독립변수와 1개의 종속변수
-그래프
-
독립변수를 정의역, 확률을 치역
-
독립변수가 2개일 때, 3차원 그래프가 생성
기하 분포
-베르누이 시행을 수행 시, 처음 성공할 때까지의 시행 횟수, x
(x번째에 처음으로 성공할 확률)
-취업 성공률이 20%일 때, 몇 번 면접을 거쳐야 취업할 수 있는가?
음이항 분포
-기하 분포의 확장판
-
기하 분포: 성공확률 p, n번쨰 시행에서 첫 번째 성공이 나올 확률
-
음이항 분포: 성공확률 p, n번째 시행에서 k 번째 성공이 나올 확률
-음이항 분포
-
n번의 시행, 성공횟수 k, 실패횟수 r, n=k+r(독립변수 2개)
-r이 정해지고 k가 변수(마지막이 실패), p(x=k)⭐
-r이 정해지고 n이 변수(마지막이 실패)
-k가 정해지고 r이 변수(마지막이 성공)
-k가 정해지고 n이 변수(마지막이 성공공)
-n이 정해지고 k 또는 r이 변수(이항 분포)
-그래프
-
독립변수가 2개, 3차원 혹은 범주를 나눠 작성
포아송 분포
-일정 단위(시간, 면적, 구간)당 희귀하게 일어나는 사건의 확률 분포
-일정 단위 당 특정 사건의 평균 발생 횟수를 λ라 정의할 때, 발생횟수를 계산
이항분포는 n이 주어지지만, 포아송 분포는 n이 주어지지 않음
n의 횟수가 무한대이기 때문에 p의 값의 중요도가 낮아지기 때문에
-
포아송 분포의 조건
-단위 시간당 일어나는 사건의 발생은 서로 독립⭐
-작은 시간 내에서 둘 이상의 사건이 발생할 확률은 0에 수렴
-단위 시간 별 사건발생확률은 동일⭐
-단위 시간당 사건 발생확률은 단위시간 길이에 비례
-
포아송 분포의 예시
-하루 중 고객의 수
-일정 시간 동안의 사고의 수
-교과서의 오타 수
-자동 생산공정에서 특정시간 동안의 불량 갯수
연속형
셀 수 없는 데이터, 연속적인 데이터 / 범위로 나타내야하는 경우
범주형
숫자가 아닌 데이터, 객관적 수치로 판단하기 어렵지만 가치가 있는 데이터
2강의 내용은 1강의 내용보다 수식이 많이 나와서 그런지 식을 이해하는데에 시간이 많이 들어 어렵긴했다. 장기적으로 기억하기 위해서는 따로 여러 번 보고 학습하는 시간이 필요할 것 같다.
작성자 잘난사슴8968
신고글 엔지닉 반도체 데이터 분석 스터디 29기 2일차 학습일지
- 욕설/비하 발언
- 음란성
- 홍보성 콘텐츠 및 도배글
- 개인정보 노출
- 특정인 비방
- 기타
허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.