2022. 12. 10. 09:41ㆍ수집/IT
http://www.yes24.com/Product/Goods/103170454
데이터 해석학 입문 - YES24
이 책에서는 각종 분석기법뿐만 아니라 데이터의 편차나 편향에 관한 기초지식, 데이터에 다양한 편중을 발생시키는 행동심리학, 샘플링의 방법과 이론, 데이터 핸들링의 노하우, 각종 분석의
www.yes24.com
이론분포에는 그 형태를 결정하는 매개변수라고 불리는 값이 존재합니다. 예를 들면 정규분포는 평균값과 표준편차라는 두 개의 매개변수를 가지고 있습니다. 이 이론분포가 데이터의 분포와 가깝게 되도록 매개변수의 값을 결정하는 것을 매개변수 추정 또는 피팅 이라고 합니다. 이렇게 데이터를 이론분포로 표현하는 것을 통계 모델링이라고 합니다.
자주 등장하는 분포 예
1. 기하분포 : (확률 p로 앞면이 나오는) 동전을 계속 던졌을 때, k 번째에 처음 앞면이 나올 확률. 시행을 성공할때까지 반복하는 프로세스에서 자주 발생
2. 이항분포 : (확률p로 앞면이 나오는) 동전을 여러 번(n번) 던졌을 때 앞면이 k번 나올 확률. 표본 크기가 작은 표본추출을 할 때 등장, n이 커지면 정규분포에 가까워지는 성질이 있음.
3. 음이항분포 : (확률p로 앞면이 나오는) 동전의 앞면이 k번 나올때 뒷면이 r번 나올 확률. 시행을 여러 번 성공할 때까지 반복하는 프로세스에서 자주 등장
4. 포아송분포 : 임의의 시점에서 발생하는 서건이 일정 시간 내에 발생할 횟수의 분포. 하루에 받는 메일의 개수나 1분간 웹 서버 접속 횟수
5. 지수분포 : 임의의 시점에서 발생하는 사건의 시간 간격이 따르는 분포. 어떤 메일을 받고 다른 메일을 받을 때까지의 시간이나, 웹 서버에서 최근 2번 접속 시간 간격
6. 감마분포 : 임의의 시점에서 발생하는 사건이 a번 생길때까지의 시간이 따르는 분포. 몇 단계를 거쳐서 발생하는 사건의 데이터에서 자주 발생한다. 고장 발생분포 등 a=1로 하면 지수분포가 됨.
'수집 > IT' 카테고리의 다른 글
MRC 정리 (0) | 2022.12.10 |
---|---|
엘라스틱 서치 정리 (0) | 2022.12.10 |
관측 개입에 의한 편향 (0) | 2022.12.08 |
선택 편향 (0) | 2022.12.08 |
측정기준에 관한 편향 (0) | 2022.12.08 |