no image
회귀분석의 검증: F검정 F-test
F검정 분산분석은 F검정(F test)을 통해 수행 F검정은 집단 간 분산과 집단 내 분산의 비로 계산되는 F값(F-value, F-statistic)을 가설검정을 위한 검정통계량으로 사용 F검정 결과가 통계적으로 유의미하면 집단 간 평균의 차이가 존재(즉 독립변수가 종속변수에 영향을 미침) 집단평균의 분산이 크더라도 각 집단간의 분산 또한 크다면 집단간의 분포가 겹치는 영역이 넓어져 명확히 구분되지 않으면 집단간의 평균이 다르다고 주장하기 힘들어진다. 그렇다면 우리가 알고싶은것은 집단간의 분산과 집단평균의 분산의 비율이 얼마나 커야 집단간의 평균이 다르다고 주장할 수 있는가? 이다. F분포 F분포. 두 개의 자유도에 의해 분포의 모양이 결정되며 대체로 오른쪽으로 긴 꼬리를 갖는다. $$F분포\ =\ \..
2022.03.06
중심극한정리
테일러급수 매클로린급수 (중심극한정리 증명을 위한 재료 #1) \(f(x)=\sum_{n=0}^\infty\frac{f^(n)\cdot(0)}{n!}x^n\) 매클로린급수를 이용해서 \(e^x\)를 전개해보겠습니다. \(e^x=1+\frac{x}{1!}+\frac{x^2}{2!}+\frac{x^3}{3!}\cdot\cdot\cdot\cdot\cdot+\frac{x^n}{n!}\) 적률생성함수 (중심극한정리 증명을 위한 재료 #2) 적률생성함수 = \(M_x(t)=E(e^{tx})\) \(e^x\)를 매클로린급수를 통해 전개한 식을 적률생성함수에 대입 \(M_x(t)=E(e^{tx}=1+t\cdot E(x)+\frac{t^2}{2!}\cdot E(x^2)+\frac{t^3}{3!}\cdot E(x^3) +..
2022.03.01
자유도
변화의 자유도 만약에 모집단[1,2,3]에서 표본을 뽑는 상황을 가정하겠다. 만약 처음 1을 뽑는다면 선택지는 [2, 3]이다. 그 다음 2를 뽑는다면 마지막은 더 이상 선택의 여지없이 마지막으로 남은 3을 뽑아야한다. 따라서 표본 n 개를 선택할 때 마지막 1개는 강제되므로 자유도는 n-1이다. 이것이 통계학에서의 자유도 개념이다. 표본의 분산과 모집단의 분산 모분산 = \( \sigma^2 = \frac{\sum(x_i-\mu)^2}{n}\) 표본분산 = \( s^2 = \frac{\sum(x_i-\overline{x})^2}{n-1}\) 표본분산을 n-1로 나누는 이유 1. 모집단에서 표본을 추출하면 항상 표본의 분산이 모집단의 분산보다 작아지는 경향이 있다. 2, 그래서 근사값을 찾았더니 표본분산..
2022.03.01
평균, 편차, 분산, 표준편차
\( X = \{x_1, x_2 ..., x_n\} \) 1) 평균: \( \large E(X) = \frac{\sum_{i=1}^n x_i}{n} \) 2) 편차: 변량 - 평균 \((x_i - m) \) 3) 분산(variance): 편차의 제곱의 평균 \( E((x_i-m)^2) = \frac{\sum_{i=1}^n (x_i-m)^2}{n} = V(X) \) 이 분산식을 전개해서 정리하면 변량의 제곱의 평균 - 평균의 제곱 = \( E(X^2) - m^2 \) 4) 표준편차(standard deviation): \( \triangle(X) = \sqrt{V(X)} \)
2022.02.27
티스토리 블로그 수학수식 입력하기
블로그에 통계 관련 내용을 업로드하면서 수식을 쓰려고 하는데 티스토리 자체에서 수식 입력기가 없다. 구글링으로 찾아봤는데 생각보다 복잡해서 정리해보겠다. https://www.mathjax.org/ 참고블로그 https://ghdic.github.io/math/default/mathjax-%EB%AC%B8%EB%B2%95/ 여기를 통해서 이름을 모르는 기호들을 찾을 수 있다. https://hostmath.com/ 기본문법 $$ 수식입력 $$ #$$사이에 수식을 입력하면 가운데정렬로 수식이 나타나며 글과 같이 쓰지 못한다. \( 수식입력 \) 이렇게 입력하면 글과 같이 쓸 수 있으나 복잡한 수식은 따로 폰트크기를 설정해야한다. input: \(x^{2} + y^{2}\) output: \( \LARGE ..
2022.02.27

F검정

분산분석은 F검정(F test)을 통해 수행

 

F검정은 집단 간 분산과 집단 내 분산의 비로 계산되는 F값(F-value, F-statistic)을 가설검정을 위한 검정통계량으로 사용

 

F검정 결과가 통계적으로 유의미하면 집단 간 평균의 차이가 존재(즉 독립변수가 종속변수에 영향을 미침)

 

 

집단평균의 분산이 크더라도 각 집단간의 분산 또한 크다면 집단간의 분포가 겹치는 영역이 넓어져 명확히 구분되지 않으면 집단간의 평균이 다르다고 주장하기 힘들어진다.

그렇다면 우리가 알고싶은것은 집단간의 분산과 집단평균의 분산의 비율이 얼마나 커야 집단간의 평균이 다르다고 주장할 수 있는가? 이다.

 

 

 

 

F분포

https://ko.wikipedia.org/wiki/F_%EB%B6%84%ED%8F%AC

F분포. 두 개의 자유도에 의해 분포의 모양이 결정되며 대체로 오른쪽으로 긴 꼬리를 갖는다.

 

 

$$F분포\ =\ \frac{집단\ 간\ 분산}{집단\ 내\ 분산}$$

 

 

 $$집단\ 간\ 분산= \frac{집단\ 간\ 제곱합}{자유도}$$

$$집단\ 간\ 분산 = \frac{\sum_g\left[(\overline{x_g}-\overline{x})^2\cdot n_g\right]}{g-1}$$

$$g=집단의\ 개수,\ \overline{x_g}= g집단의 표본평균,\ \overline{x}=전체 표본평균,\ n_g=g집단의 표본크기$$

 

 

$$집단\ 내\ 분산 = \frac{집단\ 내\ 제곱합}{자유도}$$

$$집단\ 내\ 분산 = \frac{\sum_g\left[s_g^2 \cdot (n_g-1)\right]}{n-g}$$

$$g=집단의\ 개수,\ \overline{s_g}= g집단의 표준편차,\ n_g=집단의 표본크기$$

 

F-value는 두 분산의 비율로 나타내기 때문에 항상 양수값을 가진다.

 

 

 

 

F-value

F분포에서 유의수준에 따라 F-value을 통해 귀무가설을 채택하거나 기각할 수 있다.

귀무가설(H0) : 모집단간의 분산은 같다.

대립가설(1): 모집단간의 분산은 다르다.

F 검정의 결과, 귀무가설이 기각된다면 모집단간의 분산이 통계적으로 다르다고 할 수 있다.

 

from scipy.stats import f_oneway

f_oneway(A,B)    #A집단과 B집단으로 Ftest
>>>[OUT] :
F_onewayResult(statistic=    , pvalue=    )    #결과값

 

 

'기초 통계' 카테고리의 다른 글

중심극한정리  (0) 2022.03.01
자유도  (0) 2022.03.01
평균, 편차, 분산, 표준편차  (0) 2022.02.27
티스토리 블로그 수학수식 입력하기  (0) 2022.02.27

중심극한정리

빨간순빈
|2022. 3. 1. 23:17

테일러급수 매클로린급수 (중심극한정리 증명을 위한 재료 #1)

\(f(x)=\sum_{n=0}^\infty\frac{f^(n)\cdot(0)}{n!}x^n\)

 

매클로린급수를 이용해서 \(e^x\)를 전개해보겠습니다.

 

\(e^x=1+\frac{x}{1!}+\frac{x^2}{2!}+\frac{x^3}{3!}\cdot\cdot\cdot\cdot\cdot+\frac{x^n}{n!}\)

 

 

 

적률생성함수 (중심극한정리 증명을 위한 재료 #2)

적률생성함수 = \(M_x(t)=E(e^{tx})\)

 

\(e^x\)를 매클로린급수를 통해 전개한 식을 적률생성함수에 대입

 

\(M_x(t)=E(e^{tx}=1+t\cdot E(x)+\frac{t^2}{2!}\cdot E(x^2)+\frac{t^3}{3!}\cdot E(x^3) + \cdot\cdot\cdot\cdot\cdot\)

 

 

t로 미분한다.

 

 

\(\frac{dM_x(t)}{dt}=0+E(x)+t\cdot E(x^2)+\frac{t^2}{2!} \cdot E(x^3)+\cdot\cdot\cdot\cdot\)

 

한번 더 t로 미분한다.

 

\(\frac{d^2M_x(t)}{dt^2}=0+ 0+E(x^2)+\cdot\cdot\cdot\cdot\cdot\)

 

이런식으로 t를 n번 미분한다면 이런 결론을 내릴 수 있다.

\(\frac{d^nM_x(t)}{dt^n} = E(x^n)\)

 

확률변수 X의 적률생성함수 구하기

\(M_x(t) = E(e^{tx})=\int_{x_1}^{x_2}e^{tx} \cdot f(x) dx \)

이 함수를 적분한다.

 

x가 정규분포함수를 따른다면 아래의 값이 됩니다.

\(=\int_{-\infty}^\infty e^{tx} \cdot \frac{1}{\sqrt{2\pi\sigma}}\cdot e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx\)

 

구해진 적률생성함수를 구해두면 미분을 통해 \(E(x^n)\) x의n승의 기대값을 구할 수 있다.

 

 

 

중심극한정리 증명

1. 정규분포의 적률생성함수 = 표본평균의 적률생성함수 라는 가설을 세워서 둘의 확률분포가 같다는것을 증명한다.

 

'기초 통계' 카테고리의 다른 글

회귀분석의 검증: F검정 F-test  (0) 2022.03.06
자유도  (0) 2022.03.01
평균, 편차, 분산, 표준편차  (0) 2022.02.27
티스토리 블로그 수학수식 입력하기  (0) 2022.02.27

자유도

빨간순빈
|2022. 3. 1. 00:28

변화의 자유도

만약에 모집단[1,2,3]에서 표본을 뽑는 상황을 가정하겠다.

만약 처음 1을 뽑는다면 선택지는 [2, 3]이다.

그 다음 2를 뽑는다면 마지막은 더 이상 선택의 여지없이 마지막으로 남은 3을 뽑아야한다.

 

 

따라서 표본 n 개를 선택할 때 마지막 1개는 강제되므로 자유도는 n-1이다.

이것이 통계학에서의 자유도 개념이다.

 

표본의 분산과 모집단의 분산

모분산 = \( \sigma^2 = \frac{\sum(x_i-\mu)^2}{n}\)

표본분산 = \( s^2 = \frac{\sum(x_i-\overline{x})^2}{n-1}\)

 

표본분산을 n-1로 나누는 이유

1. 모집단에서 표본을 추출하면 항상 표본의 분산이 모집단의 분산보다 작아지는 경향이 있다.

2, 그래서 근사값을 찾았더니 표본분산에 \(frac{n}{n-1}\)을 곱하면 근사하게된다.

 

따라서 자유도는 표본의 분산을 구할 때에만 사용한다.

 

이유는 알았지만 왜 인지에 대한 의문점은 풀리지않았다.

 

 

표본의 분산은 왜 모집단의 분산보다 작아지는가?

분산: \( \frac{\sum(x_i-m)^2}{n}\)

식을 보면 분산은 변량과 평균차이의 제곱의 합이기 때문에 n이 많아질수록 제곱한 값이 많아지고 집단의 크기만큼 분산의 크기가 커지게된다. 반대로 표본은 n의 수가 적어 분산이 작아지게된다.

 

데이터분석에서 자유도의 중요성

모분산과 표본분산의 차이는 n으로 나누는가, n-1로 나누는가 이다.

n이 커질수록 이 차이는 통계적으로 무의미하게 될 것이다.

따라서 n>=30이라면 굳이 자유도를 고려하지 않아도 된다.

 

 

2022-03-01 더 공부해서 왜 n=30을 기준으로 자유도를 고려하는지 시각화를 통해서 블로그에 첨부해야겠다.

'기초 통계' 카테고리의 다른 글

회귀분석의 검증: F검정 F-test  (0) 2022.03.06
중심극한정리  (0) 2022.03.01
평균, 편차, 분산, 표준편차  (0) 2022.02.27
티스토리 블로그 수학수식 입력하기  (0) 2022.02.27

 

\( X = \{x_1, x_2 ..., x_n\} \)

 

 

 

1) 평균: \( \large E(X) = \frac{\sum_{i=1}^n x_i}{n} \)

 

 

 

2) 편차: 변량 - 평균 \((x_i - m) \)

 

 

 

3) 분산(variance): 편차의 제곱의 평균 \( E((x_i-m)^2) =  \frac{\sum_{i=1}^n (x_i-m)^2}{n} = V(X)         \)

이 분산식을 전개해서 정리하면  

변량의 제곱의 평균 - 평균의 제곱 = \( E(X^2) - m^2 \)

 

 

 

4) 표준편차(standard deviation): \( \triangle(X) = \sqrt{V(X)} \)

'기초 통계' 카테고리의 다른 글

회귀분석의 검증: F검정 F-test  (0) 2022.03.06
중심극한정리  (0) 2022.03.01
자유도  (0) 2022.03.01
티스토리 블로그 수학수식 입력하기  (0) 2022.02.27

블로그에 통계 관련 내용을 업로드하면서 수식을 쓰려고 하는데 티스토리 자체에서 수식 입력기가 없다.

 

구글링으로 찾아봤는데 생각보다 복잡해서 정리해보겠다.

 

https://www.mathjax.org/

 

 

참고블로그

https://ghdic.github.io/math/default/mathjax-%EB%AC%B8%EB%B2%95/

 

 

여기를 통해서 이름을 모르는 기호들을 찾을 수 있다.

 

https://hostmath.com/

 

 

 

 

 

 

기본문법

$$ 수식입력 $$    #$$사이에 수식을 입력하면 가운데정렬로 수식이 나타나며 글과 같이 쓰지 못한다.

\( 수식입력 \)  이렇게 입력하면 글과 같이 쓸 수 있으나 복잡한 수식은 따로 폰트크기를 설정해야한다.

 

input:

\(x^{2} + y^{2}\)

output:

\( \LARGE x^2 + y^2 \)

 

 

 

중괄호는 \{ \}로 사용가능

\( X = \{x_1,x_2,...,x_n\} \)

\( \large X = \{x_1,x_2,...,x_n\} \)

 

 

소괄호 대괄호는 그대로 사용 가능

\( (x) [y] \)

\( \large (x) [y] \)

 

분수형태 사용법

\( \frac{1}{n} \)

\( \large \frac{1}{n} \)

 

아래첨자 사용법

 

\(  H_2{O} \)

\( \large H_2{O} \)

 

 

시그마 사용법

\(\frac{\sum_{i=1}^n {x_i}}{n} \)

 

\( \LARGE { \frac{\sum_{i=1}^n {x_i}}{n}} \)

 

루트 사용법

\( \sqrt{x^3} \)

 

\( \large \sqrt{x^3} \)

 

 

 

간단하게 통계수식을 쓸 정도만 정리했다.

 

'기초 통계' 카테고리의 다른 글

회귀분석의 검증: F검정 F-test  (0) 2022.03.06
중심극한정리  (0) 2022.03.01
자유도  (0) 2022.03.01
평균, 편차, 분산, 표준편차  (0) 2022.02.27