본문 바로가기

분류 전체보기

[통계] One-way ANOVA 분산분석(ANOVA)은 세 개 이상의 집단 간의 평균 차이를 비교하는 통계적인 방법 중 하나입니다. 일반적으로 t-test는 두 집단 간의 평균 차이를 비교하는 데 사용되지만, 집단이 세 개 이상인 경우에는 여러 번의 t-test를 시행하게 되면 1종 오류(유의수준에서 오류를 범할 확률)를 증가시킬 수 있습니다. 그래서 이를 피하기 위해 ANOVA를 사용합니다. 그런데 여기에서 우리는 생각해볼수 있습니다. 왜 평균 분석이 아니라 분산 분석인걸까요? 분산분석이 사용되는 이유 먼저 one way Anova에 사용되는 변수를 보면, 종속 변수 (Dependent Variable): 연속형 변수여야 합니다. 즉, 수치형 데이터여야 하며, 예를 들어 키, 몸무게, 성적 등이 종속 변수가 될 수 있습니다. ANOV.. 더보기
[통계] t-test 통계적 사고방식이란 '어떤 사건이 우연히 발생할 확률이 얼마일까'라고 질문하는 것입니다. 또한, 통계란 분산(표준편차)의 마법이라 할수 있는데 왜 그런지 t-test에 대해 글을 쓰면서 알려드리고자 합니다. 먼저 우리는 통계를 공부하면서 t-test에 대해 종종 듣곤 하는데 외우기만을 급급해서 언제 어떻게 사용하는지, 이 t-test의 목적은 대체 무엇인지에 대해 정확히 모르는 경우가 허다합니다. t-test란? 두개의 집단이 같은지 다른지 비교하기 위해 사용하는 통계적방법입니다. 그런데 무엇을 가지고 두개의 집단을 비교를 할까요? 바로 두 표본의 대표값인 평균값을 가지고 같은지 다른지를 확인합니다. 그래서 두 집단 샘플(표본)의 평균값을 비교하고, 두 집단의 차이가 우연히 발생했을 확률을 구함으로써 t.. 더보기
[통계] 상관관계와 상관계수 통계적 사고방식이란 '어떤 사건이 우연히 발생할 확률이 얼마일까'라고 질문하는 것 상관관계란 한 변수와 다른 변수가 공변(서로 변함)하는 관계입니다. 양의 상관관계를 가질경우, 두변수는 같은 방향으로 움직입니다. ex) X ↗ Y ↗ 음의 상관관계를 가질경우, 두변수는 서로 다른 방향으로 움직입니다. ex) X ↗ Y ↘ 상관관계를 나타내는 값으로는 상관계수가 있는데, 이 상관계수 값은 -1 ~ +1까지만 존재하고 상관계수가 -1일때는 완벽한 음의 상관관계 상관계수가 0일때는 아무 관계가 없으며 상관계수가 +1일때는 완벽한 양의 상관관계를 가지게 됩니다. 여기서 말하는 +/- 는 방향을 의미하는데, 이는 상관계수가 힘과 방향을 가지기 때문입니다. 앞의 양의 상관관계와 음의 상관관계 또한 방향에 관한 것입.. 더보기
[통계] 통계적 가설과 오류 통계적 사고방식이란 '어떤 사건이 우연히 발생할 확률이 얼마일까'라고 질문하는 것 통계적 가설과 오류 통계책을 보면 다음과 같은 식이 나오곤 합니다. H0 : μ - μ0 = 0 H1 : μ - μ0 ≠ 0 여기서 H0란 Null Hypothesis의 약자로, 귀무가설입니다. 귀무가설에서의 귀무란 歸(돌아갈 귀) + 無(없을 무)란 뜻으로 무로 돌아가는 가설이라고 해석할 수 있습니다. 즉, 귀무가설은 '아무 영향도 없고, 아무 일도 없다라는 것을 가정하는 가설'로서, 이 가설이 맞다면 아무 일도 없다는 것으로 이해하시면 됩니다. 반면, H1은 Alternative Hypothesis의 약자로 대립가설입니다. 대립가설은 귀무가설을 대체하는 대립하는 가설입니다. H0의 경우 거의 언제나 0이 되는 반면, H.. 더보기
[통계] P-VALUE 통계적 사고방식이란? 어떤 사건이 우연히 발생할 확률이 얼마일까 라고 질문하는것 우리는 통계를 배우면서 P-VALUE를 정말 많이 보게됩니다. 그러나 실상, 대부분의 이들은 P-VALUE에 대해서 정확하게 알지 못합니다. 그래서 이번 포스팅에서 P-VALUE에 대해 설명하고자 합니다. 유의 수준 p값, 'p값이 0.05보다 작으면 유의하다'라는 말은 어디서 나온말이며, p값은 뭐고, 0.05란 값은 왜 나왔으며, 작으면 유의하다라고 왜 말하는 걸까요? 먼저 p값에 대해 말하자면 p-value란 probability value로서, 확률값입니다. 그래서 p값은 어떤 것에 대한 확률값으로 이해하면됩니다. 그래서 맨 위에 적어놓은 통계적 사고방식의 '어떤 사건이 우연히 발생할 확률'을 p값이라고 이해하시면 됩.. 더보기
[파이썬] BeautifulSoup BeautifulSoup BeautifulSoup는 Python의 라이브러리 중 하나로, 웹 페이지에서 데이터를 추출하고 이를 파싱하여 사용자가 필요로 하는 정보를 손쉽게 찾을 수 있도록 도와주는 도구입니다. 이를 통해 웹 스크래핑 (웹 페이지에서 데이터를 수집하는 프로세스) 및 데이터 마이닝 (데이터에서 유용한 정보를 추출하는 프로세스) 작업을 간편하게 수행할 수 있습니다. 이 BeautifulSoup은 사용하기 쉬운 API를 제공하며, HTML 태그 및 속성을 탐색하고 원하는 요소를 찾을 수 있는 다양한 메서드를 제공하기에, 많이 사용되는 라이브러리입니다. BeautifulSoup의 사용법 1.HTML 또는 XML 데이터를 BeautifulSoup 객체로 파싱합니다. 2.파싱된 객체를 사용하여 원하는.. 더보기
[파이썬] 웹 문서에서 XML 데이터 읽기와 처리 먼저 코드에 들어가기에 앞서 파서와 파싱에 대해 설명하겠습니다. 파서(Parser) & 파싱(Parsing) 파서(parser)란 주어진 문서나 데이터를 읽고 해석하는 프로그램 또는 모듈을 가리킵니다. XML 파서는 주로 XML 형식으로 작성된 문서를 읽고 그 구조를 이해하며, 문서를 분석하여 데이터를 추출하는 데 사용됩니다. XML 문서는 일반적으로 텍스트 기반의 구조를 가지고 있으며, 이를 파싱(parsing)한다는 것은 이러한 텍스트 기반의 문서를 읽고, 데이터를 해석하고 구조화하는 과정을 의미합니다. 파싱을 통해 XML 파서가 XML 문서를 읽고 그 구조를 이해하여 데이터를 추출하고 사용할 수 있습니다. XML 파서는 XML 문서를 읽어와서 그 내부의 태그, 속성, 텍스트 등을 인식하고 이를 내부.. 더보기
[파이썬] Pandas로 파일 읽기 1. CSV 파일 읽기 Pandas의 read_csv() 함수를 사용하여 로컬 파일 및 웹에서 CSV 파일을 읽을 수 있습니다. read_csv() 함수를 이용하여 CSV 파일을 읽을 때 구분자를 지정하거나, 헤더 없는 파일을 읽을 수 있습니다. 2. 텍스트 파일 읽기 read_table() 함수를 이용하여 텍스트 파일을 읽을 수 있습니다. 정규표현식을 사용하여 공백을 구분자로 지정하거나, 특정 행을 건너뛸수 있습니다. 3. 고정폭 텍스트 파일 읽기 read_fwf() 함수를 사용하여 고정폭 텍스트 파일을 읽을 수 있습니다. widths 옵션을 사용하여 각 열의 폭을 지정할 수 있습니다. 4. 대용량 데이터 처리 read_csv() 함수의 chunksize 옵션을 사용하여 대용량 데이터를 묶음 단위로 처.. 더보기