0

단계적 회귀분석, 이제는 버려야 할 변수선택 방법

오늘의 떡밥은 ‘변수 선택’ variable selection 입니다. 흔히 회귀분석에서 반응변수 (또는 종속변수) 를 설명/예측하는 변수 (독립변수) 를 선정하기 위한 방법으로 단계적 회귀분석 (stepwise regression) 을 활용합니다. 이를테면 모든 독립변수가 다 포함된 모형으로부터 출발하여 설명력이 가장 낮은 [...]

0

미분 없이 컴퓨터로 최대가능도 추정하기

지난 포스팅에서 최대가능도법의 개념에 대해 간략히 설명했습니다. 반복하자면, 최대가능도법은 자료가 있을 때 그것을 가장 잘 설명하는 모수치의 값을 찾는 것을 목표로 하고, 구체적으로 가능도함수를 최대화하는 모수치의 값을 구하는 방식으로 이루어진다고 했습니다. 보통 미분을 통해 이 최대화 문제를 해결한다고 설명하는 경우가 많은데, 이 [...]

0

로지스틱회귀 MLE로 직접 풀어보기

지난 포스팅에서 최대가능도 추정법을 정규분포에 적용한 간단한 사례를 살펴보았습니다. 하지만 아무도 정규분포의 평균과 분산을 추정할 때 굳이 최대가능도 추정법을 사용하지 않을 것입니다. 표본평균, 표본분산이 있는데 왜 굳이 이런 힘든 수고를 겪어야 할까요? 게다가 이 값들은 최대가능도 추정치와 완전히 일치하거나, 조금만 조정하면 최대가능도 추정치로 [...]

0

빅데이터의 시대와 통계적 유의성

최근 이런 신문 기사가 눈에 띄었습니다: 국민일보 2019년 6월 9일자, “수학 성취도 성별 격차는 가정·학교 등 후천적 환경요인”   본문을 보면 이런 언급이 있습니다: “일단 초·중·고 모든 단계에서 남학생의 수학 점수가 여학생보다 높았다”. 호기심이 생긴 저는 원 연구를 찾아보기로 했습니다. 다른 문화권에서는 [...]

0

신뢰구간에 신뢰를 보내는 오류

오늘은 페이퍼를 하나 소개합니다. 페이퍼의 제목은 제목 그대로 (The fallacy of placing confidence in confidence intervals) 입니다. 신뢰구간에 대한 다양한 (잘못된) 해석들이 존재하는데, 이 논문에서는 그런 해석들을 하나하나 신랄하게 비판하고 있습니다. 내용이 꽤 논쟁적인데 이에 대한 판단은 보류하고 [...]