데이터분석캠프 TIL

250115 TIL 데이터분석 과정

selenaass 2025. 1. 15. 20:27

1. 회고

 

이번주는 계속...위기를 맞고 있다. 해야 할 분량들은 다 끝나면서 하고 있지만 몸이 너무 힘들어서 머리에 들어오는 게 없다. 출석률 100%를 놓치기 싫어서 일단 엉덩이를 책상앞에 열심히 붙이고 있다. 죽겠다....이번 고비만 넘어가면 나아질 것 같은데, 공부량이 너무 많아서 하루 빠지는 게 뭔가 크다는 생각이 든다. 

머신러닝이 흥미롭지 않고, 당장 나에게 있어 우선순위가 아니라서 그런지 더욱 집중이 잘 안되는 기분이다. 이야기 나누던 사람들도 하나둘 떠나가서 그런 것 같기도. 

2. 아티클 정리

 

A/B 테스트 제대로 이해하기: ④ A/B 테스트 표본 크기와 유의미한 결과의 관계 | 요즘IT

이전 글에서 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 방법과 해석에 관한 내용을 살펴보았다. 이때 해석 내용 중 계산기에서 ‘결과가 유의미하지 않다(Not Significant)’라고 했을 때

yozm.wishket.com

 

  • 요약 : 표본 사이즈는 결과와 많은 상관관계를 가지고 있다.
  • 주요 포인트 :
    • 표본은 많을 수록 좋다. 이왕이면 최대한 더 많은 사람에게 물어보면 신뢰할 수 있다. 더 큰 표본에 물어보는 게 정확도가 높아지며, 가장 큰 표본은 결국 모집단 전체이다.
    • 표본이 많을수록 ‘더 적은 차이도 인정해준다 - 전환율이 같더라도 트래픽 차이가 크면 결과 차이가 커진다. (10명과 10,000명의 차이)
      • 실험1: 10명 중 2명
      • 실험2: 10,000명 중 2,000명(30%)
      • 실험3: 100,000명 중 2,000명(2.2%)
    • 실험2와 3은 p-value가 0.0018로 모두 유의미하다. 우리는 단순히 비율을 비교하는 것이 아니라 이 비율의 차이가 정말로 믿을 수 있는 결과인지, 다른 경우에도 반복되어 우연이 아니라는 걸 증명할 수 있는지 알고 싶은 것. 표본이 커서 모집단의 크기에 가까워 질 수록 추측은 정확해지고, A와 B의 차이가 우연에 의해 발생할 가능성은 줄어든다. 두 그룹의 차이가 아무리 적어도 표본이 클수록 충분히 유의미할 수도 있다.