[통계학] 개념 정리

2020. 1. 23. 18:06BIG DATA/Stats

반응형

통계학(Statistics)의 정의

- 수량적인 비교를 기초로 많은 사실을 관찰하고 처리하는 방법을 연구하는 학문
- 불균형 데이터에서 의미를 찾고 실생활에서 적용 가능한 유용성을 찾아내 수치로 표현
- 특정집단이나 현상의 효율적인 자료를 얻어 합리적인 해석을 하는 것

  • 기술 통계 (Descriptive Statistics)
    : 데이터를 대표하는 수치나 표, 그래프 등으로 요약하여 전체 특징을 파악하는 통계적 방법
    : 표본에 대한 분석 결과의 각종 수치들을 활용하여 집단의 특성을 설명하는 것
    eg.성장률, 취업률 등에 적용 가능
  • 추리 통계 (Inferential Statistics)
    : 일부를 분석하여 관심 대상 전체에 관해 추측하고 일반화시키는 통계적 방법
    : 표본을 활용하여 모집단의 특성을 나타내는 것
    eg. 모집단을 추정하는 평균, 분산, 표준편차, 왜도, 첨도 등의 다양한 통계지표를 통해 예측, 추론 등에 적용 가능

통계 용어

주요 용어

  • 모집단(Population or Universe) : 얻고자 하는 정보와 관련있는 모든 개체로부터 얻을 수 있는 모든 관측값
  • 표본(Sample)
    : 모집단의 일부로 관측과정을 실행하여 실제로 조사되거나 얻어진 관측값의 집합
    : 전체 모집단을 대표할 수 있는 데이터
  • 임의 추출법(Random Sampling) : 모집단의 구성요소 하나하나가 표본으로 뽑힐 확률이 같은 상황에서 표본을 뽑는 방법
  • 모수(Parameter)
    - 모집단의 특성을 요약하여 하나의 값으로 표시하는 척도
    - 모집단의 특성을 대표적으로 나타냄
    - 주로 모평균, 모분산, 모비율(μ, σ, P)을 파악하여 모집단의 특성을 결정
  • 통계량(Statistic)
    - 표본을 요약하여 하나의 값으로 표시하는 척도
    - 표본의 특성을 나타냄
    - 주로 평균, 분산, 비율 (ⅹ, S, P^)을 파악하여 표본의 특성을 결정짓고 이를 통해 모집단의 특성을 추론

효과와 오차

- 모두 표본과 모집단을 나타내는 척도들
- 분석과정을 통해 표본에서 사용한 변수들을 이용하여 오차 조절할 수 있고 이를 통해 산포의 모양 파악 가능

  • 효과 : 집중화 경향과 분산의 경향을 나누어 볼때, 집중화 경향을 나타내는 값들 (평균, 중앙값, 최빈값)
  • 오차 : 분산의 경향을 나타내는 값들(범위, 분산, 표준편차, 사분위편차)

통계학의 목적

  • 요약
    : 불확실성을 줄이기 위해서 데이터를 요약해서 판단의 기준으로 제공
    : 사회에서 발생할 수 있는 다양항 상황에서 신뢰할 수 있는 자료를 가공해서 활용
    : 통계를 활용해 사회현상을 분석하려면 사회현상을 숫자의 형태로 수집, 즉 수치화하여 수집
    eg. Excel의 Pivot Table
  • 연관성 파악 : 데이터를 파악하여 어떤 현상의 원인과 같은 연관성을 제시
  • 예측
    : 현상을 분석해서 실증 자료를 제시
    : 인과관계 파악을 통해 예측 패턴을 찾아 의사결정에 반영
  • 불확실성의 해소
    : 효율적인 의사결정을 위한 근거자료 제시
    : 의사 결정의 불확실성을 해소하기 위한 일환으로 최근 빅데이터의 분석을 도입
    eg. 제품의 생산과 판매가 접목되는 과정에서, SCM(Supply Chain Management, 시장 대응), CRM(Customer Relationship Management, 고객 응대) 등에 발생하는 어려움을 극복하기 위한 기반으로 통계 사용
  • 의사결정(decision making)
    : 많은 정보를 지각하고 평가해서 어떠한 의사결정을 내려야할 지에 대해 충분한 과학적 근거를 제시하여 하나를 선택하는 것

분석 과정

통계 분석의 과정

  1. 수집
    - 조사 과정에서 데이터 수집
    - 목적에 맞게 설계한 수집 도구 사용

    • 1차 자료
      - 조사자가 직접 수집한 자료
      - 조사 목적에 맞게 직접 측정도구 설계/개발하기에 목적에 가장 부합하는 자료 수집 가능
      eg. 설문조사, 우편, 전화, 전자 질의, 직접 인터뷰 등
    • 2차 자료
      - 조사 목적에 맞아 활용할 수 있는 자료
      - 자료의 원래 목적이 조사자의 목적과 다를 수 있으므로 자료의 활용 가능성, 적합성, 신뢰성 등에 대한 사전 평가가 중요
      eg. 도서관, 학술정보원, 정부간행물, 연구 보고서, 사내자료 등
  2. 정제
    - 조사 목적에 맞게 자료를 선별하는 과정으로 매우 중요함
    - 자료가 수집되면 분석에 적합한 자료 선별해서 부적합한 자료 제거하는 과정을 거침
    - 정제 과정 중에 조사 목적을 수립사는 과정에서 예상치 못한 새로운 결과 발견 가능 > 조사의 분석 방법까지 새로 설장해야 할 수 있으니 주의 필요

  3. 추정
    - 가설을 세우는 단계
    - 모수 추정 : 모집단의 일부분을 표본으로 모집단의 특성을 분석하는 것

  4. 검정
    - 가설의 채택 여부를 결정
    - 수립된 가설이 유의미하고 타당성을 가지는지를 통계적으로 확인하는 과정

※ 추정과 예측
추정(statistical estimatation)
    - 표본으로부터 얻은 통계량으로 모수를 추정하는 것
    - 모집단으로부터 구성한 표본을 조사하여 얻어진 수치로 모수를 추정하는 것
예측(statistical prediction)
    - 미래의 모수를 예측하는 것
    - 추정을 반복하여 얻은 결과들을 기준으로 패턴을 찾아내, 미래에 활용 가능한 의미 있는 특정한 모수를 가늠하는 것

통계학의 적용과정

  1. 문제의 정의
    - 밝혀서 규명하고자 하는 문제의 제기
    - 문제 제기에 의해 관심대상인 모집단을 정의

  2. 데이터 수집
    - 모집단을 잘 반영하는 데이터의 수집(표본 추출, 임의 추출법)은 통계분석의 기초가 된다.
    - 수집 과정 : 모집단의 정의 -> 조사 or 실험의 계획 -> 데이터 수집

  3. 데이터의 정리/분석
    - 도표나 그림을 이용하여 데이터를 정리(기초분석), 컴퓨터를 이용한 각종 통계 분석을 실시하여 정보화

  4. 분석결과 해석 및 의사결정
    - 연구목적에서 제기한 질문에 대한 결론을 내린다.

통계적 분석 과정

  1. 문제발생 - 기술적 분석(DDA, Descriptive Data Analysis)

    • 추정 과정을 통해 표본을 가지고 모평균을 추정
    • 모평균, 모분산, 모비율 을 구하여 오차와 신뢰구간을 제시 (신뢰구간: 얼마나 많은 Data를 탐색했는지 알수있는 척도)
    • 기대치와 현재 상황의 차이 >> 문제
  2. 현상확인 - 탐색적 분석(EDA, Exploratory Data Analysis)

    • 문제를 파악하는 단계
    • 여러가지 Data를 이용해 가설을 구축
    • 주어진 데이터를 객관적 데이터로 바꾸는 작업
    • 데이터가 객관화되면 오류가 낮아지고 공신력있는 통계자료 생성 >> 가설
  3. 가설구축 및 원인규명 - 확증적 분석(CDA, Confirmatory Data Analysis)

    • 가설을 검증하는 단계
    • P.value(유의확률)를 이용하여 과학적 의사결정을 진행
      • P.value : 데이터의 유효한 확률 값 eg. 시험 성적이 상위 몇 %에 속해있는지 확인 가능한 척도
  4. 대책마련 - 예측적 분석(PDA, Predictive Data Analysis)

    • 모델링(Modeling)이 이루어지는 과정
    • 가설을 통해 찾은 유의한 변수들과 데이터의 상관관계를 표현한 함수로 데이터들의 최적화 과정을 통해 변수의 관찰과 예측이 가능
  5. 실행

    출처: http://physics2.mju.ac.kr/juhapruwp/?p=1755

통계 분석의 한계

확률이 없으면 의미가 없다

- 통계 분석 결과를 보면 항상 오차 범위 표기하여 100% 맞는 것이 아님을 언급 eg. 오차범위 ±3%

항상 틀릴 가능성을 내포한다

- 모집단이 아닌 표본에서 결과를 얻기 때문에 틀릴 가능성이 있다
- 통계적 결론이 100% 맞을 수 없다
- 신뢰수준이 100%라면 신뢰구간에 해당하는 값이 -∞ ~ +∞의 범위 >> 활용 불가능한, 수치로서 의미가 없는 통계 결과
- 무의미한 결과를 배제하기 위해서는 통계 결과의 범위가 줄어야 함
> 범위가 줄면 줄 수록 신뢰수준은 100%에서 멀어진다
>> 독자가 보기에 정확한 결과가 도출될 수록 그 결과가 틀릴 가능싱이 높아진다

결론은 항상 추론이다

- 모집단을 대상으로 조사하지 않으므로 항상 모집단에 대한 추론이 됨
- 통계가 태생적 한계를 가지면서도 널리 사용되는 건 결점을 보완해주는 과학적인 분석 방법과 시간적, 물질적 한계를 뛰어넘는 유용성과 편의성 때문
> 이러한 한계를 '부정확한 것의 일반화'라고 하기도 함

참고

반응형