통계 연구의 단계. 통계 연구의 단계

  • 12.10.2019

소개

1. 초기 데이터 획득 방법론

2. 기본 데이터의 통계 요약 및 그룹화

2.1 그룹화

2.2 산술 및 구조 평균의 결정

2.3 히스토그램 및 누적

2.4 고정 자산 비용

2.5 생산량

3. 상관관계 분석

3.1 요인과 성과 특성 간의 관계에 대한 연구. 상관 테이블 작성

3.2 의사소통의 친밀도 판단

4. 회귀분석

4.1 시뮬레이션

4.2 예측

결론

중고 문헌 및 프로그램

소개

현상의 통계적 연구 공공 생활통계적 관찰 단계에서 시작하여 인지 목표와 목표에 따라 연구 대상에 대한 초기 데이터 배열이 형성됩니다. 회계 및 통제, 계획, 통계 분석 및 관리가 수행되는 연구의 정보 기반이 형성됩니다. 이 단계에서 "큰 수의 법칙"에 기반한 대량 관찰 방법이 사용됩니다. 대량 현상의 양적 패턴은 충분히 많은 수의 사회 경제적 현상과 과정에 대한 연구에서만 분명히 나타납니다.

모든 통계적 관찰은 데이터 수집의 방법론, 조직 및 기술, 품질 및 신뢰성 관리 문제를 포함하여 명확하게 개발된 계획에 따라 준비되고 수행되어야 합니다. 따라서 통계적 관찰에는 이를 수행하기 위한 프로그램과 조직적 계획이 있어야 합니다. 동시에 관찰의 방법, 형식, 유형, 수단, 시기, 조직의 장소, 관찰의 수행 등에 관한 문제를 해결하는 것이 필요하며, 이는 결국 그 계획성을 결정한다.

통계적 관찰은 때때로 자발적으로 수행되어서는 안 되며 체계적으로 수행되어야 합니다. 지속적으로 또는 주기적으로 - 일정한 간격으로. 이는 연구된 사회경제적 현상과 과정의 시공간적 변화 때문이다.

통계 관찰은 국가 통계 기관, 연구 기관, 다양한 조직 구조의 경제 및 분석 서비스에서 수행할 수 있습니다.

통계 연구의 두 번째 단계는 통계 요약 및 통계 관찰 데이터의 그룹화입니다. 통계적 관찰의 결과 시간과 공간에 따라 변화하는 수많은 특성을 가진 인구의 각 단위에 대한 정보가 얻어집니다. 이러한 상황에서 통계적 관찰 결과를 체계화하고 일반화하고, 이를 바탕으로 일반화 지표를 사용하여 전체 대상의 특성에 대한 요약을 얻을 필요가 있습니다. 전체로서의 통계적 인구의 특징과 개별 구성요소, 사회적으로 연구된 패턴(경제 현상 및 과정)을 발견합니다. 지금까지 말한 것에서 기본 통계 자료의 요약이 필요하다는 결론이 나옵니다.

통계 요약은 얻은 결과의 완전성과 신뢰성을 보장하기 위해 특별히 개발된 프로그램에 따라 수행됩니다. 이 프로그램에는 관찰 단위 세트를 개별 특성에 따라 나눌 수 있는 그룹 목록과 연구된 현상 세트 전체 및 개별 부분을 특성화하는 지표 시스템이 포함되어 있습니다.

통계 연구의 세 번째 단계는 통계 정보의 분석입니다. 이 단계에서 통계적 연구의 결과를 바탕으로 실제 행동에 유용한 결론을 얻고 연구 중인 현상이나 과정을 예측한다.

1. 초기 데이터 획득 방법론

2006-2007 기간 동안 고정 자산 가치에 대한 생산량의 의존성을 연구하기 위해. Chelyabinsk 지역에 대한 국가 통계의 영토 기관은 악기 제작 기업에 대한 통계 연구를 조직했습니다.

20%의 일반 샘플을 생산했습니다.

통계적 관찰의 대상은 첼랴빈스크 시와 첼랴빈스크 지역에 있는 일련의 기기 제조 기업입니다. 통계 관찰의 보고 단위는 도구 제작 기업입니다.

악기 제작 기업의 표본 조사 시스템을 개선하기 위해 러시아 연방 Goskomstat는 대상 프로그램을 개발했습니다.

프로그램에 따르면 자원을 절약하기 위해 작업 날짜에 운영되는 Chelyabinsk 지역의 전체 기업 수의 20%가 검사됩니다. 프로그램 활동에는 악기 제작 기업의 샘플 설문 조사 준비 및 수행을 보장하는 여러 조직적, 방법론적, 소프트웨어 및 기술 작업이 포함되며, 그 주제는 생산량의 가치에 대한 의존성과 같은 문제를 다룹니다. 고정 자산. 기업 표본 조사 준비를 위한 적절한 절차를 보장하기 위해 프로그램 활동에는 조사 및 봉사 활동에 대한 직원 교육도 포함됩니다. 이 프로그램은 2008-2009년에 시행될 예정입니다. 첼랴빈스크시와 첼랴빈스크 지역의 계측기 제조 기업을 두 가지 지표(생산량 및 고정 자산 비용)에 대한 표본 관찰 결과는 표 1에 나와 있습니다.

1 번 테이블 . 2006년부터 2007년까지 첼랴빈스크 시와 첼랴빈스크 지역의 악기 제작 기업의 주요 성과 지표.

공장 번호

고정 자산 비용

생산량, 백만 루블

공장 번호

고정 자산 비용

생산량, 백만 루블

2. 기본 데이터의 통계 요약 및 그룹화

2.1 그룹화

통계적 관찰자료에 따르면 비교적 좁은 경계에서 부호의 변화가 나타나며 분포가 균일함을 알 수 있다. 이 경우 그룹화는 동일한 간격으로 작성됩니다. 그룹의 수는 주로 특성의 변동 정도에 따라 다릅니다. 특성의 변동(변이 범위)이 클수록 더 많은 그룹이 형성될 수 있습니다. 다음은 통계적 그룹화를 구축하기 위한 공식입니다.

표본 크기가 크지 않기 때문에 다음 공식을 사용하여 그룹 수를 결정합니다.

간격 값 시간공식에 따르면:

간격 단계가 되는 공식 (1.2)에 의해 얻은 값은 반올림됩니다(반올림은 원래 값과 10-15% 이상 차이가 나지 않아야 함). 이 경우 첫 번째 구간의 경우 하한은 , 상한은 -(+ 시간) 등. 따라서, i 번째 구간의 하한은 (i -1) 번째 구간의 상한과 동일하다. 초록 >> 철학

... 단계. 1.기본 단계사회학의 발전 1.1First 단계 ... , "기본마르크스주의에 대한 질문", "예술과 공공의 생활", "케이... 자연주의적 해석 공공의 현상. ... 신뢰성의 본질 통계사회학 정보 연구". ...

  • 마케팅 연구관광

    치트 시트 >> 체육 및 스포츠

    지역 관광, 과학 및 통계 연구관광, 교육 분야에서 ... (위원회 위원). 삼. 기초적인 단계: 인증 업무의 조직 ... 등). 방법은 아는 방법이고, 연구 현상 공공의 , 리셉션 또는 리셉션 시스템 ...

  • 행동 양식 통계 연구 (2)

    테스트 작업 >> 경제학

    소송 비용 . 색인... 통계 연구 통계 공부하다세 가지로 구성 주요한단계: 통계 ... 단계 연구; 구현을 위한 조직 계획이 작성됩니다. 객체가 정의됨(set 공공의 현상 ...

  • 통계거시 경제 지표 분석 방법 (1)

    초록 >> 마케팅

    ... 통계연구 ...........................................................................................................4 2.2.시스템 통계거시경제지표...........................................6 2.3. 기본... 수준 인구... 단계 통계 연구방법을 적용하다 통계 ... 공공의 현상반영...

  • 모든 통계 연구의 핵심에는 세 가지 상호 연관된 작업 단계가 있습니다.

    1) 통계적 관찰;

    2) 관찰 데이터의 요약 및 그룹화;

    3) 요약 결과의 과학적 처리 및 분석. 이전(이전) 작업 단계가 수행된 경우 통계 연구의 각 후속 단계를 수행할 수 있습니다.

    통계 관찰은 통계 연구의 첫 번째 단계입니다.

    통계적 관찰- 이것은 특정 사회, 특히 경제 현상이나 과정에 대한 체계적이고 과학적으로 조직된 정보 모음입니다.

    통계적 관찰은 매우 다양하며 연구되는 현상의 성격, 조직의 형태, 관찰 시간 및 연구된 현상의 범위의 완전성이 다릅니다. 이와 관련하여, 개인의 특성에 따른 통계적 관찰의 분류 .

    1. 조직의 형태에 따라통계적 관찰은 보고와 특별히 편성된 통계적 관찰로 구분된다.

    보고- 이것은 통계적 관찰의 주요 조직 형태로, 보고서라는 특수 형식의 활동의 다양한 측면에 대한 기업, 기관 및 조직의 정보를 수집하는 것으로 요약됩니다. 보고는 필수입니다. 보고는 준비 기간에 따라 주요 보고서와 현재 보고서로 나뉩니다.

    기본 보고라고도 연간기업의 모든 측면을 다루는 가장 광범위한 지표를 포함합니다.

    현재 보고 1년 내내 다양한 ​​시간 간격으로 제공됩니다.

    그러나 보고를 기반으로 하여 근본적으로 입수가 불가능한 데이터와 이에 포함되기에 부적합한 데이터가 있습니다. 특별히 조직된 통계적 관찰이 사용되는 이 두 가지 유형의 데이터를 얻기 위한 것입니다. 다양한 설문조사와 인구조사입니다.

    통계 조사- 이것은 연구된 일련의 현상이 특정 기간 동안 관찰되는 특별히 조직된 관찰입니다.

    인구 조사- 이것은 연구된 일련의 현상이 특정 날짜(특정 순간에)에 관찰되는 특별히 조직된 통계적 관찰의 한 형태입니다.

    2. 시간을 기준으로모든 통계적 관찰은 연속 및 불연속으로 나뉩니다.

    지속적인(현재) 통계적 관찰시간에 따라 연속적으로 수행되는 관찰입니다. 이러한 유형의 관찰을 통해 개별 현상, 사실, 이벤트가 발생하는 대로 기록됩니다.


    불연속 통계적 관찰- 이것은 관찰된 현상, 사실, 사건이 연속적으로 기록되는 것이 아니라 동일하거나 동일하지 않은 기간의 기간 후에 기록되는 관찰입니다. 불연속 모니터링에는 주기적 및 일회성의 두 가지 유형이 있습니다. 주기적동일한 기간의 시간 간격으로 수행되는 불연속 관찰이라고 합니다. 한 번기간이 같지 않거나 일회성 특성을 갖는 기간을 통해 수행되는 관찰이라고 합니다.

    3. 연구 된 질량의 완전성을 기반으로현상, 사실, 사건, 통계적 관찰은 연속 및 비연속 또는 부분으로 나뉩니다.

    지속적인 관찰예외없이 연구중인 전체를 형성하는 모든 현상, 사실, 사건을 고려하는 것을 목표로합니다.

    불연속 관찰연구 중인 전체를 구성하는 현상, 사실, 사건의 특정 부분만을 고려하는 것을 목표로 합니다.

    통계적 관찰고려중인 대상과 관련된 모든 중요한 사실을 과학적으로 조직화하여 등록하는 기본 통계 자료 수집으로 구성됩니다. 이것은 모든 통계 연구의 첫 번째 단계입니다.

    그룹핑 방식은 대량의 통계적 관찰의 결과로 수집된 모든 사실을 체계화하고 분류하는 것을 가능하게 합니다. 이것은 통계 연구의 두 번째 단계입니다.

    지표를 일반화하는 방법을 사용하면 절대, 상대 및 평균과 같은 통계 값을 사용하여 연구 현상 및 프로세스를 특성화할 수 있습니다. 통계 연구의 이 단계에서는 현상의 상호 관계와 규모가 밝혀지고 현상의 발전 패턴이 결정되며 예측 추정치가 제공됩니다.

    통계조사의 첫 번째 단계에서는 미래통계 구축의 기초가 되는 1차 통계자료 또는 초기통계정보가 형성된다. 건물이 내구성이 있고 견고하며 고품질이 되기 위해서는 기초가 있어야 합니다. 기본 통계 데이터 수집에 오류가 있거나 자료의 품질이 좋지 않은 것으로 판명되면 이론 및 실제 결론의 정확성과 신뢰성에 영향을 미칩니다. 따라서 초기부터 최종 단계(최종 재료 획득)까지의 통계적 관찰은 신중하게 고려되고 명확하게 구성되어야 합니다. 통계적 관찰은 원료요약으로 시작하는 일반화를 위해. 통계 관찰 중에 여러 측면에서 특성을 나타내는 각 단위에 대한 정보를 얻은 경우 이러한 보고서는 전체 통계 집계와 개별 부분을 특성화합니다. 이 단계에서 모집단은 차이점의 표시에 따라 분할되고 유사성의 표시에 따라 결합되며 그룹 및 전체에 대한 총 지표가 계산됩니다. 그룹화 방법을 사용하여 연구 현상을 필수 기능에 따라 가장 중요한 유형, 특성 그룹 및 하위 그룹으로 나눕니다. 그룹화의 도움으로 중요한 측면에서 질적으로 동질적인 인구가 제한되며 이는 일반화 지표의 정의 및 적용을 위한 전제 조건입니다.

    분석의 마지막 단계에서 일반화 지표의 도움으로 상대 및 평균 값이 계산되고 기호의 변화에 ​​대한 요약 평가가 제공되며 현상의 역학이 특성화되고 지표 및 균형 구성이 적용되며 지표 변화하는 징후에서 관계의 친밀성을 특징 짓는 계산됩니다. 디지털 자료를 가장 합리적이고 시각적으로 표현하기 위해 표와 그래프 형태로 제시하고 있습니다.

    통계 관찰 - 통계 연구의 첫 번째 단계

    통계 관찰은 사회 생활의 현상과 과정을 특징짓는 사실에 대한 과학적으로 조직화된 설명과 이 설명을 기반으로 얻은 대량 데이터 수집인 모든 통계 연구의 첫 번째 단계입니다.

    그러나 모든 정보 수집이 통계적 관찰은 아닙니다. 통계적 규칙성이 연구될 때에만 통계적 관찰에 대해 이야기할 수 있습니다. 일부 집합체의 많은 수의 단위에서 대량 프로세스에서만 나타나는 것들. 따라서 통계적 관찰은 계획적이고 방대하고 체계적이어야 합니다.

    통계적 관찰의 규칙성은 방법론, 조직, 정보 수집 기술, 수집된 자료의 품질에 대한 통제, 신뢰성 및 보고서의 표시에 대한 질문을 포함하는 개발된 계획에 따라 작성되고 수행된다는 사실에 있습니다. 최종 결과. 통계적 관찰의 방대한 특성은 그것이 다음을 포함한다는 것을 암시합니다. 큰 숫자개별 단위뿐만 아니라 전체 인구를 특징 짓는 진실한 통계 데이터를 얻기에 충분합니다.

    마지막으로 통계적 관찰의 체계적 성격은 그것이 체계적으로, 지속적으로, 또는 정기적으로 수행되어야 한다는 사실에 의해 결정된다. 양적 및 질적 변화로 특징 지어지는 사회 경제적 과정의 경향과 패턴에 대한 연구는 이것을 기반으로 만 가능합니다. 이상에서 통계적 관찰에 대해 다음과 같은 요구 사항이 부과됩니다.

    • 1) 통계 데이터의 완전성(연구 모집단 단위의 완전성, 특정 현상의 측면, 시간 경과에 따른 포함의 완전성)
    • 2) 데이터의 신뢰성과 정확성
    • 3) 그들의 획일성과 비교 가능성.

    통계적 관찰의 프로그램 방법론 및 조직적 문제

    모든 통계 연구는 그 목적과 구체적인 과제에 대한 정확한 공식화에서 시작되어야 하며, 따라서 관찰 과정에서 얻을 수 있는 정보가 있어야 합니다. 그 후 관찰 대상과 단위가 결정되고 프로그램이 개발되고 관찰 유형과 방법이 선택됩니다.

    2.1 통계 연구 수행 계획

    통계 데이터 분석 시스템은 통계 연구를 위한 현대적이고 효과적인 도구입니다. 통계 데이터 처리를위한 넓은 기회에는 통계 분석의 특수 시스템뿐만 아니라 보편적 수단– Excel, Matlab, Mathcad 등

    그러나 아무리 완벽한 도구라도 연구의 목적을 공식화하고 데이터를 수집하고 데이터 처리 및 분석을 위한 방법, 접근 방식, 모델 및 도구를 선택하고 결과를 해석해야 하는 연구자를 대체할 수는 없습니다.

    그림 2.1은 통계 연구를 수행하기 위한 계획을 보여줍니다.

    그림 2.1 - 회로도통계 연구

    통계 연구의 출발점은 문제의 공식화입니다. 그것을 결정할 때 연구의 목적이 고려되고 어떤 정보가 필요하며 결정을 내리는 데 어떻게 사용될 것인지가 결정됩니다.

    통계 연구 자체는 준비 단계에서 시작됩니다. 준비 단계에서 분석가는 연구 기술적 과제- 연구 고객이 작성한 문서. 참조 조건은 연구의 목적을 명확하게 명시해야 합니다.

      연구 대상이 정의됩니다.

      연구 중에 확인되거나 반박되어야 하는 가정과 가설을 나열합니다.

      연구 결과가 어떻게 사용될 것인지 설명합니다.

      연구를 수행할 기간 및 연구 예산.

    참조 조건에 따라, 분석 보고서 구조- 그 다음에, 어떤 형태로든연구 결과도 제시해야 하고, 통계 관찰 프로그램. 프로그램은 관찰 과정(또는 각 관찰 관찰 단위에 대해 신뢰할 수 있는 답변을 얻어야 하는 질문) 동안 기록되는 기능의 목록입니다. 프로그램의 내용은 관찰 대상의 특성과 연구 목적, 그리고 수집된 정보를 추가 처리하기 위해 분석가가 선택한 방법에 의해 결정됩니다.

    통계 연구의 주요 단계는 필요한 데이터의 수집과 분석입니다.

    연구의 마지막 단계는 분석 보고서를 준비하고 고객에게 제공하는 것입니다.

    무화과에. 2.2는 통계 데이터 분석의 다이어그램이다.

    그림 2.2 - 통계 분석의 주요 단계

    2.2 통계정보의 수집

    자료 수집에는 연구 참조 조건 분석, 필요한 정보 출처 식별 및 (필요한 경우) 설문지 개발이 포함됩니다. 정보 소스 연구에서 필요한 모든 데이터는 다음과 같이 나뉩니다. 일 순위(이 연구를 위해 데이터를 사용할 수 없으며 직접 수집해야 함), 그리고 보조(이전에 다른 목적으로 수집).

    2차 데이터 수집을 종종 "책상" 또는 "도서관" 연구라고 합니다.

    1차 데이터 수집의 예: 매장 방문자 관찰, 병원 환자 설문조사, 회의에서 문제에 대한 토론.

    2차 데이터는 내부 데이터와 외부 데이터로 나뉩니다.

    내부 보조 데이터 소스의 예:

      조직의 정보 시스템(회계 하위 시스템, 영업 관리 하위 시스템, CRM(CRM 시스템, Customer Relationship Management의 약자) - 고객 상호 작용 전략을 자동화하도록 설계된 조직을 위한 응용 프로그램 소프트웨어 등)

      이전 연구들;

      직원의 서면 보고서.

    외부 보조 데이터 소스의 예:

      통계 기관 및 기타 국가 기관의 보고서;

      마케팅 대행사, 전문 협회 등의 보고서

      전자 데이터베이스(주소 디렉토리, GIS 등);

      도서관;

      미디어.

    데이터 수집 단계의 주요 출력은 다음과 같습니다.

      계획된 표본 크기;

      샘플 구조(쿼터의 존재 및 크기);

      통계적 관찰 유형(데이터 수집 조사, 질문, 측정, 실험, 검사 등);

      설문 조사 매개 변수에 대한 정보(예: 설문지 위조 사실 가능성)

      처리를 위해 선택된 프로그램의 데이터베이스에 있는 변수에 대한 코딩 체계;

      데이터 변환 계획;

      사용된 통계 절차의 계획 계획.

    이 단계에는 질문 절차 자체도 포함됩니다. 물론 설문지는 기본 정보를 얻기 위해서만 개발됩니다.

    수신된 데이터는 적절하게 편집 및 준비되어야 합니다. 각 설문지 또는 관찰 형식을 확인하고 필요한 경우 수정합니다. 각 답변에는 숫자 또는 알파벳 코드가 할당되며 정보가 인코딩됩니다. 데이터 준비에는 편집, 암호 해독 및 데이터 유효성 검사, 코딩 및 필요한 변환이 포함됩니다.

    2.3 샘플의 특성화

    원칙적으로 통계분석을 위한 통계적 관찰의 결과로 수집된 데이터는 표본입니다. 데이터가 통계 연구 과정으로 변환되는 순서는 다음과 같이 개략적으로 나타낼 수 있습니다(그림 2.3).

    그림 2.3 통계 데이터 변환 방식

    표본을 분석하면 표본이 대표하는 일반 인구에 대한 결론을 도출할 수 있습니다.

    일반 샘플링 매개변수의 최종 결정모든 설문지가 수집될 때 생성됩니다. 다음이 포함됩니다.

      실제 응답자 수의 결정,

      샘플 구조의 결정,

      조사 장소에 따른 분포,

      표본의 통계적 신뢰도의 신뢰 수준을 설정하고,

      통계적 오류 계산 및 표본 대표성 결정.

    실제 수량응답자는 계획보다 많거나 적을 수 있습니다. 첫 번째 옵션은 분석에 더 좋지만 연구의 고객에게는 불리합니다. 두 번째 것은 연구의 품질에 부정적인 영향을 미칠 수 있으므로 분석가나 고객 모두에게 이익이 되지 않습니다.

    샘플 구조무작위 또는 비무작위일 수 있습니다(예: 할당량 방법과 같이 이전에 알려진 기준에 따라 응답자가 선택됨). 무작위 샘플은 선험적 대표입니다. 무작위가 아닌 표본은 의도적으로 일반 모집단을 대표하지 않을 수 있지만 연구에 중요한 정보를 제공합니다. 이 경우 부적합한 응답자를 선별하기 위해 특별히 설계된 설문지의 필터링 질문도 신중하게 고려해야 합니다.

    을위한 추정 정확도의 결정, 우선 신뢰 수준(95% 또는 99%)을 설정해야 합니다. 그럼 최대 통계적 오류샘플은 다음과 같이 계산됩니다.

    또는
    ,

    어디 - 표본의 크기, - 조사 중인 사건의 발생 확률(응답자가 표본에 들어가는 것), - 반대 사건의 확률(응답자는 표본에 포함되지 않음), - 신뢰 계수,
    특성의 분산입니다.

    표 2.4는 가장 일반적으로 사용되는 신뢰 확률 및 신뢰 계수 값을 나열합니다.

    표 2.4

    2.5 컴퓨터 데이터 처리

    컴퓨터를 사용한 데이터 분석에는 여러 단계가 필요합니다.

    1. 초기 데이터의 구조 결정.

    2. 구조 및 프로그램 요구 사항에 따라 컴퓨터에 데이터 입력. 데이터 편집 및 변환.

    3. 연구의 목적에 따라 데이터 처리 방법을 설정합니다.

    4. 데이터 처리 결과 얻기. 원하는 형식으로 편집하고 저장합니다.

    5. 처리 결과의 해석.

    1단계(준비)와 5단계(최종)는 어느 누구도 수행할 수 없습니다. 컴퓨터 프로그램- 그들의 연구원이 스스로 만듭니다. 2~4단계는 연구자가 프로그램을 사용하여 수행하지만 필요한 데이터 편집 및 변환 절차, 데이터 처리 방법 및 처리 결과를 표시하는 형식을 결정하는 것은 연구자입니다. 컴퓨터의 도움(2-4단계)은 궁극적으로 긴 숫자 시퀀스에서 보다 간결한 숫자 시퀀스로 전환하는 데 있습니다. 컴퓨터의 "입력"에서 연구원은 이해할 수 없지만 컴퓨터 처리에 적합한 초기 데이터 배열을 제출합니다(2단계). 그런 다음 연구원은 작업 및 데이터 구조에 따라 데이터를 처리하라는 명령을 프로그램에 제공합니다(3단계). "출력"에서 그는 처리 결과(4단계)를 수신합니다. 또한 데이터 배열, 더 작은 것, 이해와 의미 있는 해석에 액세스할 수 있습니다. 동시에 데이터의 철저한 분석은 일반적으로 다른 방법을 사용하여 반복적으로 처리해야 합니다.

    2.6 데이터 분석 전략 선택

    수집된 데이터를 분석하기 위한 전략의 선택은 연구 중인 주제 영역의 이론적 및 실제적 측면, 정보의 세부 사항 및 알려진 특성, 특정 통계 방법의 속성 및 경험과 관점에 대한 지식을 기반으로 합니다. 연구원.

    데이터 분석이 연구의 궁극적인 목표가 아님을 기억해야 합니다. 그 목적은 특정 문제를 해결하고 적절한 관리 결정을 내리는 데 도움이 되는 정보를 얻는 것입니다. 분석 전략의 선택은 문제를 정의하고 연구 계획을 개발하는 프로세스의 이전 단계의 결과를 검토하는 것으로 시작해야 합니다. "초안"으로 예비 데이터 분석 계획이 사용되며 연구 계획의 요소 중 하나로 개발됩니다. 그런 다음 연구 프로세스의 후속 단계에서 추가 정보를 사용할 수 있게 되면 특정 변경이 필요할 수 있습니다.

    통계적 방법은 일변량과 다변량으로 나뉜다. 1차원 방법(일변량 기법)은 표본의 모든 요소가 하나의 지표로 평가되거나 각 요소에 대해 이러한 지표가 여러 개 있지만 각 변수가 다른 모든 것과 별도로 분석되는 경우에 사용됩니다.

    다변수 기법은 두 개 이상의 지표를 사용하여 각 표본 항목을 평가하고 이러한 변수를 동시에 분석하는 경우 데이터 분석에 적합합니다. 이러한 방법은 현상 간의 종속성을 결정하는 데 사용됩니다.

    다변량 방법은 주로 현상의 수준(평균) 및 분포(분산)에서 초점을 이동하고 이러한 현상 간의 관계(상관 또는 공분산)의 정도에 초점을 맞춘다는 점에서 일변량 방법과 다릅니다.

    단변량 방법은 분석되는 데이터가 메트릭인지 비메트릭인지에 따라 분류할 수 있습니다(그림 3). 메트릭 데이터는 간격 척도 또는 상대 척도로 측정됩니다. 비메트릭 데이터는 명목 또는 순서 척도로 평가됩니다.

    또한 이러한 방법은 연구 중에 분석되는 샘플의 수(1개, 2개 또는 그 이상)에 따라 클래스로 나뉩니다.

    1차원 통계 방법의 분류는 그림 2.4에 나와 있습니다.

    쌀. 2.4 분석 데이터에 따른 1차원 통계적 방법의 분류

    샘플 수는 데이터 수집 방법이 아니라 특정 분석을 위해 데이터를 처리하는 방법에 따라 결정됩니다. 예를 들어, 동일한 표본 내에서 남성과 여성에 대한 데이터를 얻을 수 있지만 성별에 따른 인식의 차이를 밝히기 위한 분석이라면 연구자는 두 개의 서로 다른 표본으로 작업해야 합니다. 샘플은 실험적으로 서로 관련이 없는 경우 독립된 것으로 간주됩니다. 한 샘플에서 수행된 측정은 다른 샘플의 변수 값에 영향을 미치지 않습니다. 분석을 위해 여성과 남성으로부터 수집된 데이터와 같은 다양한 응답자 그룹과 관련된 데이터는 일반적으로 독립 표본으로 취급됩니다.

    반면에 두 표본에 대한 데이터가 동일한 응답자 그룹을 참조하는 경우 표본은 쌍을 이룬 것으로 간주됩니다.

    메트릭 데이터의 샘플이 하나만 있는 경우 z- 및 t-검정을 사용할 수 있습니다. 두 개 이상의 독립 표본이 있는 경우 첫 번째 경우에는 두 표본에 대해 z-검정 및 t-검정을 사용할 수 있으며 두 번째 경우에는 일원 분산 분석 방법을 사용할 수 있습니다. 두 개의 관련 샘플에 대해 paired t-test가 사용됩니다. 단일 표본에 대한 비메트릭 데이터의 경우 연구원은 빈도 분포 검정, 카이제곱, Kolmogorov-Smirnov(K~S) 검정, 계열 검정 및 이항 검정을 사용할 수 있습니다. 비 메트릭 데이터가 있는 두 개의 독립적인 샘플의 경우 카이제곱, Mann-Whitney, 중앙값, K-S, 일원 분산 Kruskal-Wallis(DA K-U) 분석 방법을 사용할 수 있습니다. 대조적으로, 두 개 이상의 관련 표본이 있는 경우 부호, McNemar 및 Wilcoxon 검정을 사용해야 합니다.

    다변수 통계 방법은 변수의 상호 의존성, 이벤트의 관계 또는 순서, 개체 간 유사성과 같은 기존 패턴을 식별하는 것을 목표로 합니다.

    매우 일반적으로 다섯 가지 표준 유형의 패턴을 구별할 수 있으며, 이에 대한 연구는 연관, 시퀀스, 분류, 클러스터링 및 예측과 같이 매우 중요합니다.

    연관은 여러 이벤트가 서로 관련될 때 발생합니다. 예를 들어, 슈퍼마켓에서 수행된 연구에 따르면 옥수수 칩을 사는 사람들의 65%가 코카콜라도 먹고, 그런 세트가 할인되면 85%의 경우에 콜라를 산다. 그러한 연관성에 대한 정보가 있으면 관리자는 제공된 할인이 얼마나 효과적인지 쉽게 평가할 수 있습니다.

    시간에 연결된 일련의 사건이 있으면 순서를 말합니다. 예를 들어 45%의 경우 주택을 구입한 후 한 달 안에 새 난로도 구입하고 2주 이내에 새 이민자의 60%가 냉장고를 구입합니다.

    분류의 도움으로 이것 또는 그 물체가 속한 그룹을 특징 짓는 표시가 나타납니다. 이것은 이미 분류된 객체를 분석하고 특정 규칙 세트를 공식화하여 수행됩니다.

    클러스터링은 그룹 자체가 미리 결정되지 않는다는 점에서 분류와 다릅니다. 클러스터링의 도움으로 다양한 동종 데이터 그룹이 구별됩니다.

    모든 종류의 예측 시스템의 기초는 시계열 형태로 저장된 과거 정보입니다. 목표 지표의 행동 역학을 적절하게 반영하는 패턴을 찾는 것이 가능하다면 그들의 도움으로 미래에 시스템의 행동을 예측하는 것이 가능할 것입니다.

    다변수 통계적 방법은 관계분석과 분류분석으로 나눌 수 있다(그림 2.5).

    그림 2.5 - 다변량 통계 방법의 분류

    1. 통계적 연구의 단계

    통계적 방법과 정량적 특성의 시스템-지표 시스템을 통해 사회 경제적 현상을 연구하는 과정을 통계 연구라고합니다.

    통계 연구의 주요 단계는 다음과 같습니다.

    1) 통계적 관찰;

    2) 수신 데이터 요약

    3) 통계 분석.

    필요한 경우 통계 연구에는 통계적 예측이라는 추가 단계가 포함될 수 있습니다.

    통계적 관찰은 사전 개발된 관찰 프로그램에 따라 사회 생활의 현상과 과정에 대한 필수 기능을 등록하여 과학적으로 조직된 데이터 수집입니다. 관찰 데이터는 관찰 대상에 대한 1차 통계 정보로, 대상의 일반적인 특성을 파악하는 기반이 됩니다. 관찰은 통계의 주요 방법 중 하나이며 다음 중 하나입니다. 가장 중요한 단계통계 연구.

    통계 관찰 과정에서 얻은 양질의 정보 기반 없이는 통계 연구를 수행할 수 없습니다. 따라서 기술 과학으로서의 통계 개념을 변경하는 순간부터 관찰을 수행하기위한 특별 규칙과 결과에 대한 특별 요구 사항-통계 데이터가 개발되고 있습니다. 즉, 관찰은 통계의 주요 방법 중 하나입니다.

    관찰은 통계 연구의 첫 번째 단계이며, 그 품질은 연구의 최종 목표 달성을 결정합니다.

    1.1. 관찰은 특별히 준비된 프로그램에 따라 수행됩니다.

    프로그램에는 관찰 결과로 얻어야 ​​하는 데이터, 연구 대상의 특성 목록이 포함됩니다.

    관찰을 준비할 때 사전에 다음을 결정할 필요가 있습니다.

    1. 다음과 같은 관찰 프로그램:

    a) 관찰 대상이 정의됩니다. 조사해야 하는 현상의 단위 집합입니다. 또한 관찰 단위와 보고 단위를 구분할 필요가 있습니다. 보고 단위 - 통계 데이터를 제공하거나 여러 인구 단위로 구성되거나 인구 단위와 일치할 수 있는 단위입니다. 예를 들어, 인구 조사에서 단위는 가구 구성원이고 보고 단위는 가구일 수 있습니다.

    b) 관찰 대상의 경계가 결정됩니다.

    c) 관찰 대상의 특성이 결정되고 관찰 결과로 얻어야 ​​하는 정보.

    2. 물체의 관찰 시간 - 연구 중인 물체에 대한 정보가 기록되는 시간.

    3. 관찰의 타이밍. 즉, 데이터 수집 기간과 관찰 종료 날짜가 결정됩니다. 관찰 조건은 전체 통계 연구 완료 시간과 결론의 적시성에 영향을 미칩니다.

    4. 모니터링에 필요한 수단 및 자원: 자격을 갖춘 전문가의 수 물질적 자원; 관찰 결과를 처리하는 수단.

    5. 통계자료의 요건. 주요 요구 사항은 다음과 같습니다. a) 신뢰성, 즉. 연구 대상에 대한 정보는 관찰 당시의 실제 상태를 반영해야 합니다. b) 데이터의 비교 가능성, 즉 관찰의 결과로 얻은 정보는 비교할 수 있어야하며, 이는 데이터 수집 및 분석을위한 통일 ​​된 방법론, 측정 단위 등으로 보장됩니다.

    1.2. 통계적 관찰에는 여러 유형이 있습니다.

    1. 인구 단위의 적용 범위:

    a) 고체;

    b) 비연속적(선택적, 단행본, 메인 어레이의 방법에 따라)

    2. 사실 등록 시: a) 현재(계속) b) 불연속적(주기적, 일회성)

    3. 정보 수집 방법에 따라: a) 직접 관찰 b) 문서 관찰; 다) 설문조사(설문지, 특파원 등)

    요약 - 수신된 데이터를 시스템으로 가져오는 프로세스, 중간 및 일반 결과의 처리 및 계산, 상호 관련된 분석 값 계산.

    통계 연구의 다음 단계는 분석을 위해 관찰 중에 얻은 정보를 준비하는 것입니다. 이 단계를 요약이라고 합니다.

    요약에는 다음이 포함됩니다.

    - 관찰 중에 얻은 정보의 체계화;

    - 그들의 그룹화;

    - 교육받은 그룹을 특징짓는 지표 시스템의 개발;

    - 그룹화된 데이터에 대한 개발 테이블 생성

    — 개발 테이블에 따른 파생 값 계산.

    통계 이론에 관한 문헌에서 요약과 그룹화를 다음과 같이 고려하는 경우가 종종 있습니다. 독립 단계연구. 그러나 요약의 개념에는 통계 데이터를 그룹화하는 작업이 포함되므로 여기에서는 "요약"의 개념을 연구 단계의 이름으로 채택한다는 점에 유의해야 합니다.

    통계 분석 - 연구 특징적인 특징특정 경제 통계 및 수학 통계 방법이 사용되는 구조, 현상의 연결, 경향, 사회 경제적 현상의 발전 패턴. 얻어진 결과의 해석으로 통계적 분석이 완료된다.

    통계적 예측 - 확립된 인과 관계 및 패턴의 시스템을 기반으로 한 현상 및 프로세스의 상태 및 가능한 개발 방법에 대한 과학적 식별.

    연습 1

    표본조사 결과 임금산업체 직원 60명이 다음 데이터를 수신했습니다(표 1).

    결과 속성에 따라 분포의 간격 계열을 작성하여 동일한 간격으로 5개의 그룹을 형성합니다.

    변동의 주요 지표(산포, 표준 편차, 변동 계수), 평균 검정력 값(특징의 평균 값) 및 구조적 평균을 결정합니다. a) 히스토그램; b) 누적 c) 오기. 결론을 내리십시오.

    해결책

    1. 다음 공식에 따라 서비스 기간에 따라 성과 지표에 따라 변동 범위를 결정합니다.

    R \u003d Xmax - Xmin \u003d 36 - 5 \u003d 31

    여기서 Xmax는 자산의 최대 금액입니다.

    Xmin - 자산의 최소 금액

    2. 간격 값 결정

    나는 \u003d R / n \u003d 31/5 \u003d 6.2

    얻은 간격 값을 고려하여 은행을 그룹화하고

    3. 보조 테이블을 만들어보자

    기능 그룹

    그룹에서 가치의 의미

    엑스 나

    수량 특징 빈도(주파수)

    파이

    전체의 %

    ω

    누적 주파수

    간격 중간점

    * 나는

    ω


    5 – 11,2

    6,8,7,5,8,6,10,9,9,7, 6,6,9,10,7,9,10,10, 11,8,9,8, 7, 6, 9, 10

    43,3

    43,3

    210,6

    350,73

    46,24

    1202,24

    II

    11,2 – 17,4

    16,15,13,12,14,14, 12,14,17,13,15,17, 14

    21,7

    14,3

    185,9

    310,31

    0,36

    4,68

    III

    17,4 – 23,6

    18,21,20,20,21,18, 19,22,21,21,21,18, 19

    21,7

    86,7

    20,5

    266,5

    444,85

    31,36

    407,68

    IV

    23,6 –29,8

    28,29,25,28, 24

    26,7

    133,5

    221,61

    11,8

    139,24

    696,2

    V

    29,8 – 36

    36,35,33,

    32,9

    98,7

    164,5

    895,2

    1492

    541,2

    3282,8

    4. 연구 인구에서 속성의 평균 값은 가중 산술 공식에 의해 결정됩니다.

    올해의

    5. 피처의 산포와 표준편차는 공식에 의해 결정됩니다.



    변동성의 정의


    따라서 V>33.3%이므로 모집단이 이질적입니다.

    6. 패션의 정의

    모드는 연구된 모집단에서 가장 자주 발생하는 특징의 값입니다. 연구된 간격 변동 계열에서 모드는 다음 공식으로 계산됩니다.


    어디

    x M0
    – 모달 간격의 하한:

    나는 M0모달 간격의 값입니다.

    f M0-1 f M0 f M0+1는 각각 모달, 프리모달 및 포스트모달 간격의 주파수(주파수)입니다.

    모달 구간은 주파수(주파수)가 가장 높은 구간입니다. 우리 문제에서는 이것이 첫 번째 간격입니다.


    7. 중앙값을 계산합니다.

    중앙값은 정렬된 변이 계열의 중간에 위치한 변이체로 이를 두 개의 동일한 부분으로 나누어 모집단 단위의 절반이 중앙값보다 작은 속성 값을 갖고 절반은 중앙값보다 큽니다.

    구간 시리즈에서 중앙값은 다음 공식에 의해 결정됩니다.


    여기서 중앙값 간격의 시작 부분입니다.

    - 중앙값 간격의 값

    중간 간격의 빈도입니다.

    중위수 이전 구간에서 누적된 빈도의 합입니다.

    중위수 구간은 중위수 서수가 위치한 구간입니다. 그것을 결정하기 위해서는 전체의 절반을 초과하는 숫자까지 누적 주파수의 합을 계산할 필요가 있습니다.

    Gr.에 따르면 5 보조 테이블 우리는 간격을 찾을 수 있으며 누적 금액은 종종 50%를 초과합니다. 이것은 11.6에서 18.4까지의 두 번째 간격이며 중앙값입니다.

    그 다음에


    결과적으로 13.25년 미만의 경력을 가진 직원의 절반과 이 값보다 더 많은 절반이 있습니다.

    6. 다각형, 히스토그램, 누적 직선, 오기 등의 형태로 계열을 그립니다.

    그래픽 표현은 통계 데이터를 간단하고 시각적인 형태로 분석할 수 있기 때문에 변이 시리즈 연구에서 중요한 역할을 합니다.

    시리즈(히스토그램, 폴리곤, 누적, ogive)를 그래픽으로 표현하는 몇 가지 방법이 있으며, 선택은 연구 목적과 변형 시리즈 유형에 따라 다릅니다.

    분포 폴리곤은 주로 이산 시리즈를 표시하는 데 사용되지만 먼저 출산 시리즈에 가져오면 간격 시리즈에 대한 폴리곤을 작성할 수도 있습니다. 분포 다각형은 좌표가 (x i , q i)인 직교 좌표계의 닫힌 파선입니다. 여기서 x i는 i번째 피쳐의 값이고, q i는 i-ro 피쳐의 빈도 또는 빈도입니다.

    분포 히스토그램은 간격 시리즈를 표시하는 데 사용됩니다. 수평 축에 히스토그램을 작성하려면 기호의 간격과 동일한 세그먼트를 연속적으로 배치하고 밑면과 마찬가지로 이러한 세그먼트에 직사각형이 만들어지며 높이가 시리즈의 빈도 또는 세부 사항과 동일합니다. 등간격, 밀도; 간격이 같지 않은 계열의 경우.


    누적은 누적된 빈도나 세부 사항을 세로축에, 기능의 값을 가로축에 그릴 때 변이 계열을 그래픽으로 표현한 것입니다. 누적은 이산 및 간격 변동 시리즈의 그래픽 표현에 사용됩니다.


    결론 : 따라서 연구 된 시리즈의 변동에 대한 주요 지표가 계산되었습니다. 기능의 평균 값 - 작업 경험은 14.9 년, 분산은 54.713과 동일하게 계산되며 기능의 표준 편차는 7.397입니다. 모드의 값은 9.13이며 모달 간격은 연구 시리즈의 첫 번째 간격입니다. 시리즈의 중앙값은 13.108과 같으며 시리즈를 두 개의 동일한 부분으로 나눕니다. 이는 연구 중인 조직에서 직원의 절반이 13.108년 미만의 경력을 갖고 있고 나머지 절반은 그 이상임을 나타냅니다.

    작업 2

    1997-2001년의 역동성을 특징짓는 다음과 같은 초기 데이터가 있습니다. (표 2).

    표 2 초기 ​​데이터

    년도

    1997

    1998

    1999

    2000

    2001

    과립 설탕, 천 톤 생산

    1620

    1660

    1700

    1680

    1700

    일련의 역학의 주요 지표를 결정하십시오. 계산을 표 형식으로 제시하십시오. 지표의 평균 연간 가치를 계산하십시오. 그래픽 이미지 - 다각형의 형태로 분석된 지표의 역학을 나타냅니다. 결론을 내리십시오.

    해결책

    주어진

    년도

    연령

    1997

    1998

    1999

    2000

    2001

    1620

    1660

    1700

    1680

    1700

    1) 역학의 평균 수준은 다음 공식으로 계산됩니다.


    2) 체인 및 기본 성장률을 다음과 같이 계산합니다.

    1. 절대 성장은 다음 공식에 의해 결정됩니다.

    ab = yi – y0

    Aic \u003d yi - yi-1

    2. 성장률은 공식에 의해 결정됩니다: (%)

    Trb = (yi / y0) *100

    Trc \u003d (yi / yi-1) * 100

    3. 성장률은 다음 공식에 의해 결정됩니다. (%)

    Tnrb \u003d Trb -100%:

    Тnрц = Трц - 100%

    4. 평균 절대 성장률:


    니 엔
    동적 계열의 최종 수준입니다.

    0 0
    - 동적 계열의 초기 수준;

    체크 안함
    체인 절대 증분 수입니다.

    5. 연평균 성장률:


    6. 연평균 성장률:


    3) 절대 함량 1% 증가:

    A \u003d Xi-1 / 100

    계산된 모든 지표는 표에 요약되어 있습니다.

    지표

    연령

    1997

    1998

    1999

    2000

    2001

    기간당 수술 횟수

    1620

    1660

    1700

    1680

    1700

    2. 절대적 성장

    아이크

    3. 성장률

    트리브

    102,5

    104,9

    103,7

    104,9

    트리츠

    102,5

    102,4

    98,8

    101,2

    4. 성장률

    티피브

    티핏

    5. 1% 증가의 의미

    16,2

    16,6

    17,0

    16,8

    5) 연평균 가치


    7. 다각형으로 그래픽으로 그립니다.


    따라서 다음이 얻어진다. 해당 기간 중 외과수술의 절대적·상대적 증가가 가장 큰 것은 1999년 1700건, 기준연도 대비 절대증가 80건, 기준연도 1997년 대비 성장률 104.9%, 기저증가율 4.9%였다. 가장 큰 체인 절대 이득 1998년과 1999년에 각각 40회의 작업이 있었습니다. 가장 높은 체인 성장률은 1998년에서 102.5%로 관찰되었으며, 거래 건수에서 가장 작은 체인 성장률은 2000년에서 98.8%로 관찰되었습니다.

    작업 3

    상품 판매에 대한 데이터가 있습니다(표 3 참조).

    표 3 상품 판매 초기 데이터

    제품

    기준 연도

    보고 연도

    수량

    가격

    수량

    가격

    1100

    1000

    1350

    1300

    1650

    1700

    결정: a) 개별 지수( 나는 피, 나는 q); b) 공통 지수(I p , I q , I pq) c) 다음으로 인한 무역의 절대적 변화: 1) 상품의 수량; 2) 가격.

    계산 된 지표를 기반으로 결론을 내립니다.

    해결책

    보조 테이블을 생성하자

    보다

    기초적인

    보고

    일하다

    지수

    수량, q 0

    가격, p 0

    수량, 수량 1

    가격, 1페이지

    q 0 * p 0

    q 1 * p 1

    나는 q \u003d q 1 / q 0

    나는 p \u003d p 1 / p 0

    q 1 * p 0

    44000

    35000

    0,875

    0,909

    38500

    1100

    1000

    41800

    40000

    0,909

    1,053

    38000

    7500

    8400

    1,200

    0,933

    9000

    1350

    1300

    40500

    26000

    0,667

    0,963

    27000

    45000

    44000

    1,100

    0,889

    49500

    1650

    1700

    26400

    25500

    1,030

    0,938

    27200

    205200

    178900

    189200


    결론: 보시다시피, 16000까지 판매된 상품 수량 변경의 영향과 상품 가격 변경으로 인한 영향을 포함하여 해당 연도의 총 회전율 증가는 (-26300) 기존 단위에 달했습니다. 단위. 무역 회전율의 총 증가는 87.2%에 달했습니다. 구색별로 계산 된 상품 수량 지수에 따르면 상품 "P"는 120 %, 상품 "C"는 110 %, 상품 판매가 약간 증가합니다. "T" - 103%에 불과합니다. 상품 "P"의 판매는 기준 연도의 매출의 66.7%에 불과하고 상품 "H"의 판매는 87.5%, 상품 "O"의 판매는 기준 연도의 해당 지표의 90.9%로 상당히 크게 감소했습니다. 개별 물가 지수는 "N", "P", "R", "S", "T"와 같은 다른 모든 유형의 상품에 대해 동시에 "O" 제품에 대해서만 가격이 105.3% 증가했음을 보여줍니다. " 개별 물가 지수는 각각 마이너스 추세(하락)를 나타냅니다 - 90.9%; 93.3%, 96.3%, 88.9 93.8.

    전체 물리적 판매량 지수는 총 판매량이 94.6% 소폭 감소했음을 나타냅니다. 일반 물가 지수는 판매 상품 가격의 전반적인 하락을 92.2% 나타내고, 일반 무역 회전율 지수는 무역 회전율의 전반적인 감소를 87.2% 나타냅니다.

    작업 4

    표 1의 초기 데이터(14에서 23까지 선택)에서 근속 기간과 임금의 두 가지 근거에서 상관 회귀 분석을 수행하고 상관 및 결정의 매개 변수를 결정합니다. 두 기호(결과 및 요인) 간의 상관 관계에 대한 그래프를 구성합니다. 결론을 내리십시오.

    해결책

    초기 데이터

    생산 경험

    샐러리

    1800

    2500

    1750

    1580

    1750

    1560

    1210

    1860

    1355

    1480

    직선 종속성

    방정식의 매개변수는 최소 제곱법, 정규 방정식 시스템에 의해 결정됩니다.


    시스템을 풀기 위해 우리는 행렬식 방법을 사용합니다.

    매개변수는 공식으로 계산됩니다.