시계열 분석 및 예측. 시계열 분석. 재무 예측 방법

12.01.2022

2013년 7월 10일 타일러 체스맨

시계열 예측의 핵심 아이디어를 이해하고 일부 세부 정보를 알고 있으면 SSAS(SQL Server Analysis Services)의 예측 기능을 사용하는 데 도움이 됩니다.

이 기사에서는 데이터 마이닝 기술을 마스터하는 데 필요한 기본 개념을 설명합니다. 또한 실제로 접했을 때 낙담하지 않도록 몇 가지 미묘함을 다룰 것입니다(사이드바 "데이터 마이닝이 인기 없는 이유" 참조).

때때로 SQL Server 전문가는 수익 또는 판매 예측과 같은 미래 가치에 대한 미래 예측을 해야 합니다. 조직에서는 이러한 추정치를 제공하기 위해 예측 모델을 구축할 때 데이터 마이닝 기술을 사용하는 경우가 있습니다. 기본 개념과 일부 세부 사항을 이해하고 나면 SSAS(SQL Server Analysis Services)의 예측 기능을 성공적으로 사용할 수 있습니다.

예측 방법

예측에는 다양한 접근 방식이 있습니다. 예를 들어, Forecasting Methods 웹사이트(forecastingmethods.org)는 캐주얼(경제-수학적이라고도 함), 전문가 모델링(주관적), 시계열, 인공 지능, 예측 시장, 확률적 예측, 예측 모델링, 및 참조 클래스에 기반한 방법 예측. Forecasting Principles 웹사이트(www.forecastingprinciples.com)는 방법론적 트리의 방법에 대한 개요를 제공하며, 주로 주관적 방법(즉, 정량화할 데이터가 충분하지 않을 때 사용되는 방법)과 정적 방법(즉, 관련 수치 데이터가 있을 때 사용되는 방법)을 분리합니다. . 이 기사에서는 누적 데이터가 지표를 예측하기에 충분한 정적 접근 방식의 일종인 시계열 예측에 중점을 둘 것입니다.

시계열 예측은 과거에 얻은 데이터가 미래의 값을 설명하는 데 도움이 된다고 가정합니다. 축적된 데이터에 반영되지 않은 세부 사항을 처리하는 경우가 있음을 이해하는 것이 중요합니다. 예를 들어, 미래 소득에 부정적인 영향을 미칠 수 있는 새로운 경쟁자가 등장하거나 실업률에 영향을 미칠 수 있는 노동력 구성의 급격한 변화가 나타날 것입니다. 이러한 상황에서는 시계열 예측이 유일한 접근 방식이 될 수 없습니다. 가장 정확한 예측을 제공하기 위해 다양한 예측 접근 방식이 결합되는 경우가 많습니다.

시계열 예측의 기본 이해

시계열은 일반적으로 일정한 간격으로 일정 기간 동안 얻은 값의 모음입니다. 일반적인 예로는 주간 판매, 분기별 지출 및 월별 실업률이 있습니다. 시계열 데이터는 그림 1과 같이 그래프의 x축을 따라 시간 간격이 표시되고 y축을 따라 값이 표시되는 그래픽 형식으로 표시됩니다.

한 기간에서 다른 기간으로 값이 어떻게 변하는지와 값을 예측하는 방법을 볼 때 시계열 데이터에는 몇 가지 중요한 특성이 있음을 염두에 두어야 합니다.

  • 기본 수준. 기준선은 일반적으로 시계열의 평균으로 정의됩니다. 일부 예측 모델에서 기준선은 일반적으로 계열 데이터의 시작 값으로 정의됩니다.
  • 트렌드(트렌드). 추세는 일반적으로 한 기간에서 다음 기간으로 시계열이 어떻게 변하는지 보여줍니다. 그림 1의 예에서 실업자 수는 2008년 초부터 2010년 1월까지 증가하는 경향이 있으며 그 이후에는 추세선이 내려갑니다. 이 기사에서 차트를 구성하는 데 사용된 샘플 데이터 세트에 대한 정보는 "실업률 계산" 사이드바에서 찾을 수 있습니다.
  • 계절 변동. 일부 값은 요일이나 월과 같은 특정 기간에 따라 오르거나 내리는 경향이 있습니다. 종종 크리스마스 시즌에 절정을 이루는 소매 판매의 예를 생각해 보십시오. 실업의 경우 그림 2에서 볼 수 있듯이 1월과 7월에 최고점을, 5월과 10월에 최저점을 나타내는 계절적 추세를 볼 수 있습니다.
  • 소음. 일부 예측 모델에는 데이터의 무작위 변동 및 불균일한 움직임을 나타내는 네 번째 특성인 노이즈 또는 오류가 포함됩니다. 소음은 여기에서 고려되지 않습니다.

따라서 추세를 식별하고 기준선에 추세선을 오버레이하고 데이터 분석에 있을 수 있는 계절 구성 요소를 식별하여 값을 예측하는 데 사용할 수 있는 예측 모델을 갖게 됩니다.

예측 값 = 기준선 + 추세 + 계절

기본 수준 및 추세의 결정

기준 값과 추세를 결정하는 유일한 방법은 회귀 방법을 사용하는 것입니다. 여기서 회귀라는 단어는 변수 간의 관계를 고려하는 것을 의미합니다. 이 경우 독립시간변수와 실업자수 종속변수 사이에는 관계가 존재한다. 독립 변수를 예측 변수라고도 합니다.

Microsoft Excel과 같은 도구를 사용하여 회귀 방법을 적용합니다. 예를 들어 Excel 2010 또는 Excel 2007 패널의 차트 도구 레이아웃 탭 또는 피벗 차트 도구 레이아웃 탭의 추세선 메뉴를 사용하여 Excel에서 자동 계산을 수행하고 시계열 도표에 추세선을 추가할 수 있습니다. 추세선 메뉴에서 선형 추세선 모드를 선택하여 직선 추세선을 추가했습니다. 그런 다음 추세선 메뉴에서 추가 추세선 옵션을 선택한 다음 차트에 방정식 표시 및 차트에 R-제곱 값 표시 옵션을 선택했습니다(그림 3 참조).

그림 3: Excel의 추세 옵션

누적된 데이터에 추세선을 맞추는 이 프로세스를 선형 회귀라고 합니다. 화면 1에서 볼 수 있듯이 추세선은 기본 수준(8248.8)과 추세(104.67x)가 결정되는 방정식에 따라 계산됩니다.

y = 104.67x + 8248.8

추세선은 시간 범위(즉, x축)를 연결하여 값(y축)을 얻을 수 있는 일련의 연결된 x-y 좌표로 생각할 수 있습니다. Excel은 최소 자승법(그림 1에서 R²로 정의)을 사용하여 "최상의" 추세선을 결정합니다. 최소 자승선은 추세선의 각 점에서 선의 해당 점까지의 수직 거리 제곱을 최소화하는 선입니다. RMS 값을 사용하면 실제 선 위 또는 아래의 편차가 서로 균형을 이루지 않는지 결정할 수 있습니다. 화면 1에서 R² = 0.5039임을 알 수 있습니다. 이는 선형 관계가 시간 경과에 따른 실업 통계 변화의 50.39%를 설명한다는 것을 의미합니다.

Excel에서 정확한 추세선을 결정하려면 육안 검사와 함께 시행착오가 수반되는 경우가 많습니다. 화면 1에서 직선 추세선은 가장 적합하지 않습니다. Excel은 그림 3에서 볼 수 있는 추세선에 대한 다른 옵션을 제공합니다. 그림 4에서는 시계열의 현재 및 마지막 설정 기간의 산술 평균을 기반으로 하는 4기간 이동 평균선을 추가했습니다.

또한 대수 방정식을 적용하여 선을 그리는 다항식 추세선을 추가했습니다. 다항식 추세선의 R² 값은 0.9318로 독립 변수와 종속 변수 간의 관계를 표현하는 데 가장 적합한 비율을 결정합니다. 그러나 더 높은 R²가 반드시 추세선이 예측 값을 제공한다는 것을 의미하지는 않습니다. 정확한 예측을 계산하는 다른 방법이 있는데 아래에서 간단히 설명하겠습니다. Excel의 일부 추세선 옵션(예: 선형, 다항식 추세선)을 사용하면 기간 수를 고려하여 결과 값을 그래프에 플로팅하여 앞뒤로 예측할 수 있습니다. 누군가에게는 "반대 방향으로 예측"이라는 표현이 이상하게 들릴 수 있습니다. 이것을 예를 들어 제시하는 것이 가장 좋습니다. 공공 부문 일자리의 급격한 증가(예: 2000년대 초반 국토방위의 일자리, 미국 인구조사국의 임시 근로자)라는 새로운 요인이 실업률의 급격한 하락을 초래했다고 가정해 봅시다. 몇 개월에 걸쳐 새로운 직업 부문의 성장률을 역으로 예측한 다음, 부드러운 변화율에 도달하기 위해 실업률을 다시 계산해야 합니다.

추세선 방정식을 수동으로 적용하여 미래의 값을 계산할 수도 있습니다. 그림 5에서 6개월 예측이 있는 다항식 추세선을 추가하여 원래 시계열에서 지난 6개월(즉, 2012년 4월부터 9월까지)을 먼저 제거했습니다.

화면 5와 화면 1을 비교하면 다항식 예측값이 실제 시계열의 하락 추세(추세)와 일치하지 않는 상승 추세가 있음을 알 수 있습니다.

회귀에 대해 두 가지 중요한 사항이 있습니다.

  • 위에서 언급했듯이 선형 회귀에는 하나의 독립 변수와 하나의 종속 변수가 포함됩니다. 추가 독립 변수가 종속 변수의 변경 사항을 설명하는 방법을 이해하려면 다중 회귀 모델을 구축해 보십시오. 미국의 실업자 수를 예측하는 맥락에서 경제 성장률, 미국 인구 및 고용된 근로자 수의 증가를 고려하여 R²(및 예측 정확도)를 높일 수 있습니다. . SSAS는 많은 변수(예: 회귀 변수)를 시계열 예측 모델에 맞출 수 있습니다.
  • SSAS에서 사용되는 것을 포함한 시계열 예측 알고리즘은 시계열에서 인접한 값 간의 상관 관계인 자기 상관을 계산합니다. 자기 상관을 직접 포함하는 예측 모델을 자기회귀(AR) 모델이라고 합니다. 예를 들어 선형 회귀 모델은 기간(예: 104.67 * x)을 기반으로 추세 방정식을 작성하는 반면 AR 모델은 이전 값(예: -0.417 * 실업자(-1) + 0.549 * 고용(-1)). AR 모델은 추세 및 계절적 구성 요소 이외의 추가 정보를 고려하므로 예측 정확도를 잠재적으로 높일 수 있습니다.

계절적 요소를 고려하여

시계열 구조의 계절 성분은 일반적으로 요일, 월일 또는 월과 관련하여 나타납니다. 위에서 언급했듯이 미국의 실업자 수는 일반적으로 특정 연도에 증가하거나 감소합니다. 이는 그림 2와 같이 경제가 성장하는 경우에도 마찬가지입니다. 즉, 정확한 예측을 위해서는 계절적 요소를 고려해야 합니다. 한 가지 일반적인 접근 방식은 계절 조정 방법을 적용하는 것입니다. Practical Time Series Forecasting: A Hands-On Guide, Second Edition(CreateSpace Independent Publishing Platform, 2012)에서 저자 Galit Shmueli는 다음 세 가지 방법 중 하나를 사용할 것을 권장합니다.

  • 이동 평균 계산;
  • 덜 상세한 수준에서 시계열 분석(예: 실업자 수의 변화를 월간이 아닌 분기별로 고려)
  • 계절별 개별 시계열 분석(및 예측 계산).

기본 수준과 추세는 평활 시계열을 고려하여 예측을 계산할 때 결정됩니다. 선택적으로 Holt-Winters 방법으로 작업할 때 계절 요소의 초기 값을 고려하여 계절 구성 요소 또는 조정을 예측 값에 다시 적용할 수 있습니다. Excel에서 계절별 인수 계산이 어떻게 수행되는지 보려면 인터넷 검색 창에 "Excel의 Winters 방법"을 입력하십시오. Holt-Winters 방법에 대한 자세한 설명은 Wayne L. Winston Microsoft Office Excel 2007: Data Analysis and Business Modeling, Second Edition(Microsoft Press, 2007)을 참조하십시오.

SSAS와 같은 많은 데이터 마이닝 패키지에서 시계열 예측 알고리즘은 계절적 관계를 측정하고 예측 모델에 통합하여 계절적 변동을 자동으로 고려합니다. 그러나 계절적 변화의 구조에 대한 힌트를 설치할 수 있습니다.

예측 모델 측정 정확도

이미 언급했듯이 원래 모델(최소 자승법이 적용된 경우)은 예측의 정확성을 반드시 보장하지는 않습니다. 예측 추정의 정확성을 확인하는 가장 좋은 방법은 시계열을 두 개의 데이터 세트로 나누는 것입니다. 하나는 모델 구축(즉, 훈련)용이고 다른 하나는 검증용입니다. 검증 데이터 세트는 입력 데이터 세트의 가장 최근 부분이 될 것이며 이상적으로는 미래 예측 타임라인과 동일한 시간 프레임에 걸쳐 있습니다. 모델을 테스트(검증)하기 위해 예측된 값을 실제 값과 비교합니다. 일단 유효성을 검사하면 전체 시계열을 사용하여 모델을 다시 작성할 수 있으므로 최신 실제 값을 사용하여 미래 값을 예측하는 것이 바람직합니다.

예측 모델의 정확도를 측정할 때 일반적으로 예측 추정의 정확도를 결정하는 방법과 모델을 훈련하는 데 사용할 과거 데이터의 양이라는 두 가지 질문이 발생합니다.

예측 추정의 정확도를 결정하는 방법은 무엇입니까? 일부 시나리오에서는 실제 값보다 높게 예측된 값이 바람직하지 않을 수 있습니다(예: 투자 예측에서). 다른 상황에서는 실제보다 낮은 예측 값이 치명적일 수 있습니다(예: 경매 항목의 낙찰가 중 가장 낮은 가격 예측). 그러나 모든 예측값에 대한 추정치를 계산하려는 경우(예측값이 실제 값보다 높거나 낮은지 여부) 정의를 사용하여 단일 예측의 오류를 정량화하여 시작할 수 있습니다.

오차 = 예측값 - 실제값

이러한 오류 정의와 함께 정확도를 측정하는 데 가장 널리 사용되는 두 가지 방법이 있습니다. 즉, 평균 절대 오류, 즉 평균 절대 오류(MAE) 및 평균 절대 백분율 오류 또는 평균 절대 백분율 오류(MAPE)입니다. MAE 방법에서는 예측 오차의 절대값을 합산한 다음 총 예측 횟수로 나눕니다. MAPE 방법은 예측에서 평균 절대 편차를 백분율로 계산합니다. 예측 추정의 품질을 측정하기 위해 이러한 방법 및 기타 방법을 사용하는 방법의 예를 보려면 수요 지표 진단 템플릿 웹 페이지(demandplanning.net/DemandMetricsExcelTemp.htm)에서 Excel 템플릿(샘플 예측 데이터 및 정확도 요소 포함)을 찾을 수 있습니다. ).

모델을 훈련시키는 데 얼마나 많은 과거 데이터를 사용해야 합니까? 기록이 긴 시계열로 작업할 때 모델에 모든 기록 데이터를 포함할 수 있습니다. 그러나 때때로 추가 기록이 예측의 정확도를 향상시키지 않습니다. 과거의 조건이 현재의 조건과 크게 다른 경우(예: 현재와 과거의 노동력 구성이 다른 경우) 과거 데이터는 예측을 왜곡할 수도 있습니다. 포함할 과거 데이터의 양을 제안하는 특정 공식이나 실용적인 방법을 찾지 못했기 때문에 예측 시간 간격보다 몇 배 더 큰 시계열로 시작한 다음 정확성을 확인하는 것이 좋습니다. 그런 다음 히스토리 번호를 반올림하거나 반올림하여 다시 테스트하십시오.

SSAS의 시계열 예측

시계열 예측은 2005년 SSAS에 처음 등장했습니다. 예측 값을 계산하기 위해 Microsoft 시계열 알고리즘은 교차 예측이 포함된 자동 회귀 트리(ARTXP) 또는 교차 예측이 포함된 자동 회귀 트리라는 단일 알고리즘을 사용했습니다. ARTXP는 예측 방정식이 특정 기준에 따라 변경(평균 분할)할 수 있도록 자동 회귀와 의사 결정 트리 데이터 마이닝을 결합합니다. 예를 들어, 예측 모델은 그림 6과 같이 먼저 날짜별로 분할한 다음 독립 변수 값으로 분할하면 더 나은 적합도(그리고 더 높은 예측 정확도)를 제공합니다.


그림 6: SSAS의 ARTXP 의사 결정 트리의 예

SSAS 2008에서 Microsoft 시계열 알고리즘은 ARTXP 외에 ARIMA(자동 회귀 통합 이동 평균)라는 알고리즘을 사용하여 장거리 예측을 계산하기 시작했습니다. ARIMA는 산업 표준으로 간주되며 자기회귀 프로세스와 이동 평균 모델의 조합으로 볼 수 있습니다. 또한 과거 예측 오류를 분석하여 모델을 개선합니다.

기본적으로 Microsoft 시계열 알고리즘은 ARIMA 및 ARTXP 알고리즘의 결과를 결합하여 최적의 예측을 달성합니다. 원하는 경우 이 기능을 비활성화할 수 있습니다. SQL Server 온라인 설명서(BOL) 설명서를 살펴보겠습니다.

“알고리즘은 동일한 데이터의 두 가지 다른 모델을 훈련합니다. 한 모델은 ARTXP 알고리즘을 사용하고 다른 모델은 ARIMA 알고리즘을 사용합니다. 그런 다음 알고리즘은 두 모델의 결과를 결합하여 최고의 예측, 다양한 수의 시간 조각에 걸쳐 있습니다. ARTXP 알고리즘은 단기 예측에 더 적합하므로 일련의 예측을 시작할 때 사용하는 것이 바람직합니다. 하지만 예측에 필요한 타임 슬라이스가 미래로 간다면 ARIMA 알고리즘이 더 의미가 있다”고 말했다.

SSAS에서 시계열 예측으로 작업할 때 항상 다음 사항에 유의해야 합니다.

  • SSAS에는 마이닝 정확도 차트 탭이 있지만 시계열 모델에 대한 데이터 마이닝에서는 작동하지 않습니다. 따라서 여기에 언급된 방법(예: MAE, MAPE) 중 하나를 사용하여 Excel과 같은 도구를 사용하여 정확도를 수동으로 측정하여 계산해야 합니다.
  • SSAS Enterprise Edition을 사용하면 하나의 시계열을 여러 " 역사적 모델모델 훈련 및 검증을 위해 데이터를 수동으로 데이터 세트로 분할하여 예측의 정확성을 확인할 필요가 없도록 합니다. 최종 사용자의 관점에서는 시계열 모델이 하나뿐이지만 그림 7과 같이 모델 내에서 실제 결과와 예측된 결과를 비교할 수 있습니다.

다음 단계

이 기사에서는 시계열 예측의 기본 사항을 소개했습니다. 또한 시계열 처리에 장애가 되지 않도록 기본 알고리즘에 대한 몇 가지 세부 사항을 고려했습니다. 다음 단계로 SSAS로 시계열 예측 도구를 마스터하는 것이 좋습니다. 이 기사에서 제공하는 실업 데이터를 사용하는 프로젝트는 모델이 될 수 있습니다. 그런 다음 technet.microsoft.com/en-us/library /cc879271.aspx에서 TechNet 전자 자습서 "중급 데이터 마이닝 자습서(분석 서비스 - 데이터 마이닝)"를 확인할 수 있습니다.

데이터 마이닝이 인기 없는 이유

지난 10년 동안 OLAP와 같은 비즈니스 인텔리전스(BI) 기술이 널리 사용되었습니다. 동시에 Microsoft는 Microsoft SQL Server 및 Microsoft Excel과 같은 인기 있는 도구에 또 다른 BI 기술인 데이터 마이닝을 추진하고 있었습니다. 그러나 데이터 마이닝 기술은 아직 리더가 되지 못했습니다. 왜요? 대부분의 사람들은 데이터 마이닝의 핵심 개념을 빠르게 이해할 수 있지만 알고리즘의 기본 세부 사항은 수학적 개념 및 공식과 불가분의 관계에 있습니다. 높은 수준의 추상적인 이해와 상세한 실행 사이에는 큰 "차이"가 있습니다. 결과적으로 데이터 마이닝은 IT 전문가와 산업 고객에게 "블랙 박스"로 간주되어 기술의 광범위한 채택에 도움이 되지 않습니다. 이 기사는 시계열 예측의 "다이버전스"를 줄이기 위한 나의 시도입니다.

실업률 계산

본문에서 그래프의 데이터는 미국에서 발표한 노동 인구에 대한 정보를 기반으로 합니다. 노동통계국(http://www.bls.gov/). BLS는 총 취업자 및 실업자 수를 추정하여 미국 인구조사국(BLS)이 실시한 월간 설문조사를 기반으로 실업 데이터를 발표합니다. 특히 BLS는 다음 공식을 적용합니다.

실업률 = 실업자/(실업자 + 취업자)

실업률과 관련하여 언론에서 일반적으로 계절 조정 계수를 제공한다는 점은 주목할 만합니다. 계절 조정은 ARIMA(자기회귀 통합 이동 평균)라는 일반 모델을 사용하여 수행됩니다. 이는 기본적으로 SSAS(SQL Server Analysis Services)를 포함하여 시계열 예측을 위한 많은 데이터 마이닝 패키지에서 사용되는 것과 동일한 알고리즘입니다. 더 많은 것을 얻으려면 자세한 정보 BLS에서 사용하는 ARIMA 모델에 대해서는 X-12-ARIMA 계절 조정 프로그램 웹페이지(www.census.gov/srd/www/x12a/)를 방문하십시오. 참고하세요 표준 프로젝트이 기사에서는 계절 및 비계절 변동에 대해 조정된 값을 사용했습니다.


시계열 예측 마스터하기


이전 세 개의 메모는 설명 변수 값에서 응답을 예측하는 회귀 모델에 대해 설명했습니다. 이 노트에서 우리는 이러한 모델과 다른 통계적 방법을 사용하여 연속적인 시간 간격에 걸쳐 수집된 데이터를 분석하는 방법을 보여줍니다. 시나리오에서 언급한 각 기업의 특성에 따라 시계열 분석에 대한 세 가지 대안을 고려할 것입니다.

자료는 다음 예를 통해 설명됩니다. 세 회사의 수익 예측. 당신이 대형 금융 회사의 분석가라고 상상해 보십시오. 고객의 투자 전망을 평가하려면 세 회사의 수익을 예측해야 합니다. 이를 위해 Eastman Kodak, Cabot Corporation 및 Wal-Mart 등 관심 있는 3개 회사에 대한 데이터를 수집했습니다. 기업은 비즈니스 활동의 유형이 다르기 때문에 각 시계열에는 고유한 특성이 있습니다. 따라서 예측을 위해 다른 모델을 사용할 필요가 있습니다. 각 회사에 가장 적합한 예측 모델을 선택하는 방법은 무엇입니까? 예측 결과를 기반으로 투자 전망을 평가하는 방법은 무엇입니까?

토론은 연간 데이터 분석으로 시작됩니다. 이러한 데이터를 평활화하는 두 가지 방법인 이동 평균 및 지수 평활화가 설명됩니다. 그런 다음 최소 자승법과 고급 예측 방법을 사용하여 추세를 계산하는 절차를 보여줍니다. 마지막으로 이러한 모델은 월별 또는 분기별 데이터를 기반으로 하는 시계열로 확장됩니다.

형식의 메모, 형식의 예 다운로드

비즈니스 예측

경제 상황은 시간이 지남에 따라 변하기 때문에 관리자는 이러한 변화가 회사에 미칠 영향을 예상해야 합니다. 정확한 계획을 보장하는 방법 중 하나는 예측입니다. 개발된 많은 방법에도 불구하고 모두 동일한 목표를 추구합니다. 즉, 회사 발전을 위한 계획과 전략을 개발할 때 고려하기 위해 미래에 발생할 이벤트를 예측하는 것입니다.

현대 사회는 예측의 필요성을 끊임없이 경험하고 있습니다. 예를 들어, 올바른 정책을 개발하기 위해 정부 구성원은 실업률, 인플레이션, 산업 생산품, 개인 및 법인의 소득세. 장비 및 인력 요구 사항을 결정하기 위해 항공사 이사는 항공 교통량을 정확하게 예측해야 합니다. 호스텔에 충분한 공간을 확보하기 위해 대학 관리자는 내년에 몇 명의 학생이 해당 기관에 입학할지 알고 싶어합니다.

예측에는 일반적으로 인정되는 두 가지 접근 방식, 즉 정성적 접근 방식과 정량적 접근 방식이 있습니다. 정성적 예측 방법은 연구자가 정량적 데이터를 사용할 수 없는 경우 특히 중요합니다. 일반적으로 이러한 방법은 매우 주관적입니다. 통계학자가 연구 대상의 이력에 대한 데이터를 사용할 수 있는 경우 정량적 예측 방법을 사용해야 합니다. 이러한 방법을 사용하면 과거에 대한 데이터를 기반으로 미래의 개체 상태를 예측할 수 있습니다. 정량적 예측 방법은 시계열 분석과 인과 분석 방법의 두 가지 범주로 나뉩니다.

시계열연속된 기간 동안 얻은 숫자 데이터 집합입니다. 시계열 분석 방법을 사용하면 과거 및 현재 값을 기반으로 숫자 변수의 값을 예측할 수 있습니다. 예를 들어, 뉴욕 증권 거래소의 일일 주가는 시계열을 형성합니다. 시계열의 또 다른 예는 월별 인덱스 값입니다. 소비자 가격, 분기별 국내 총생산 및 회사의 연간 판매 수익.

원인과 결과 분석 방법예측 변수의 값에 영향을 미치는 요인을 결정할 수 있습니다. 여기에는 후행 변수를 사용한 다중 회귀 분석 방법, 계량 경제학 모델링, 선행 지표 분석, 확산 지수 및 기타 경제 지표 분석 방법이 포함됩니다. 우리는 시간 분석을 기반으로 한 예측 방법에 대해서만 이야기할 것입니다. 에스 x 행.

고전적인 곱셈 시간 모델의 구성요소 에스 x 행

시계열 분석의 기본 가정은 다음과 같습니다. 현재 및 과거에 연구 대상에 영향을 미치는 요소는 미래에도 영향을 미칠 것입니다. 따라서 시계열 분석의 주요 목표는 예측에 중요한 요소를 식별하고 강조하는 것입니다. 이 목표를 달성하기 위해 시계열 모델에 포함된 구성 요소의 변동을 연구하기 위해 많은 수학적 모델이 개발되었습니다. 아마도 가장 일반적인 것은 연도별, 분기별 및 월별 데이터에 대한 고전적인 승법 모델일 것입니다. 고전적인 승법 시계열 모델을 설명하기 위해 Wm.Wrigley Jr. 회사의 실제 수입에 대한 데이터를 고려하십시오. 1982년부터 2001년까지의 회사(그림 1).

쌀. 1. Wm.Wrigley Jr.의 실제 총수입 그래프. 1982년부터 2001년까지의 회사(현가로 백만 달러)

보시다시피, 20년 동안 회사의 실제 총수입은 증가하는 추세를 보였습니다. 이러한 장기적 추세를 추세라고 합니다. 경향시계열의 유일한 구성 요소는 아닙니다. 이 외에도 데이터에는 순환 및 불규칙 구성 요소가 있습니다. 주기적 요소비즈니스 주기와 상관관계가 있는 데이터의 위아래 변동을 설명합니다. 그 기간은 2년에서 10년까지 다양합니다. 순환 성분의 강도 또는 진폭도 일정하지 않습니다. 어떤 해에는 데이터가 추세에 의해 예측된 값보다 높을 수 있고(즉, 사이클의 정점에 가까움), 다른 해에는 더 낮을 수 있습니다(즉, 사이클의 맨 아래에 있음). 추세 곡선에 있지 않고 순환 관계에 종속되지 않는 모든 관측 데이터를 불규칙 또는 임의 구성 요소. 데이터가 매일 또는 분기별로 기록되는 경우 계절의. 경제적 응용에 전형적인 시계열의 모든 구성 요소가 그림 1에 나와 있습니다. 2.

쌀. 2. 시계열에 영향을 미치는 요인

고전적인 곱셈 시계열 모델은 관찰된 값이 나열된 구성 요소의 곱이라고 말합니다. 데이터가 연간 데이터인 경우 관찰 와이연도는 다음 방정식으로 표현됩니다.

(1) 야 나 = * * 나는 내가

어디 - 추세 값, 년도, 나는 내가 -년.

데이터를 월별 또는 분기별로 측정하면 관찰 야 나 i번째 주기에 해당하는 는 다음 방정식으로 표현됩니다.

(2) Y i = T i *S i *C i *I i

어디 - 추세 값, - 의 계절 성분 값 - 번째 기간, - 순환 성분의 값 - 번째 기간, 나는 내가- 랜덤 성분의 값 - 기간.

시계열 분석의 첫 번째 단계에서 데이터의 그래프가 그려지고 시간에 대한 의존성이 드러납니다. 먼저 데이터의 장기적 증가 또는 감소(예: 추세)가 있는지 또는 시계열이 수평선을 중심으로 변동하는지 확인해야 합니다. 추세가 없으면 이동 평균 또는 지수 평활을 사용하여 데이터를 평활화할 수 있습니다.

연간 시계열 평활화

대본에서 우리는 Cabot Corporation을 언급했습니다. 매사추세츠 주 보스턴에 본사를 두고 있는 이 회사는 화학, 건축 자재, 정밀 화학, 반도체 및 액화 천연 가스의 제조 및 판매를 전문으로 합니다. 이 회사는 23개국에 39개의 공장이 있습니다. 시장 가치회사의 규모는 약 18억 7천만 달러이며 주식은 뉴욕 증권 거래소에 약어 CBT로 상장되어 있습니다. 특정 기간 동안 회사의 수입은 그림에 표시됩니다. 삼.

쌀. 3. 1982-2001년 Cabot Corporation의 수입(십억 달러)

보시다시피, 소득의 장기적인 상승 추세는 많은 변동에 의해 가려집니다. 따라서 그래프의 시각적 분석을 통해 데이터에 추세가 있다고 말할 수 없습니다. 이러한 상황에서 이동 평균 또는 지수 평활 방법을 적용할 수 있습니다.

이동 평균.이동 평균 방법은 매우 주관적이며 기간의 길이에 따라 다릅니다. 평균을 계산하기 위해 선택됩니다. 주기적인 변동을 제거하려면 주기 길이가 평균 주기 길이의 정수 배수여야 합니다. 길이가 있는 선택한 기간의 이동 평균 , 길이 시퀀스에 대해 계산된 평균 값 시퀀스를 형성합니다. . 이동 평균은 기호화됩니다. MA(L).

에 걸쳐 측정된 데이터에서 5년 이동 평균을 계산하려고 한다고 가정합니다. N= 11년. 하는 한 = 5, 5년 이동 평균은 시계열의 5개 연속 값에 대해 계산된 일련의 평균을 형성합니다. 5년 이동 평균 중 첫 번째는 처음 5년 동안의 데이터를 합한 다음 5로 나누어 계산합니다.

두 번째 5년 이동 평균은 2년부터 6년까지의 데이터를 합한 다음 5로 나누어 계산합니다.

이 과정은 지난 5년 동안의 이동 평균이 계산될 때까지 계속됩니다. 연간 데이터로 작업할 때 다음 수를 가정해야 합니다. (이동 평균 계산을 위해 선택한 기간의 길이) 홀수. 이 경우 첫 번째( – 1)/2 및 마지막( – 1)/2년. 따라서 5년 이동 평균으로 작업할 때 처음 2년과 마지막 2년에 대한 계산을 수행할 수 없습니다. 이동 평균이 계산되는 연도는 기간의 중간에 있어야 합니다. . 만약에 N= 11, 에이 = 5이면 첫 번째 이동 평균은 세 번째 해에 해당하고 두 번째는 네 번째 해, 마지막은 아홉 번째 해에 해당해야 합니다. 무화과에. 4는 1982년부터 2001년까지 Cabot Corporation 수익에 대해 계산된 3년 및 7년 이동 평균 차트를 보여줍니다.

쌀. 4. Cabot Corporation 수익에 대해 계산된 3년 및 7년 이동 평균 그래프

3년 이동 평균을 계산할 때 첫해와 마지막 해에 해당하는 관측 값은 무시됩니다. 마찬가지로 7년 이동 평균을 계산할 때 처음과 마지막 3년에 대한 결과가 없습니다. 또한 7년 이동 평균은 3년 이동 평균보다 시계열을 매끄럽게 만듭니다. 7년 이동 평균이 더 긴 기간에 해당하기 때문입니다. 불행히도 기간이 길수록 더 적은 수의 이동 평균을 계산하여 차트에 표시할 수 있습니다. 따라서 이동 평균을 계산하는 데 7년 이상을 선택하는 것은 바람직하지 않습니다. 차트의 시작과 끝에서 너무 많은 포인트가 빠져 시계열의 모양이 왜곡되기 때문입니다.

지수 평활화.이동 평균 외에도 데이터 변경을 특징짓는 장기 추세를 식별하기 위해 지수 평활 방법이 사용됩니다. 또한 이 방법을 사용하면 장기 추세가 의심되는 경우 단기 예측(한 기간 내)을 수행할 수 있습니다. 이 때문에 지수평활법은 이동평균법에 비해 상당한 이점이 있습니다.

지수 평활법은 지수 가중 이동 평균의 시퀀스에서 그 이름을 얻습니다. 이 시퀀스의 각 값은 이전에 관찰할 수 있는 모든 값에 따라 다릅니다. 이동 평균 방법에 비해 지수 평활 방법의 또 다른 장점은 후자를 사용할 때 일부 값이 삭제된다는 것입니다. 지수 평활화를 사용하면 관찰된 값에 할당된 가중치가 시간이 지남에 따라 감소하므로 계산이 수행된 후 가장 자주 발생하는 값에 가장 많은 가중치가 부여되고 희귀한 값에 가장 적은 가중치가 부여됩니다. 엄청난 양의 계산에도 불구하고 Excel을 사용하면 지수 평활법을 구현할 수 있습니다.

임의의 기간 내에 시계열을 평활화할 수 있는 방정식 , 세 개의 멤버 포함: 현재 관찰된 값 와이, 시계열에 속하는 이전 지수 평활 값 이자형 –1 그리고 할당된 무게 .

(3) E 1 = Y 1 E i = WY i + (1 – W) E i–1 , i = 2, 3, 4, …

어디 이자형에 대해 계산된 지수 평활 계열의 값입니다. - 번째 기간, 에이 –1 ( – 1) 번째 기간, 야 나는 시계열의 관측값입니다. - 번째 기간, 주관적 가중치 또는 평활 계수(0< < 1).

계열의 구성원에 할당된 평활 계수 또는 가중치의 선택은 결과에 직접적인 영향을 미치기 때문에 기본적으로 중요합니다. 불행히도 이 선택은 다소 주관적입니다. 연구원이 시계열에서 원하지 않는 주기적 또는 임의적 변동을 단순히 제외하려면 작은 값을 선택해야 합니다. (제로에 가깝다). 반면에 시계열을 예측에 사용하는 경우에는 큰 가중치를 선택해야 합니다. (단일에 가깝다). 첫 번째 경우에는 시계열의 장기 추세가 명확하게 나타납니다. 두 번째 경우에는 단기 예측의 정확도가 높아집니다(그림 5).

쌀. 5 1982년부터 2001년까지 Cabot Corporation 수익 데이터에 대한 지수적으로 평활화된 시계열 도표(W=0.50 및 W=0.25); Excel 파일의 계산 공식 보기

에 대해 얻은 지수 평활 값 th 시간 간격은 ( +1)번째 간격:

가중치에 해당하는 지수적으로 평활화된 시계열을 기반으로 2002년 Cabot Corporation의 수익을 예측하려면 = 0.25, 2001년에 대해 계산된 평활화 값을 사용할 수 있습니다. 무화과에서. 그림 5는 이 수치가 16억 5,100만 달러임을 보여줍니다. 회사의 2002년 수익 데이터를 사용할 수 있게 되면 식 (3)을 적용할 수 있으며 평활화된 2002년 수익을 사용하여 2003년 수익 수준을 예측할 수 있습니다.

분석 패키지 Excel은 한 번의 클릭으로 지수 평활화를 그릴 수 있습니다. 메뉴를 통해 이동 데이터데이터 분석옵션을 선택하고 지수 평활화(그림 6). 열린 창에서 지수 평활화매개변수를 설정합니다. 불행히도 절차를 통해 하나의 평활 시리즈만 작성할 수 있으므로 매개변수로 "재생"하려면 , 절차를 반복하십시오.

쌀. 6. 분석 팩을 사용하여 지수 평활화 플로팅

최소 제곱 추세 및 예측

시계열의 구성 요소 중 추세를 가장 많이 연구합니다. 장단기 예측을 할 수 있게 해주는 추세입니다. 시계열의 장기 추세를 식별하기 위해 일반적으로 수직축에 관측 데이터(종속변수 값)를, 시간 간격(독립변수 값)을 그래프로 그린다. 가로축에 그려집니다. 이 섹션에서는 최소 제곱 방법을 사용하여 선형, 2차 및 지수 추세를 식별하는 절차를 설명합니다.

선형 추세 모델예측에 사용되는 가장 간단한 모델입니다. 야 나 = β 0 + β 1 XI + ε 나 . 선형 추세 방정식:

주어진 유의 수준 α에 대해 다음과 같은 경우 귀무 가설이 기각됩니다. - 통계가 상한보다 크거나 하한 임계 수준보다 작음 -배포. 즉, 결정 규칙은 다음과 같이 공식화됩니다. > 또는 < , 귀무 가설 H 0기각되지 않으면 귀무가설이 기각되지 않습니다(그림 14).

쌀. 14. 양측 자기회귀 모수 유의성 검정에 대한 가설 기각 영역 아르, 가장 높은 차수를 가진

귀무가설( 아르= 0)은 거부되지 않습니다. 이는 선택한 모델에 너무 많은 매개변수가 포함되어 있음을 의미합니다. 기준을 통해 모델의 선행 항을 버리고 자기회귀 차수 모델을 평가할 수 있습니다. р–1. 이 절차는 귀무가설까지 계속되어야 합니다. H 0거부되지 않습니다.

  1. 주문 선택 아르 자형다음 사실을 고려하여 추정된 자기회귀 모델 -중요성 기준은 N-2p-1자유도.
  2. 일련의 변수 형성 아르 자형"지연 포함"으로 첫 번째 변수는 한 시간 간격으로, 두 번째 변수는 두 시간 간격으로 지연되는 식입니다. 마지막 값은 다음과 같이 지연되어야 합니다. 아르 자형시간 간격(그림 15 참조).
  3. 적용하다 분석 패키지모든 것을 포함하는 회귀 모델을 계산하는 Excel 아르 자형지연이 있는 시계열 값.
  4. 매개변수의 중요성 평가 , 가장 높은 차수: a) 귀무 가설이 기각되면 자기회귀 모델은 다음을 모두 포함할 수 있습니다. 아르 자형매개변수; b) 귀무가설이 기각되지 않으면 폐기 아르 자형-th 변수를 포함하고 다음을 포함하는 새 모델에 대해 3단계와 4단계를 반복합니다. р–1매개변수. 새 모델의 유의성 테스트는 다음을 기반으로 합니다. -기준, 자유도의 수는 새로운 매개변수 수에 의해 결정됩니다.
  5. 자기회귀 모델의 가장 높은 항이 통계적으로 유의할 때까지 3단계와 4단계를 반복합니다.

자기회귀 모델링을 설명하기 위해 Wm 회사의 실질 소득에 대한 시계열 분석으로 돌아가 보겠습니다. 리글리 주니어 무화과에. 15는 1차, 2차, 3차 자기회귀 모델을 구축하는 데 필요한 데이터를 보여줍니다. 3차 모델을 구축하려면 이 테이블의 모든 열이 필요합니다. 2차 자기회귀 모델을 구축할 때 마지막 열은 무시됩니다. 1차 자기회귀 모델을 구축할 때 마지막 두 열은 무시됩니다. 따라서 1차, 2차, 3차 자기회귀 모델을 구성할 때 20개 변수에서 각각 1개, 2개, 3개의 변수를 제외한다.

가장 정확한 자기회귀 모델의 선택은 3차 모델에서 시작됩니다. 올바른 작동을 위해 분석 패키지입력 간격에 따름 와이범위 B5:B21 및 입력 간격 지정 엑스– C5:E21. 분석 데이터는 그림 1에 나와 있습니다. 16.

매개변수의 의미 확인 3, 가장 높은 순서를 가지고 있습니다. 그의 점수 3-0.006(그림 16의 셀 C20)이고 표준 오차는 0.326(셀 D20)입니다. 가설 H 0: A 3 = 0 및 H 1: A 3 ≠ 0을 테스트하기 위해 다음을 계산합니다. - 통계:

-n–2p–1 = 20–2*3–1 = 13 자유도의 기준은 다음과 같습니다. = 학생.INR(0.025, 13) = -2.160; \u003d STUDENT.INR (0.975, 13) \u003d +2.160. 왜냐하면 -2.160< = –0,019 < +2,160 и 아르 자형= 0.985 > α = 0.05, 귀무가설 H 0거부할 수 없습니다. 따라서 3차 모수는 자기회귀 모델에서 통계적 의미가 없으므로 제거해야 합니다.

2차 자기회귀 모델에 대한 분석을 반복합시다(그림 17). 가장 높은 차수를 갖는 매개변수의 추정, 2= -0.205이고 표준 오차는 0.276입니다. 가설 H 0: A 2 = 0 및 H 1: A 2 ≠ 0을 테스트하기 위해 다음을 계산합니다. - 통계:

α = 0.05의 유의 수준에서 양측의 임계값은 -n–2p–1 = 20–2*2–1 = 15 자유도인 기준은 다음과 같습니다. \u003d STUDENT.OBR (0.025; 15) \u003d -2.131; \u003d STUDENT.OBR (0.975, 15) \u003d +2.131. 왜냐하면 -2.131< = –0,744 < –2,131 и 아르 자형= 0.469 > α = 0.05, 귀무가설 H 0거부할 수 없습니다. 따라서 2차 모수는 통계적으로 유의하지 않으므로 모델에서 제거해야 합니다.

1차 자기회귀 모델에 대한 분석을 반복합시다(그림 18). 가장 높은 차수를 갖는 매개변수의 추정, 1= 1.024이고 표준 오차는 0.039입니다. 가설 H 0: A 1 = 0 및 H 1: A 1 ≠ 0을 테스트하기 위해 다음을 계산합니다. - 통계:

α = 0.05의 유의 수준에서 양측의 임계값은 -n–2p–1 = 20–2*1–1 = 17 자유도의 기준은 다음과 같습니다. \u003d STUDENT.OBR (0.025; 17) \u003d -2.110; \u003d STUDENT.OBR (0.975, 17) \u003d +2.110. 왜냐하면 -2.110< = 26,393 < –2,110 и 아르 자형 = 0,000 < α = 0,05, нулевую гипотезу H 0거부되어야 합니다. 따라서 1차 모수는 통계적으로 유의하며 모델에서 제거해서는 안 됩니다. 따라서 1차 자기회귀 모델은 다른 것보다 원본 데이터를 더 잘 근사합니다. 견적 사용 0 = 18,261, 1= 1.024이고 작년의 시계열 값 - Y 20 = 1 371.88, 우리는 회사의 실질 소득 Wm의 값을 예측할 수 있습니다. 리글리 주니어 2002년 회사:

적절한 예측 모델 선택

시계열 값을 예측하는 6가지 방법은 위에서 설명했습니다. 선형, 2차 및 지수 추세 모델과 1차, 2차 및 3차의 자기회귀 모델입니다. 최적의 모델이 있습니까? 설명된 6가지 모델 중 시계열 값을 예측하는 데 사용해야 하는 모델은 무엇입니까? 다음은 적절한 예측 모델을 선택하는 데 지침이 되는 네 가지 원칙입니다. 이러한 원칙은 모델 정확도의 추정치를 기반으로 합니다. 시계열의 값은 이전 값을 연구하여 예측할 수 있다고 가정합니다.

예측을 위한 모델 선택 원칙:

  • 잔류 분석을 수행합니다.
  • 차이 제곱을 사용하여 잔차 오차의 크기를 추정합니다.
  • 절대차를 사용하여 잔차 오차의 크기를 추정합니다.
  • 경제 원칙을 따르십시오.

잔류물 분석.잔차는 예측값과 관측값의 차이임을 기억하십시오. 시계열에 대한 모델을 구축한 후에는 각각에 대한 잔차를 계산해야 합니다. N간격. 그림과 같이. 19, 패널 A에서 모델이 적절하면 잔차는 시계열의 임의 구성 요소이므로 불규칙하게 분포됩니다. 반면에 나머지 패널에서 볼 수 있듯이 모델이 적절하지 않은 경우 잔차는 추세(패널 B) 또는 주기적(패널 C)을 고려하지 않는 체계적인 종속성을 가질 수 있습니다. 또는 계절 성분(패널 D).

쌀. 19. 잔류물 분석

절대 오차 및 제곱 평균 제곱근 오차 측정.잔차 분석으로 유일한 적절한 모델을 결정할 수 없는 경우 잔차 오차의 크기 추정을 기반으로 하는 다른 방법을 사용할 수 있습니다. 불행히도 통계학자들은 예측에 사용된 모델의 잔여 오차에 대한 최상의 추정치에 대한 합의에 도달하지 못했습니다. 최소 제곱 원리에 따라 먼저 회귀 분석을 수행하고 추정치의 표준 오차를 계산할 수 있습니다. SXY. 특정 모델을 분석할 때 이 값은 시계열의 실제 값과 예측 값의 차이 제곱의 합입니다. 모델이 이전 시점의 시계열 값에 완벽하게 근접하면 추정값의 표준 오차는 0입니다. 반면 모델이 이전 시점의 시계열 값을 잘 근사하지 못하면 추정치의 표준오차가 크다. 따라서 여러 모델의 적합성을 분석하여 추정치 S XY 의 최소 표준 오차를 갖는 모델을 선택할 수 있습니다.

이 접근 방식의 주요 단점은 개별 값을 예측할 때 오류가 과장된다는 것입니다. 즉, 값 사이의 큰 차이 와이그리고 Ŷ 제곱 오차의 합을 계산할 때 SSE는 제곱됩니다. 증가합니다. 이러한 이유로 많은 통계학자들은 예측 모델의 적절성을 평가하기 위해 평균 절대 편차(MAD)를 사용하는 것을 선호합니다.

특정 모델을 분석할 때 MAD 값은 시계열의 실제 값과 예측 값의 차이 모듈의 평균 값입니다. 모델이 이전 시점의 시계열 값에 완벽하게 근접하면 평균 절대 편차는 0입니다. 반면에 이러한 시계열 값에 모델이 잘 맞지 않으면 평균 절대편차가 커집니다. 따라서 여러 모델의 적합성을 분석하여 평균 절대 편차가 최소인 모델을 선택할 수 있습니다.

경제의 원리.추정치의 표준 오차 및 평균 절대 편차 분석을 통해 최적의 모델을 결정할 수 없는 경우 간결성의 원칙에 기반한 네 번째 방법을 사용할 수 있습니다. 이 원칙은 동일한 여러 모델 중에서 가장 단순한 모델을 선택해야 한다는 것입니다.

이 장에서 논의된 6개의 예측 모델 중 가장 단순한 것은 선형 및 이차 회귀 모델과 1차 자기회귀 모델입니다. 나머지 모델은 훨씬 더 복잡합니다.

네 가지 예측 방법의 비교.최적의 모델을 선택하는 과정을 설명하기 위해 회사의 실질 소득 Wm 값으로 구성된 시계열로 돌아가 보겠습니다. 리글리 주니어 회사. 선형, 2차, 지수 및 1차 자기회귀 모델의 네 가지 모델을 비교해 보겠습니다. (2차와 3차의 자기회귀 모델은 주어진 시계열의 값을 예측하는 정확도를 약간만 향상시키므로 무시할 수 있습니다.) 20은 4가지 예측 방법의 분석에서 구축된 잔차의 플롯을 보여줍니다. 분석 패키지뛰어나다. 이러한 그래프를 기반으로 결론을 내릴 때 시계열에는 20개의 포인트만 포함되므로 주의해야 합니다. 시공 방법은 엑셀 파일의 해당 시트를 참조하십시오.

쌀. 20. 다음을 사용하여 네 가지 예측 방법의 분석에서 구성된 잔차 플롯 분석 패키지뛰어나다

1차 자기회귀 모델을 제외하고 어떤 모델도 순환 성분을 고려하지 않습니다. 다른 것보다 관찰을 더 잘 근사하고 가장 덜 체계적인 구조를 특징으로 하는 것은 이 모델입니다. 따라서 4가지 방법 모두의 잔차를 분석한 결과 1차 자기회귀 모델이 가장 우수하고 선형, 2차 및 지수 모델의 정확도가 떨어지는 것으로 나타났습니다. 이를 확인하기 위해 이러한 방법의 잔류 오차를 비교하겠습니다(그림 21). 계산 방법은 Excel 파일을 열어 찾을 수 있습니다. 무화과에. 21은 실제 값입니다. 야 나(열 실수), 예측값 Ŷ , 뿐만 아니라 나머지 이자형네 가지 모델 각각에 대해. 또한 값이 표시됩니다 에스YX그리고 미친.. 네 가지 수량 모델 모두에 대해 s 에스YX그리고 미친.거의 동일합니다. 지수 모델은 상대적으로 열등한 반면 선형 및 이차 모델은 정확도가 우수합니다. 예상대로 가장 작은 값 에스YX그리고 미친. 1차 자기회귀 모델이 있습니다.

쌀. 21. 지표 S YX 및 MAD를 사용한 네 가지 예측 방법의 비교

특정 예측 모델을 선택한 후에는 시계열의 추가 변화를 주의 깊게 모니터링해야 합니다. 무엇보다도 이러한 모델은 미래의 시계열 값을 정확하게 예측하기 위해 생성됩니다. 불행히도 이러한 예측 모델은 시계열 구조의 변화를 고려하지 않습니다. 잔차 오차뿐만 아니라 다른 모델을 사용하여 얻은 시계열의 미래 값 예측 정확도도 비교가 절대적으로 필요합니다. 새로운 가치를 측정함으로써 와이관찰된 시간 간격에서 예측된 값과 즉시 비교되어야 합니다. 차이가 너무 크면 예측 모델을 수정해야 합니다.

시간 예측 에스계절 데이터를 기반으로 하는 x 시리즈

지금까지 연간 데이터로 구성된 시계열에 대해 알아보았습니다. 그러나 많은 시계열은 분기별, 월별, 주별, 일별, 심지어 시간별로 측정된 수량으로 구성됩니다. 그림과 같이. 2, 데이터를 월별 또는 분기별로 측정하는 경우 계절적 요소를 고려해야 합니다. 이 섹션에서는 이러한 시계열의 값을 예측하는 방법을 고려할 것입니다.

장의 시작 부분에 설명된 시나리오에서 Wal-Mart Stores, Inc.가 언급되었습니다. 회사의 시가 총액은 2,290억 달러이며 주식은 WMT라는 약어로 뉴욕 증권 거래소에 상장되어 있습니다. 회사의 회계 연도는 1월 31일에 끝나므로 2002년 4분기에는 2001년 11월과 12월, 2002년 1월이 포함됩니다. 회사의 분기별 수익의 시계열은 그림 1에 나와 있습니다. 22.

쌀. 22. Wal-Mart Stores, Inc. 분기별 실적. (백만 달러)

이와 같은 분기별 시리즈의 경우 추세, 순환 및 랜덤 구성 요소 외에도 고전적인 승법 모델에는 계절 구성 요소가 포함됩니다. 야 나 = * * * 나는 내가

월간 및 임시 예측 에스최소 제곱법을 사용하여 x개의 행.계절 성분을 포함하는 회귀 모델은 결합된 접근 방식을 기반으로 합니다. 앞에서 설명한 최소 자승법을 사용하여 추세를 계산하고 범주형 변수를 사용하여 계절 성분을 설명합니다(자세한 내용은 섹션 참조 더미변수 회귀모형과 상호작용 효과). 지수 모델은 계절 성분을 고려하여 시계열을 근사화하는 데 사용됩니다. 분기별 시계열을 근사하는 모델에서 4분기를 설명하기 위해 3개의 더미 변수가 필요했습니다. Q1, 2분기그리고 질문 3, 그리고 월별 시계열 모델에서는 11개의 더미 변수를 사용하여 12개월을 표시합니다. 이 모델은 로그 변수를 응답으로 사용하기 때문에 야 나, 하지만 야 나, 실제 회귀 계수를 계산하려면 역변환을 수행해야 합니다.

분기별 시계열을 근사하는 모델을 구축하는 과정을 설명하기 위해 Wal-Mart의 수익으로 돌아가 보겠습니다. 다음을 사용하여 구한 지수 모델 매개변수 분석 패키지 Excel은 그림에 나와 있습니다. 23.

쌀. 23. Wal-Mart Stores, Inc.의 분기별 수익 회귀 분석

지수 모델이 원본 데이터에 매우 잘 근사함을 알 수 있습니다. 혼합 상관 계수 아르 자형 2 99.4%(셀 J5)와 동일, 혼합 상관 계수 조정 - 99.3%(셀 J6), 테스트 에프-통계 - 1,333.51(셀 M12) 및 아르 자형-값은 0.0000입니다. α = 0.05의 유의 수준에서 고전적인 승법 시계열 모델의 각 회귀 계수는 통계적으로 유의합니다. 강화 작업을 적용하여 다음 매개변수를 얻습니다.

승산 다음과 같이 해석됩니다.

회귀 계수 사용 , 특정 분기에 회사에서 발생한 수익을 예측할 수 있습니다. 예를 들어, 2002년 4분기 회사의 수익을 예측해 보겠습니다( 엑스 = 35):

로그= 0 + 1 엑스 = 4,265 + 0,016*35 = 4,825

= 10 4,825 = 66 834

따라서 2002년 4분기 예측에 따르면 회사는 670억 달러에 달하는 수입을 얻었어야 했습니다(100만 달러의 정확도로 예측할 필요는 거의 없음). 2003년 1분기와 같이 시계열 외부의 기간으로 예측을 확장하려면( 엑스 = 36, Q1= 1), 다음 계산을 수행해야 합니다.

통나무 = b 0 + 나 1엑스 + b 2 Q 1 = 4,265 + 0,016*36 – 0,093*1 = 4,748

10 4,748 = 55 976

지수

지수는 경제 상황이나 기업 활동의 변화에 ​​대응하는 지표로 사용됩니다. 특히 가격지표, 양적지표, 가치지표, 사회학적 지표 등 다양한 지표가 존재한다. 이 섹션에서는 물가 지수만 고려할 것입니다. 색인- 일부의 가치 경제 지표(또는 지표 그룹) 특정 시점의 기준 시점 값의 백분율로 표시됩니다.

물가 지수.단순 물가 지수는 과거의 특정 시점에서 해당 상품(또는 상품 그룹)의 가격과 비교하여 주어진 기간 동안 상품(또는 상품 그룹) 가격의 백분율 변화를 반영합니다. 가격 지수를 계산할 때 우선 기본 시간 간격, 즉 비교할 과거의 시간 간격을 선택해야 합니다. 특정 지수에 대한 기준 기간을 선택할 때 경기 확장 또는 침체 기간보다 경제적 안정 기간을 선호합니다. 또한, 기준 기간은 기술 및 소비 습관의 변화에 ​​따라 비교 결과가 너무 크게 영향을 받지 않도록 시간상 너무 멀어서는 안 됩니다. 가격 지수는 다음 공식으로 계산됩니다.

어디 나는 내가- 가격 지수 년도, 아르 자형- 가격 년도, P 베이스- 기준 연도의 가격.

가격 지수 - 기준 시점의 제품 가격과 관련하여 주어진 기간 동안 제품(또는 제품 그룹) 가격의 백분율 변화. 예를 들어, 1980년부터 2002년까지 미국의 무연 휘발유 가격 지수를 고려하십시오(그림 24). 예를 들어:

쌀. 24. 갤런당 무연 휘발유 가격 및 미국 단순 물가 지수 1980~2002년(기준 연도 1980 및 1995)

따라서 2002년 미국의 무연 휘발유 가격은 1980년에 비해 4.8% 상승하였다. 24는 1981년과 1982년의 물가지수를 보여준다. 1980년에는 물가지수 이상이었다가 2000년까지 기준선을 넘지 않았다. 1980년이 기준 기간으로 선택되었으므로 더 가까운 연도(예: 1995년)를 선택하는 것이 합리적일 것입니다. 새로운 기준 기간과 관련하여 지수를 다시 계산하는 공식은 다음과 같습니다.

어디 새로운- 새로운 물가 지수, 낡은- 오래된 물가 지수, 새로운 base - 이전 기준 연도에 대해 계산할 때 새 기준 연도의 물가 지수 값입니다.

1995년이 새로운 기반으로 선택되었다고 가정해 봅시다. 공식 (10)을 사용하여 2002년의 새로운 물가 지수를 얻습니다.

따라서 2002년에 미국의 무연 휘발유 가격은 1995년보다 13.9% 더 비쌌습니다.

가중되지 않은 종합 가격 지수.개별 제품에 대한 물가 지수는 의심할 여지 없이 중요하지만 더 중요한 것은 많은 소비자의 비용과 생활 수준을 평가할 수 있는 제품 그룹에 대한 가격 지수입니다. 공식 (11)로 정의된 가중되지 않은 종합 가격 지수는 각 개별 유형의 상품에 동일한 가중치를 할당합니다. 종합 물가 지수는 기준 시점에서 해당 상품 그룹의 가격과 비교하여 주어진 기간 동안 상품 그룹(종종 소비자 바구니라고 함) 가격의 백분율 변화를 반영합니다.

어디 - 항목 번호(1, 2, …, N), N- 고려 중인 그룹의 상품 수, - 각 상품의 가격 합계 N일정 기간 동안의 상품 는 각각의 가격 합계입니다. N 0 기간의 상품 - 해당 기간의 가중되지 않은 종합 지수 값 .

무화과에. 25는 1980년부터 1999년까지 3가지 과일의 평균 가격을 나타냅니다. 다른 연도의 가중되지 않은 종합 물가 지수를 계산하기 위해 기준 연도 1980을 고려하여 공식 (11)이 사용됩니다.

따라서 1999년에 사과 1파운드, 바나나 1파운드, 오렌지 1파운드의 총 가격은 1980년에 이들 과일의 총 가격보다 59.4% 높았습니다.

쌀. 25. 세 가지 과일의 가격(달러) 및 가중되지 않은 종합 물가 지수

가중되지 않은 종합 가격 지수는 시간 경과에 따른 전체 상품 그룹의 가격 변화를 나타냅니다. 이 지수는 계산하기 쉽지만 두 가지 뚜렷한 단점이 있습니다. 첫째, 이 지수를 계산할 때 모든 종류의 재화를 동등하게 중요시하므로 고가의 재화가 지수에 불필요한 영향을 미치게 된다. 둘째, 모든 재화가 같은 비율로 소비되는 것은 아니므로 소비가 적은 재화의 가격 변동은 비가중 지수에 너무 많은 영향을 미칩니다.

가중 종합 가격 지수.가중되지 않은 가격 지수의 단점으로 인해 소비자 바구니를 구성하는 상품의 가격과 소비 수준의 차이를 고려하여 가중 가격 지수가 선호됩니다. 가중 종합 가격 지수에는 두 가지 유형이 있습니다. 라파이르 물가 지수, 공식 (12)로 정의된 는 기준 연도의 소비 수준을 사용합니다. 가중 종합 물가 지수는 소비자 바구니를 구성하는 상품의 소비 수준을 고려하여 각 제품에 특정 가중치를 할당합니다.

어디 - 기간(0, 1, 2, ...), - 항목 번호(1, 2, …, N), N 0 기간 동안 - 기간의 Lapeyre 지수 값 .

Lapeyre 지수의 계산은 그림 1에 나와 있습니다. 26; 1980년을 기준 연도로 사용합니다.

쌀. 26. 3가지 과일의 가격(달러), 수량(1인당 소비량) 및 Lapeyre 지수

따라서 1999년의 라피르 지수는 154.2입니다. 이것은 1999년에 이 세 종류의 과일이 1980년보다 54.2% 더 비쌌음을 나타냅니다. 가장 적게 소비되는 과일인 오렌지가 사과와 바나나보다 더 많이 올랐기 때문에 이 지수는 가중되지 않은 지수 159.4보다 작습니다. 즉, 가장 많이 소비되는 과일의 가격이 오렌지보다 덜 오르기 때문에 Lapeyret 지수는 비가중종합지수보다 작다.

파슈 물가 지수기준 기간이 아닌 현재 기간의 제품 소비 수준을 사용합니다. 따라서 Paasche 지수는 주어진 시점에서 재화를 소비하는 총 비용을보다 정확하게 반영합니다. 그러나 이 지수에는 두 가지 중요한 단점이 있습니다. 첫째, 일반적으로 현재 소비 수준을 결정하기 어렵습니다. 이러한 이유로 많은 인기있는 지수는 Paasche 지수보다 Lapeyret 지수를 사용합니다. 둘째, 소비자 바구니에 있는 특정 재화의 가격이 급격히 상승하면 소비자는 취향의 변화가 아니라 필요에 따라 소비를 줄입니다. Paasche 지수는 다음 공식으로 계산됩니다.

어디 - 기간(0, 1, 2, ...), - 항목 번호(1, 2, …, N), N- 고려중인 그룹의 상품 수 - 상품 단위 수 0 기간 동안 - 기간의 Paasche 지수 값 .

Paasche 지수의 계산은 그림 1에 나와 있습니다. 27; 1980년을 기준 연도로 사용합니다.

쌀. 27. 3가지 과일의 가격(달러), 수량(1인당 소비량), 파슈지수

따라서 1999년의 Paasche 지수는 147.0입니다. 이것은 1999년에 이 세 종류의 과일이 1980년보다 47.0% 더 비쌌음을 나타냅니다.

일부 인기 있는 가격 지수.비즈니스 및 경제 분야에서 여러 가격 지수가 사용됩니다. 가장 인기 있는 것은 소비자 물가 지수(CPI)입니다. 공식적으로는 이 지수를 CPI-U라고 부르지만, 일반적으로 단순히 CPI라고 하지만 도시(도시)에 대해 계산됨을 강조합니다. 이 지수는 미국 노동 통계국에서 미국 생활비를 측정하기 위한 주요 도구로 매월 발표합니다. 소비자 물가 지수는 합성이며 Lapeyre 가중입니다. 가장 널리 소비되는 400개 제품, 의류, 운송, 의료 및 유틸리티의 가격을 사용하여 계산됩니다. 현재 이 지수를 계산할 때 1982년부터 1984년까지의 기간을 기준기간으로 사용하고 있다. (그림 28). CPI 지수의 중요한 기능은 디플레이터로서의 사용입니다. CPI 지수는 각 가격에 100/CPI를 곱하여 실제 가격을 실제 가격으로 변환하는 데 사용됩니다. 계산에 따르면 지난 30년 동안 미국의 평균 연간 인플레이션율은 2.9%에 달했습니다.

쌀. 28. 소비자 지수 가격의 역학; 전체 데이터는 엑셀 파일 참조

노동 통계국에서 발표한 또 다른 중요한 물가 지수는 생산자 물가 지수(PPI)입니다. PPI 지수는 Lapeyret 방법을 사용하여 생산자가 판매하는 상품의 가격 변화를 추정하는 가중 종합 지수입니다. PPI 지수는 CPI 지수의 선행 지표입니다. 즉, PPI 지수가 상승하면 CPI 지수가 상승하고, 반대로 PPI 지수가 하락하면 CPI 지수가 하락합니다. 다우존스 산업 평균(DJIA), S&P 500, 나스닥과 같은 금융 지수는 미국 주식 가치의 변화를 측정하는 데 사용됩니다. 많은 지수를 통해 국제 기업의 수익성을 평가할 수 있습니다. 주식 시장. 이 지수에는 일본의 Nikkei, 독일의 Dax 30, 중국의 SSE Composite가 포함됩니다.

시간 분석과 관련된 함정 에스 x 행

과거와 현재에 대한 정보를 사용하여 미래를 예측하는 방법론의 중요성은 200여 년 전에 정치가인 Patrick Henry에 의해 웅변적으로 설명되었습니다. 과거에 대한 지식만이 미래를 판단할 수 있습니다.

시계열 분석은 과거에 비즈니스 활동에 영향을 미치고 현재에 영향을 미친 요인이 앞으로도 계속 작용할 것이라는 가정에 기반합니다. 사실이라면 시계열 분석은 효과적인 예측 및 관리 도구입니다. 그러나 시계열 분석에 기반한 고전적 방법론에 대한 비평가들은 이러한 방법이 너무 순진하고 원시적이라고 주장한다. 즉, 과거에 작동했던 요소를 고려한 수학적 모델은 전문가의 판단, 비즈니스 경험, 기술 변화, 사람들의 습관 및 요구를 고려하지 않고 미래에 대한 추세를 기계적으로 외삽해서는 안됩니다. 이 상황을 수정하기 위해 최근 몇 년 동안 계량 경제학자들은 위에 나열된 요소를 고려하여 경제 활동에 대한 복잡한 컴퓨터 모델을 개발했습니다.

그러나 시계열 분석 방법은 전문가의 판단과 경험을 고려하고 다른 예측 방법과 결합하여 올바르게 적용하면 훌륭한 예측 도구(단기 및 장기 모두)입니다.

요약.노트에서는 시계열 분석을 사용하여 세 회사의 소득을 예측하는 모델을 개발했습니다. Wm. 리글리 주니어 회사, Cabot Corporation 및 월마트. 시계열의 구성 요소와 연간 시계열 예측에 대한 여러 접근 방식(이동 평균 방법, 지수 평활 방법, 선형, 2차 및 지수 모델, 자기회귀 모델)에 대해 설명합니다. 계절 성분에 해당하는 더미 변수를 포함하는 회귀 모델을 고려합니다. 월별 및 분기별 시계열 예측을 위한 최소 자승법의 적용을 보여줍니다(그림 29).

시계열 값을 비교할 때 P 자유도가 손실됩니다.

시계열 분석(TSA)은 주어진 시계열을 기반으로 결정론적 경우에 종속성을 복구하는 가장 간단한 방법입니다. 주요 작업은 시장 상황을 예측하는 가장 간단한 방법인 외삽(예측)입니다. 그 본질은 과거와 미래에 발전된 트렌드의 보급입니다.

많은 시장 프로세스에는 관성이 있으며 이는 예측에서 고려됩니다. 일정 기간 동안 시장 상황의 변화 가능성을 최대한 고려해야 합니다. 시스템은 상당히 안정적인 조건에서 진화한다고 가정합니다. 시스템이 클수록 매개변수가 변경되지 않고 오랫동안 유지되지 않을 가능성이 높아집니다. 예측 기간은 원래 시간 기반 길이의 1/3을 초과하지 않는 것이 좋습니다.

시계열 - 일정한 시간 간격으로 얻은 일련의 숫자 값 기업에서 시계열을 사용하는 주요 가정은 연구 중인 시스템의 응답에 영향을 미치는 요인, 과거, 현재 및 가까운 장래에 유사하게 행동할 것입니다.

분석의 목적은 시스템의 추가 동작을 예측하고 합리적인 SD를 개발하기 위해 요인을 평가하고 식별하는 것입니다. ATS를 기반으로 한 예측은 단기적이며 수용되는 기간과 관련하여 연구 중인 현상의 특성이 크게 변하지 않습니다. 대부분의 예측 오류는 예측이 과거 추세가 미래에도 계속된다고 가정하기 때문에 발생합니다. 이 가설은 경제 및 사회 생활에서 거의 정당화되지 않습니다.

VR은 예측을 개발하기 위한 열악한 기반이 될 수 있으므로 예측 방법과 AVR은 상당히 안정적이고 잘 연구된 프로세스의 단기 예측에 사용됩니다. 예측 기간은 원래 시간 기준의 25-30%를 초과하지 않습니다. 회귀 방정식을 사용할 때 초기 매개변수의 낙관적 및 비관적 추정을 위해 예측 계산이 수행됩니다. 여기에서 낙관적 및 비관적의 2가지 유형의 예측을 얻습니다. 예측 방법에서 얻은 예측 점수는 예측 매개 변수의 원하는 값을 나타내는 지표로 사용됩니다.

VR에는 다음이 포함됩니다.

1) 추세 - 시리즈의 일반적인 변화 유형, 장기간의 감소 및 증가를 보여줍니다.

2) 계절적 변동 - 정기적으로 발생하는 추세 주변의 변동.

일반적으로 규칙적인 변동은 최대 1년 이내에 발생합니다. 분기별, 월별, 주별 등으로 추적할 수 있습니다. 관찰.

3) 주기적 변동 - 1년에 걸쳐 발생합니다. 재무 데이터에 자주 나타나며 급격한 쇠퇴, 급속한 성장 및 침체 기간과 관련이 있습니다.


4) 무작위 변동 - 대부분의 실제 VR에서 예측할 수 없는 변동.

시계열 데이터 요구 사항

모든 예측 방법은 수학적 통계를 사용하므로 균일하고 안정적인 패턴을 나타내기 위해 모든 데이터가 비교 가능하고 충분히 제시되어야 합니다. 이러한 요구 사항 중 하나를 충족하지 못하면 수학적 통계의 사용이 의미가 없습니다.

1. 비교 가능성시계열 형성의 다른 단계에서 관찰에 대한 동일한 접근의 결과로 달성됩니다. 시계열 데이터는 동일한 측정 단위로 표현되어야 하고, 동일한 관찰 단계를 갖고, 동일한 방법론을 사용하여 동일한 시간 간격으로 계산되어야 하며, 동일한 영역에 속하고 동일한 인구와 관련된 동일한 요소를 포함해야 합니다.

데이터의 비호환성은 비용 지표에서 가장 자주 나타납니다. 이러한 지표의 값이 일정한 가격으로 고정된 경우에도 마찬가지입니다. 이러한 종류의 시계열 비호환성은 순전히 형식적인 방법으로 제거할 수 없습니다.

2. 데이터의 대표성주로 제시된 데이터의 완전성을 특징으로 합니다. 충분한 관찰 횟수는 연구의 목적에 따라 결정됩니다. 목표가 기술적인 통계 분석인 경우 선택한 시간 간격을 연구 중인 시간 간격으로 선택할 수 있습니다. 연구의 목적이 예측 모델을 구축하는 것이라면 초기 시계열의 데이터 수는 예측 기간의 3배 이상이어야 하고 데이터 7개 이상이어야 합니다. 계절성을 연구하고 계절적 과정을 예측하기 위해 분기별 또는 월별 데이터를 사용하는 경우 1개월 또는 2개월 동안의 예측이 필요하더라도 초기 시계열에는 최소 4년 동안의 분기별 또는 월별 데이터가 포함되어야 합니다.

3.일률- 비정형 변칙적 관찰의 부재 및 추세(변화)의 중단. 이상은 추정치의 편향을 초래하고 결과적으로 분석 결과의 왜곡을 초래합니다. 공식적으로 이상 현상은 강력한 점프 또는 하락으로 나타나고 이전 수준의 대략적인 회복이 뒤따릅니다. 비정상적인 관찰을 진단하기 위한 다양한 표준 기준이 개발되었습니다.

4. 지속 가능성- 이 속성은 레벨 및 시리즈의 변화에서 임의성보다 규칙성이 우세함을 반영합니다. 안정적인 시계열 차트에서는 규칙성이 시각적으로도 추적됩니다. 그리고 불안정한 시계열 차트에서는 변화가 혼란스럽게 나타납니다. 따라서 이러한 시계열에서 패턴을 검색하는 것은 의미가 없습니다.

시계열 모델

통계 연구 방법은 발달의 규칙성과 무작위성을 반영하여 시계열의 값을 여러 구성 요소의 조합으로 나타낼 수 있다는 가정을 기반으로 합니다. 특히, 가법(적응) 및 승법 모델은 단기 예측에 사용됩니다.

1. 적응형(첨가제)

Y(t) = T(t) + S(t) + F(t)

t - 시간 간격 번호

T(t) – 개발 추세(장기 추세)

S(t) - 계절 성분

Е(t) – 잔류 성분

2. 곱셈

Y(t) = T(t)*S(t)*F(t)

계절파의 진폭이 1강인 경우 가법모형을 사용하는 것이 좋습니다. 계절파의 진폭을 변경할 때 승법 모델을 사용하여 평균 수준의 추세를 일치시킵니다. 혼합형 모델이 사용되는 경우가 있는데, 보다 정확한 결과를 제공하지만 내용적으로는 제대로 해석되지 않습니다. 승법 모델의 사용은 일부 시계열에서 계절 성분의 값이 추세 값의 특정 비율을 나타내기 때문입니다. 실습에 따르면 연구 중인 프로세스의 계절적 변동이 크고 매우 안정적이지 않은 경우 승법 모델이 좋지 않은 결과를 제공합니다. 계절 구성 요소는 수준의 안정적이고 연간 변동을 특징으로 하며 분기 또는 월별 데이터로 표시되는 일부 지표에서 나타납니다.

덧셈 및 곱셈 성분이 있는 모델에서 일반적인 분석 절차는 거의 동일합니다.

할 필요가:

1) 계절 성분의 값 계산

2) 실제 값에서 계절 성분 빼기 - 이 과정을 비계절화(계절성 제거)라고 합니다.

3) 실제 값과 추세 값의 차이로 오류 계산

4) 평균 편차 또는 표준 오차의 계산

예측도 사용됩니다 성장 곡선 모델.

성장 곡선은 시계열의 분석적 정렬을 위해 설계된 수학 함수입니다.

다음 함수는 성장 곡선을 설명하는 데 사용됩니다.

2. 포물선 Y(t) = a+bt = ct 2

3. 쌍곡선 Y(t) = a + b/t

4. 파워

5. 시연

6. 대수

7. 존슨 곡선

8. 변경된 출품업체

시계열 평활화

주요 개발 추세를 식별하는 것을 시계열 평준화 또는 평활화라고 합니다. 주요 경향을 식별하는 방법은 균등화 방법입니다.

현상 전개의 일반적인 경향을 감지하는 가장 간단한 방법 중 하나는 동적 계열의 간격을 확대하는 것입니다. 발전 추세를 식별하기 위해 이동 평균 방법 또는 지수 평활 방법이 사용됩니다. 두 방법 모두 평활 매개변수 선택과 관련하여 주관적입니다. 그리고 연구원의 직관이 나타나는 매개 변수의 올바른 선택입니다.

이동 평균법– 매우 주관적이며 평활화 결과는 평활화 기간의 길이에 크게 영향을 받습니다. 짧은 기간에는 추세 구성 요소를 식별할 수 없습니다. 오랜 기간 동안 분석 간격이 끝나면 상당한 데이터 손실이 발생합니다.

차수 L의 이동 평균은 가능한 모든 시간 값에 대해 Y 함수의 인접 값에서 산술 및 산술 평균 L로 구성된 시계열입니다. L - 홀수, 3, 5.7 - 3점, 5점 및 7점.

3점 방식: 평균값은 3개의 Yi 값에서 계산되며, 하나는 과거 기간, 두 번째는 원하는 기간, 3은 미래 기간입니다. i = 1이면 과거 값이 없으면 첫 번째 점에서 평활 값을 계산하는 것이 불가능합니다. i = 2인 경우 평균 값은 산술 평균이 됩니다.

원래 구간의 마지막 지점에서도 이동평균선은 계산된 것에 대한 미래가치가 없기 때문에 계산할 수 없습니다.

지수 평활법– 이동 평균과 달리 앞으로 한 기간 동안의 미래 추세에 대한 단기 예측에 사용할 수 있습니다. 그렇기 때문에 이 방법은 이전 방법보다 분명한 이점이 있습니다.

시리즈의 모든 지점에서 평활화 값을 계산하기 위한 알고리즘은 3가지 값을 기반으로 합니다. 주어진 점에서 Yi의 관찰된 값, 시리즈의 이전 점에 대해 계산된 평활화 값, 일정하고 미리 정의된 일부 평활 계수 시리즈 전반에 걸쳐.

Fi = α*Yi +(α-1)*Fi

Yi는 시리즈 끝점의 실제 값입니다.

계열의 이전 점에 대한 평활화 값 - (alpha-1)

Alpha는 0에서 1 사이의 값을 가질 수 있지만 일반적으로 실제로는 0.2에서 0.5 사이로 제한됩니다.

홀트 방식. L t = k*Y t +(1-k)*(L t-1 -T t-1), 여기서

L t는 현재 기간에 대한 평활 값입니다.

K는 시리즈 평활 계수입니다.

Y t는 시리즈의 현재 값(예: 판매량)입니다.

L t-1 – 이전 기간에 대한 평활화 값;

T t-1 – 이전 기간의 추세 값.

테이블 뛰어나다초기 데이터는 다음과 같은 형식을 갖습니다(그림 2.33).

쌀. 2.33. 테이블 뛰어나다초기 데이터와 함께

시계열을 분석할 때 그래픽 방법이 널리 사용됩니다. 이는 시계열 및 설명적 특성을 표 형식으로 표시하는 것이 프로세스의 특성을 이해하는 것을 허용하지 않는 경우가 많고 시계열 그래프에서 특정 결론을 도출한 다음 계산을 사용하여 확인할 수 있기 때문입니다. 시리즈의 그래픽 분석은 일반적으로 추가 분석의 방향을 설정합니다.

A2:K2 셀 범위를 선택하고 다음 명령을 사용합니다. 일정끼워 넣다(그림 2.34), 그래프를 작성하십시오 (그림 2.35).


쌀. 2.34. 탭 끼워 넣다. 명령 일정

쌀. 2.35. 그래프 - 자동차 판매 역학

추세선을 삽입하기 전에 각 추세선 유형이 별도의 차트에 표시되도록 차트 복사본을 4개 더 가져옵니다. 추세선을 삽입하려면 차트 데이터 값 중 하나를 마우스 오른쪽 버튼으로 클릭하고 명령을 선택하십시오 추세선 추가, 그림과 같이. 2.36.

쌀. 2.36. 명령 추세선 추가

컨텍스트 메뉴

대화 상자에서 추세선 형식(그림 2.37) 제안된 추세선 유형이 선택되고 옵션이 활성화됩니다. 방정식을 도표로 나타내다그리고 근사 신뢰도 값을 다이어그램에 배치합니다.

쌀. 2.37. 추세선 옵션이 선택됨

결과적으로 다음 유형의 그래프를 얻습니다(그림 2.38-2.).

쌀. 2.38. 추세선 유형 - 선의

쌀. 2.39. 추세선 유형 - 대수

쌀. 2.40. 추세선 유형 - 다항식

쌀. 2.41. 추세선 유형 -

쌀. 2.42. 추세선 유형 - 지수

근사 함수로 2차 다항식(포물선)이 가장 큰 값을 가지므로 선택되었습니다. R2\u003d 0.9905, 이러한 유형의 추세는 두 단계 앞서 예측을 작성하는 데 사용됩니다(그림 2.43). 이 예에서 판매된 자동차의 수는 11주와 12주 동안 예측됩니다(그림 2.44).

쌀. 2.43. 앞으로 두 기간 동안 예측

쌀. 2.44. 앞으로 두 기간 예측

또한 예측을 작성하기 위해 내장된 통계 기능 TREND를 사용할 수 있습니다. L1:M1 셀의 범위를 각각 숫자 11과 12로 채우겠습니다.TREND 함수는 답변 배열을 제공하므로 호출하기 전에 답변 범위(이 경우 L2:M2)를 선택해야 합니다. 버튼 사용 기능 마법사, 기능 대화 상자를 호출하고 그림과 같이 인수 필드를 채웁니다. 2.45.

쌀. 2.45. 통계 기능 TREND

수식 입력이 끝나면 =TREND(B2:K2;B1:K1;L1:M1) 키 조합을 누릅니다. Ctrl+Shift+Enter.

계산 결과는 다음 그림과 같습니다. 2.46.

우리는 회사가 자동차 판매의 역학을 유지한다면 11주차에 78대의 자동차를 판매하고 12-84주차에 자동차를 판매할 것이라는 다음 예측을 받았습니다.

선형 회귀

테이블에는 두 개의 시계열이 포함되어 있습니다. 첫 번째 시계열은 분기별로 증가하는 이익을 나타냅니다. 상업 은행 (~에), 두 번째 행 - 법인에 대한 대출에 대한이 은행의 이자율 ( 엑스) 같은 기간 동안(표 3).

필수의:

1. 1요인 회귀 모델을 구축합니다.

2. 주어진 은행의 이익 추정 (사용자가 독립적으로 수락) 이자율;

3. 초기 데이터, 시뮬레이션 결과를 그래프에 표시합니다.

표 3

소스 데이터가 있는 테이블 뛰어나다다음과 같은 형태를 갖는다(그림 2.47).


쌀. 2.47. 초기 데이터가 있는 테이블

모델의 매개변수를 계산하기 위해 다음 형식의 계산 테이블을 컴파일합니다(그림 2.48).


쌀. 2.48. 계산표

수식 표시 모드의 동일한 테이블은 다음 그림과 같이 표시됩니다. 2.49.


쌀. 2.49. 모드의 계산 테이블

수식 표시

C19 및 C20 셀에 매개 변수 계산 공식을 입력했습니다. 1그리고 0(그림 2.50):

쌀. 2.50. 매개변수 계산 공식 1그리고 0

매개 변수 자체의 값은 그림 1에 나와 있습니다. 2.51.

쌀. 2.51. 매개변수 값 1그리고 0

이자율에 대한 이익 의존성의 구성된 모델은 다음과 같은 형식을 갖습니다.

30%의 이율로 이윤을 결정하기 위해서는 가치를 대입해야 합니다. 엑스결과 모델에.

다음 수식은 C22 셀에 입력됩니다(그림 2.52).

쌀. 2.52. 예측 이익 계산 공식

이익의 예측 가치는 13,000 루블입니다. (그림 2.53).

쌀. 2.53. 이익의 예측 가치

잔차 표를 계산해 봅시다(그림 2.54).


쌀. 2.54. 잔여 테이블

공식 표시 모드의 잔차 표는 다음과 같은 형식을 갖습니다(그림 2.55).


쌀. 2.55. 공식 표시 모드의 나머지 테이블

회귀선과의 편차량은 다음 공식을 사용하여 계산됩니다.

C38 셀에는 내장 수학 함수 ROOT를 사용하여 편차 값을 계산하기 위한 수식이 입력됩니다(그림 2.56).


쌀. 2.56. 내장 수학 함수 SQRT

회귀선과의 편차는 3.4401입니다(그림 2.57).

쌀. 2.57. 회귀선과의 편차량

다음 단계에서 예측 상한과 하한이 계산됩니다. 신뢰 구간을 계산하기 위해 다음 공식을 사용합니다.

,

C40 셀에 입력됩니다.

계수 고마워테이블 값입니다 – 주어진 유의 수준에서 학생 통계 그리고 관찰 횟수. 예측된 값이 신뢰 구간에 속할 확률을 90%로 설정하면( = 0.01), 자유도 수 DF= 10-1-1, 그럼 고마워=1,8595.

값 U=6.804(그림 2.58).

쌀. 2.58. 신뢰 구간 값

예측의 상한과 하한을 각각 계산하려면 다음 그림과 같이 셀 C42와 C43에 수식을 입력합니다. 2.59.

쌀. 2.59. 예측 한도 계산 공식

예측의 상한은 19.81,000 루블이고 하한은 620,000 루블입니다. (그림 2.60).

쌀. 2.60. 예측 경계 값

초기 데이터의 그래프와 시뮬레이션 결과는 그림 1에 나와 있습니다. 2.61.

쌀. 2.61. 대응 회귀 모델 플롯

SLOPE, INTERCEPTION, LINEST, STOSCH 등과 같은 내장 통계 함수를 사용하여 모델의 매개변수를 계산하는 것도 가능했습니다.

SLOPE 함수는 회귀선의 기울기를 계산합니다. 이 예에서는 매개변수입니다. 1.

INTERCEPT 함수는 매개변수를 계산합니다. 0.

LINEST 함수는 이 두 매개변수를 동시에 평가합니다. 함수를 입력하기 전에 답의 범위(2셀)를 선택해야 하며, 함수 인수를 채운 후 키 조합을 눌러야 합니다. Ctrl+Shift+Enter.

STOSHUT 함수는 표준 오차를 계산합니다. 이 예에서는 값입니다. 싸이.

입력된 인수가 있는 내장 통계 기능 SLOPE의 대화 상자가 그림 1에 나와 있습니다. 2.62.


쌀. 2.62. SLOPE 통계 기능 내장

입력된 인수가 있는 내장 통계 기능 INTERCEPT의 대화 상자는 그림 1에 나와 있습니다. 2.63.


쌀. 2.63. 내장 통계 INTERCEPT

입력된 인수가 있는 내장 통계 함수 LINEST의 대화 상자는 그림 1에 나와 있습니다. 2.64.


쌀. 2.64. 내장 통계 기능 LINEST

입력된 인수가 있는 내장 통계 기능 STOSHUKH의 대화 상자가 그림 1에 나와 있습니다. 2.65.


쌀. 2.65. 내장 통계 기능

내장 통계 기능에 대한 계산 결과는 그림 1에 나와 있습니다. 2.65.


쌀. 2.66. 내장 통계 기능에 대한 계산 결과

분석 팩의 기본 제공 도구를 사용하여 모델을 작성할 수도 있습니다. 회귀. 이렇게 하려면 탭에서 데이터팀을 선택 데이터 분석(그림 2.67).

쌀. 2.67. 탭 데이터. 명령 데이터 분석

나타나는 대화 상자에서 데이터 분석도구를 고르시 오 회귀(그림 2.68).


쌀. 2.68. 대화창 데이터 분석.

도구 회귀

대화 상자 인수 채우기 회귀, 그림 2.69와 같이.

쌀. 2.69. 도구 옵션 회귀

뛰어나다다음 테이블이 포함된 보고서 시트를 생성합니다.

회귀 통계(그림 2.70);

분산 분석(그림 2.71 - 2.72);

잔류 물 표 (그림 2.73),

또한 잔차 그래프를 작성합니다(그림 2.74).

쌀. 2.70. 회귀 통계


쌀. 2.71. 분산 분석


쌀. 2.72. 분산 분석. 계수 값


쌀. 2.73. 잔액 인출

잔차 일람표의 형식은 다음과 같습니다(그림 2.74).

쌀. 2.74. 잔여물 도표

이 작업을 수행할 때 쌍 회귀 방정식의 계수 값 1그리고 0최소 제곱법, 내장 통계 기능 사용 및 도구 사용의 세 가지 방법으로 결정되었습니다. 회귀. 각 경우에 동일한 결과가 얻어졌으며 이는 이러한 매개변수 계산의 정확성을 나타냅니다.