Moving Averages und Centered Moving Averages Ein paar Punkte über Saisonalität in einer Zeitreihe tragen wiederholen, auch wenn sie offensichtlich erscheinen. Eins ist, dass der Begriff 8220season8221 nicht unbedingt auf die vier Jahreszeiten des Jahres, die aus dem Kippen der Erde8217s Achse resultieren, verweisen. In der prädiktiven Analytik bedeutet 8220sason8221 oft genau, dass, weil viele der Phänomene, die wir studieren, zusammen mit dem Fortschreiten des Frühlings durch den Winter variieren: Verkauf von Winter - oder Sommerausrüstung, Inzidenz von bestimmten weitverbreiteten Krankheiten, Wetterereignisse, die durch die Lage der Jet-Stream und Änderungen in der Temperatur des Wassers im östlichen Pazifischen Ozean, und so weiter. Ebenso können Ereignisse, die regelmäßig auftreten, wie meteorologische Jahreszeiten wirken, obwohl sie nur eine dünne Verbindung zu den Sonnenwenden und Äquinoktien haben. Acht-Stunden-Verschiebungen in Krankenhäusern und Fabriken oft in der Inzidenz der Einnahmen und Ausgaben für Energie ausgedrückt, eine Saison ist acht Stunden lang und die Jahreszeiten Zyklus jeden Tag, nicht jedes Jahr. Fälligkeitsdaten für Steuern signalisieren den Beginn einer Flut von Dollars in städtische, staatliche und föderale Schätze dort, die Saison könnte ein Jahr lang (persönliche Einkommensteuer), sechs Monate (Grundsteuer in vielen Staaten), vierteljährlich (viele Körperschaftssteuern ), und so weiter. Es ist ein wenig merkwürdig, dass wir das Wort 8220season8221 haben, um allgemein auf die regelmäßig wiederkehrende Zeitspanne zu verweisen, aber keinen allgemeinen Begriff für den Zeitraum, in dem eine volle Umdrehung der Jahreszeiten auftritt. 8220Cycle8221 ist möglich, aber in der Analytik und Prognose wird dieser Begriff gewöhnlich als eine Periode unbestimmter Länge, wie z. B. eines Konjunkturzyklus, bezeichnet. In Abwesenheit eines besseren Begriffs, I8217ve verwendet 8220umgreifende Periode8221 in diesem und den folgenden Kapiteln. Das ist nur terminologisches Verstehen. Die Art und Weise, wie wir die Jahreszeiten und die Zeitspanne identifizieren, in der die Jahreszeiten verlaufen, haben reale, wenn auch oft geringfügige Konsequenzen, wie wir ihre Auswirkungen messen. In den folgenden Abschnitten wird diskutiert, wie sich einige Analysten unterscheiden, wie sie die Bewegungsdurchschnitte berechnen, je nachdem, ob die Jahreszahl ungerade oder gerade ist. Mit Moving Averages anstelle von einfachen Mitteln Angenommen, dass eine große Stadt erwägt die Umverteilung ihrer Verkehrspolizei, um besser auf die Inzidenz des Fahrens, während behindert, die die Stadt glaubt erhöht hat. Vor vier Wochen trat eine neue Gesetzgebung in Kraft, die den Besitz und die Erholung von Marihuana legalisierte. Seither scheint die tägliche Anzahl von Verkehrsverhaftungen für DWI zu steigen. Kompliziert ist die Tatsache, dass die Zahl der Verhaftungen an Freitagen und Samstagen zu spitzen scheint. Um zu helfen, Plan für Arbeitskraftanforderungen in die Zukunft, you8217d zu prognostizieren irgendeine zugrunde liegende Tendenz, die gegründet wird. You8217d auch gerne Zeit der Bereitstellung Ihrer Ressourcen zu berücksichtigen, jede Wochenende im Zusammenhang mit Saisonalität that8217s statt. Abbildung 5.9 enthält die relevanten Daten, mit denen Sie arbeiten müssen. Abbildung 5.9 Mit diesem Datensatz bildet jeder Wochentag eine Saison. Sogar durch bloßes Augapfeln der Tabelle in Abbildung 5.9. Können Sie sagen, dass der Trend der Zahl der täglichen Verhaftungen ist. You8217ll haben zu planen, um die Zahl der Verkehr Offiziere zu erweitern, und hoffen, dass die Tendenz aus bald. Weiterhin sind die Daten die Vorstellung, dass mehr Verhaftungen routinemäßig am Freitag und Samstag stattfinden, so dass Ihre Ressourcenzuweisung muss diese Spikes Adresse. Aber Sie müssen den zugrunde liegenden Trend zu quantifizieren, um festzustellen, wie viele zusätzliche Polizei müssen Sie auf zu bringen. Sie müssen auch die erwartete Größe der Wochenenden Spikes zu quantifizieren, um festzustellen, wie viele zusätzliche Polizei müssen Sie für unberechenbare Fahrer an diesen Tagen. Das Problem ist, dass, wie Sie noch don8217t wissen, wie viel von der täglichen Zunahme ist aufgrund der Trend und wie viel ist aufgrund dieser Wochenendeffekt. Sie können beginnen, indem Sie die Zeitreihe. Früher in diesem Kapitel, in 8220Simple saisonale Mittelwerte, 8221 sahen Sie ein Beispiel, wie man eine Zeitreihe zu trennen, um die saisonalen Effekte mit der Methode der einfachen Mitteln zu isolieren. In diesem Abschnitt sehen Sie, wie dies zu tun, indem Sie mit gleitenden Mittelungen8212 wahrscheinlich, die Moving-Averages-Ansatz wird häufiger in der prädiktiven Analytik als die einfache Mittel-Ansatz verwendet. Es gibt verschiedene Gründe für die größere Popularität von gleitenden Durchschnitten, unter ihnen, dass die Moving-Averages-Ansatz nicht Sie bitten, Ihre Daten in den Prozess der Quantifizierung eines Trends zu kollabieren. Daran erinnern, dass das frühere Beispiel es notwendig gemacht hat, vierteljährliche Durchschnittswerte auf Jahresdurchschnitte zu reduzieren, einen jährlichen Trend zu berechnen und dann ein Viertel des jährlichen Trends in jedem Quartal des Jahres zu verteilen. Dieser Schritt war notwendig, um den Trend von den saisonalen Auswirkungen zu entfernen. Im Gegensatz dazu ermöglicht der Moving-Averages-Ansatz, die Zeitreihen zu trennen, ohne auf diese Art von Maschinierung zurückzugreifen. Abbildung 5.10 zeigt, wie der Moving-Averages-Ansatz im vorliegenden Beispiel funktioniert. Abbildung 5.10 Der gleitende Durchschnitt im zweiten Diagramm verdeutlicht den zugrunde liegenden Trend. Abbildung 5.10 fügt eine gleitende Durchschnittsspalte und eine Spalte für bestimmte Jahreszeiten hinzu. Auf den Datensatz in Abbildung 5.9. Beide Ergänzungen bedürfen einer Diskussion. Die Spikes in Festnahmen, die am Wochenende stattfinden gibt Ihnen Grund zu der Annahme, dass you8217re Arbeit mit Jahreszeiten, die einmal pro Woche wiederholen. Beginnen Sie also, indem Sie den Durchschnitt für die Umfassungsperiode8212 erhalten, dh die ersten sieben Jahreszeiten, Montag bis Sonntag. Die Formel für den Durchschnitt in Zelle D5, dem ersten verfügbaren gleitenden Durchschnitt, ist wie folgt: Diese Formel wird kopiert und über die Zelle D29 eingefügt, so dass Sie 25 gleitende Mittelwerte auf der Grundlage von 25 Läufen von sieben aufeinander folgenden Tagen haben. Beachten Sie, dass, um sowohl die erste und die letzten Beobachtungen in der Zeitreihe zeigen, habe ich die Zeilen 10 bis 17 ausgeblendet. Sie können sie ausblenden, wenn Sie möchten, in diesem Kapitel8217s Arbeitsmappe, verfügbar von der Publisher8217s Website. Erstellen Sie eine Mehrfachauswahl sichtbarer Zeilen 9 und 18, klicken Sie mit der rechten Maustaste auf einen ihrer Zeilenüberschriften und wählen Sie im Kontextmenü die Option Einblenden aus. Wenn Sie eine worksheet8217s Zeilen ausblenden, wie I8217ve in Abbildung 5.10 durchgeführt. Werden alle Charted-Daten in den ausgeblendeten Zeilen auch im Diagramm ausgeblendet. Die X-Achsen-Etiketten identifizieren nur die Datenpunkte, die im Diagramm erscheinen. Da jeder gleitende Durchschnitt in Abbildung 5.10 sieben Tage umfasst, wird kein gleitender Durchschnitt mit den ersten drei oder letzten drei tatsächlichen Beobachtungen gepaart. Das Kopieren und Einfügen der Formel in Zelle D5 einen Tag nach Zelle D4 führt Sie aus Beobachtungen heraus8212die keine Beobachtung in Zelle C1 aufgezeichnet ist. Ähnlich ist kein gleitender Durchschnitt unterhalb der Zelle D29 aufgezeichnet. Das Kopieren und Einfügen der Formel in D29 in D30 würde eine Beobachtung in Zelle C33 erfordern, und keine Beobachtung ist für den Tag verfügbar, den die Zelle repräsentieren würde. Es wäre natürlich möglich, die Länge des gleitenden Durchschnittes auf etwa fünf statt sieben zu verkürzen. Das bedeutet, dass die gleitenden Durchschnittsformeln in Abbildung 5.10 in Zelle D4 anstelle von D5 beginnen könnten. Doch bei dieser Art von Analyse, wollen Sie die Länge der gleitenden Durchschnitt gleich der Anzahl der Jahreszeiten: sieben Tage in der Woche für Ereignisse, die wöchentlich wiederkehren, impliziert einen gleitenden Durchschnitt der Länge sieben und vier Quartalen in einem Jahr für Veranstaltungen, die Recur jährlich impliziert einen gleitenden Durchschnitt der Länge vier. In ähnlicher Weise analysieren wir saisonale Effekte in der Regel so, dass sie innerhalb der umschreibenden Zeitspanne auf Null gehen. Wie Sie in diesem ersten Kapitel, auf einfachen Durchschnittswerten, gesehen haben, geschieht dies, indem man den Durchschnitt der vier Quartale eines Jahres berechnet und dann den Mittelwert für das Jahr von jeder vierteljährlichen Zahl subtrahiert. So wird sichergestellt, dass die Summe der saisonalen Effekte null ist. Im Gegenzug, dass8217s nützlich, weil es die saisonalen Auswirkungen auf eine gemeinsame footing8212a Sommereffekt von 11 ist so weit von der Mittelwert als Winter-Effekt von 821111.Wenn Sie wollen, um durchschnittlich fünf Jahreszeiten anstelle von sieben, um Ihre gleitenden Durchschnitt, you8217re besser Ein Phänomen zu finden, das sich alle fünf Jahreszeiten wiederholt, anstatt alle sieben. Allerdings, wenn Sie den Durchschnitt der saisonalen Effekte später in den Prozess zu nehmen, sind diese Mittelwerte wahrscheinlich nicht auf Null summieren. Es ist notwendig, an diesem Punkt zu kalibrieren oder zu normalisieren. Die Mittelwerte, so daß ihre Summe Null ist. Wenn that8217s getan, die durchschnittlichen saisonalen Mittel drücken die Wirkung auf eine Zeitperiode der Zugehörigkeit zu einer bestimmten Saison. Nach der Normalisierung werden die saisonalen Mittelwerte als saisonale Indizes bezeichnet, die dieses Kapitel bereits mehrfach erwähnt hat. Sie sehen, wie es später in diesem Kapitel funktioniert, in 8220Detrending der Serie mit Moving Averages.8221 Verstehen spezieller Jahreszeiten Abbildung 5.10 zeigt auch, was in der Spalte E als saisonabhängig bezeichnet wird. Sie sind nach dem Subtrahieren des gleitenden Mittelwerts von der tatsächlichen Beobachtung übrig. Um ein Gefühl dafür zu bekommen, was die spezifischen Saisonzeiten darstellen, betrachten Sie den gleitenden Durchschnitt in Zelle D5. Es ist der Mittelwert der Beobachtungen in C2: C8. Die Abweichungen der einzelnen Beobachtungen aus dem gleitenden Durchschnitt (z. B. C2 8211 D5) werden auf Null berechnet. Daher drückt jede Abweichung die Wirkung aus, die mit dem bestimmten Tag in dieser bestimmten Woche verbunden ist. It8217s eine spezifische saisonale, dann8212spezifisch, weil die Abweichung gilt für diese besondere Montag oder Dienstag und so weiter, und saisonal, weil in diesem Beispiel behandeln wir jeden Tag, als ob es eine Saison in der Umfassungszeit von einer Woche waren. Weil jede saisonale Maßnahme den Effekt des Seins in dieser Jahreszeit gegenüber dem gleitenden Durchschnitt für diese Gruppe von (hier) sieben Jahreszeiten misst, können Sie anschließend die spezifischen Saisonzeiten für eine bestimmte Jahreszeit (zB alle Freitagen in Ihrem Zeit-Serie) zu schätzen, dass Saison8217s allgemeine, anstatt spezifische, Wirkung. Dieser Durchschnitt wird nicht durch eine zugrunde liegende Tendenz in der Zeitreihe verwechselt, weil jede spezifische Saison eine Abweichung von ihrem eigenen bewegten Durchschnitt ausdrückt. Aligning the Moving Averages There8217s auch die Frage der Ausrichtung der gleitenden Mittelwerte mit dem ursprünglichen Datensatz. In Abbildung 5.10. Ich habe jeden gleitenden Durchschnitt mit dem Mittelpunkt des Bereichs der Beobachtungen ausgerichtet, die er enthält. So berechnet beispielsweise die Formel in Zelle D5 die Beobachtungen in C2: C8, und ich habe sie mit der vierten Beobachtung, dem Mittelpunkt des gemittelten Bereichs, durch Platzieren in Zeile 5 ausgerichtet. Diese Anordnung wird als zentrierter gleitender Durchschnitt bezeichnet . Und viele Analytiker bevorzugen es, jeden gleitenden Durchschnitt mit dem Mittelpunkt der Beobachtungen auszurichten, die er mittelt. Beachten Sie, dass in diesem Zusammenhang 8220midpoint8221 auf die Mitte einer Zeitspanne verweist: Donnerstag ist der Mittelpunkt von Montag bis Sonntag. Es bezieht sich nicht auf den Median der beobachteten Werte, obwohl es natürlich in der Praxis so funktionieren könnte. Ein weiterer Ansatz ist der nachlaufende gleitende Durchschnitt. In diesem Fall wird jeder gleitende Durchschnitt mit der abschließenden Beobachtung ausgerichtet, die es im Durchschnitt8212 gibt, und folglich verfolgt es hinter seinen Argumenten. Dies ist oft die bevorzugte Anordnung, wenn Sie einen gleitenden Durchschnitt als Prognose verwenden möchten, wie dies bei exponentieller Glättung der Fall ist, da Ihr endgültiger gleitender Durchschnitt mit der endgültigen verfügbaren Beobachtung zusammenfällt. Centered Moving Averages mit Even Numbers of Seasons Wir nehmen in der Regel ein spezielles Verfahren, wenn die Anzahl der Jahreszeiten ist sogar eher als ungerade. Das ist der typische Sachverhalt: In der Umfassungsperiode gibt es für die typischen Jahreszeiten, wie Monate, Quartiere und vierziger Jahre (für Wahlen), sogar Jahreszahlen. Die Schwierigkeit mit einer geraden Anzahl von Jahreszeiten ist, dass es keinen Mittelpunkt gibt. Zwei ist nicht der Mittelpunkt eines Bereichs, der bei 1 beginnt und bei 4 endet, und keiner ist 3, wenn man sagen kann, daß er einen hat, sein Mittelpunkt ist 2,5. Sechs ist nicht der Mittelpunkt von 1 bis 12, und keiner ist sein rein theoretischer Mittelpunkt ist 6,5. Um zu handeln, als ob ein Mittelpunkt existiert, müssen Sie eine Ebene der Mittelung auf den gleitenden Durchschnittswerten hinzufügen. Siehe Abbildung 5.11. Abbildung 5.11 Excel bietet mehrere Möglichkeiten, einen zentrierten gleitenden Durchschnitt zu berechnen. Die Idee hinter diesem Ansatz, einen gleitenden Durchschnitt zu erreichen, der auf einen vorhandenen Mittelpunkt zentriert ist, wenn dort8217s eine gerade Zahl Jahreszeiten ist, diesen Mittelpunkt vorwärts durch eine halbe Jahreszeit zu ziehen. Sie berechnen einen gleitenden Durchschnitt, der auf den dritten Zeitpunkt zentriert wäre, wenn fünf Jahreszeiten statt vier eine volle Umdrehung des Kalenders bilden. That8217s getan, indem sie zwei aufeinander folgende gleitende Durchschnitte und Mittelung sie. Also in Abbildung 5.11. Dort8217s ein gleitender Durchschnitt in der Zelle E6, der die Werte in D3: D9 mittelt. Weil es vier saisonale Werte in D3: D9 gibt, wird der gleitende Durchschnitt in E6 als zentriert in der imaginären Jahreszeit 2,5 gedacht, einen halben Punkt hinter der ersten verfügbaren Kandidatensaison, 3. (Seasons 1 und 2 sind als Mittelpunkte nicht verfügbar Mangel an Daten zum Durchschnitt vor Saison 1.) Beachten Sie jedoch, dass der gleitende Durchschnitt in Zelle E8 die Werte in D5: D11, die zweite bis fünfte in der Zeitreihe mittelt. Dieser Mittelwert wird bei (imaginärer) Punkt 3.5 zentriert, wobei eine volle Periode vor dem Mittelwert bei 2,5 liegt. Durch Mittelung der beiden gleitenden Mittelwerte, so das Denken geht, können Sie den Mittelpunkt des ersten gleitenden Mittelwerts um einen halben Punkt von 2,5 auf 3 ziehen. Das bedeutet, was die Mittelwerte in Spalte F von 5.11 tun. Die Zelle F7 liefert den Mittelwert der sich bewegenden Mittelwerte in E6 und E8. Und der Durchschnitt in F7 ist mit dem dritten Datenpunkt in der ursprünglichen Zeitreihe, in Zelle D7, ausgerichtet, um zu betonen, dass der Durchschnitt auf dieser Jahreszeit zentriert ist. Wenn Sie die Formel in Zelle F7 sowie die sich bewegenden Mittelwerte in den Zellen E6 und E8 erweitern, sehen Sie, dass es sich dabei um einen gewichteten Mittelwert der ersten fünf Werte in der Zeitreihe handelt, wobei der erste und fünfte Wert ein Gewicht haben Von 1 und die zweiten bis vierten Werte bei einem Gewicht von 2. Das führt uns zu einer schnelleren und einfacheren Methode, einen zentrierten gleitenden Durchschnitt mit einer geraden Anzahl von Jahreszeiten zu berechnen. Noch in Abbildung 5.11. Die Gewichte werden im Bereich H3: H11 gespeichert. Diese Formel liefert den ersten zentrierten gleitenden Durchschnitt in Zelle I7: Diese Formel gibt 13,75 zurück. Der mit dem Wert identisch ist, der durch die doppelte Durchschnittsformel in Zelle F7 berechnet wird. Die Bezugnahme auf die Gewichte absolut, mit Hilfe der Dollarzeichen in H3: H11. Können Sie die Formel kopieren und so weit wie nötig einfügen, um den Rest der zentrierten gleitenden Mittelwerte zu erhalten. Detrending der Serie mit gleitenden Mitteln Wenn Sie die gleitenden Mittelwerte aus den ursprünglichen Beobachtungen subtrahiert haben, um die spezifischen Saisonzeiten zu erhalten, haben Sie den zugrunde liegenden Trend aus der Serie entfernt. Was in den spezifischen Saisons verbleibt, ist normalerweise eine stationäre, horizontale Reihe mit zwei Effekten, die dazu führen, dass die spezifischen Saisonzeiten von einer absolut geraden Linie abweichen: die saisonalen Effekte und der zufällige Fehler in den ursprünglichen Beobachtungen. Abbildung 5.12 zeigt die Ergebnisse für dieses Beispiel. Abbildung 5.12 Die spezifischen saisonalen Effekte für Freitag und Samstag bleiben in den abgebrochenen Reihen klar. Das obere Diagramm in Abbildung 5.12 zeigt die ursprünglichen täglichen Beobachtungen. Sowohl der allgemeine Aufwärtstrend als auch das saisonale Wochenende sind klar. Das untere Diagramm zeigt die spezifischen Saisonzeiten: das Ergebnis der Detrierung der ursprünglichen Serie mit einem gleitenden Durchschnittsfilter, wie bereits in 8220Untersuchung spezieller Jahreszeiten beschrieben.8221 Sie können sehen, dass die detrended Reihe jetzt praktisch horizontal ist (eine lineare Trendlinie für die spezifischen Saisonzeiten Hat einen leichten Abwärtstrend), aber die saisonalen Freitag und Samstag Spikes sind noch vorhanden. Der nächste Schritt ist, über die spezifischen Saisonzeiten hinaus zu den saisonalen Indizes zu gelangen. Siehe Abbildung 5.13. Abbildung 5.13 Die spezifischen saisonalen Effekte werden zuerst gemittelt und dann normalisiert, um die saisonalen Indizes zu erreichen. In Abbildung 5.13. Werden die spezifischen Saisons in Spalte E in der tabellarischen Form im Bereich H4: N7 neu angeordnet. Der Zweck ist einfach, um es einfacher, die saisonalen Mittelwerte berechnen. Diese Mittelwerte werden in H11: N11 gezeigt. Jedoch sind die Zahlen in H11: N11 Mittelwerte, nicht Abweichungen von einem Durchschnitt, und daher können wir erwarten, dass sie auf Null summieren. Wir müssen sie noch anpassen, damit sie Abweichungen von einem großen Mittel ausdrücken. Das große Mittel erscheint in Zelle N13 und ist der Durchschnitt der saisonalen Mittelwerte. Wir können zu den saisonalen Indizes gelangen, indem wir den großen Mittelwert in N13 von jedem der saisonalen Mittelwerte subtrahieren. Das Ergebnis liegt im Bereich H17: N17. Diese saisonalen Indizes sind nicht mehr spezifisch für einen bestimmten gleitenden Durchschnitt, wie dies bei den spezifischen Saisonzeiten in Spalte E der Fall ist. Weil sie auf der Grundlage eines Durchschnittes jeder Instanz einer gegebenen Jahreszeit den durchschnittlichen Effekt einer gegebenen Jahreszeit über die Vier Wochen in der Zeitreihe. Darüber hinaus handelt es sich hierbei um Maßnahmen einer Saison8217s8212wir, ein Tag8217s8212Effekt auf Verkehrsstöße vis-224-vis dem Durchschnitt für einen Sieben-Tage-Zeitraum. Wir können jetzt jene saisonalen Indizes verwenden, um die Serie zu deseasonalisieren. We8217ll verwenden die entsalzte Reihe, um Prognosen durch lineare Regression oder Holt8217s Methode der Glättung von Trendreihen (siehe Kapitel 4) zu erhalten. Dann fügen wir einfach die saisonalen Indizes zurück in die Prognosen zu reseasonalize sie. All dies erscheint in Abbildung 5.14. Abbildung 5.14 Nachdem Sie die saisonalen Indizes haben, sind die letzten Schlüsse, wie hier angewendet, die gleichen wie in der Methode der einfachen Mittelwerte. Die in Abbildung 5.14 dargestellten Schritte sind weitgehend dieselben wie in den Abbildungen 5.6 und 5.7. Diskutiert in den folgenden Abschnitten. Deseasonalisierung der Beobachtungen Subtrahieren Sie die saisonalen Indizes von den ursprünglichen Beobachtungen, um die Daten zu deseasonalisieren. Sie können dies tun, wie in Abbildung 5.14 gezeigt. In dem die ursprünglichen Beobachtungen und die saisonalen Indizes als zwei Listen, beginnend in der gleichen Zeile, Spalten C und F, angeordnet sind. Diese Anordnung macht es ein wenig leichter, die Berechnungen zu strukturieren. Sie können auch die Subtraktion durchführen, wie in Abbildung 5.6 gezeigt. In dem die ursprünglichen vierteljährlichen Beobachtungen (C12: F16), die vierteljährlichen Indizes (C8: F8) und die entsalzten Ergebnisse (C20: F24) tabellarisch dargestellt sind. Diese Anordnung macht es ein wenig einfacher, sich auf die saisonalen Indizes und die gealterten Quartalsschwerpunkte zu konzentrieren. Prognose aus der Deseasonalized Observations In Abbildung 5.14. Sind die entsalzten Beobachtungen in Spalte H und in Abbildung 5.7 in Spalte C aufgeführt. Unabhängig davon, ob Sie einen Regressionsansatz oder einen Glättungsansatz für die Prognose verwenden wollen, ist es am besten, die entsalzten Beobachtungen in einer einzigen Spaltenliste zu ordnen. In Abbildung 5.14. Die Prognosen sind in Spalte J. Die folgende Matrixformel wird im Bereich J2: J32 eingegeben. In diesem Kapitel habe ich darauf hingewiesen, dass Excel die Standardwerte 1 liefert, wenn Sie das Argument x-values aus den Argumenten TREND () function8217s weglassen. 2. N ist. Wobei n die Anzahl der y-Werte ist. In der gerade angegebenen Formel enthält H2: H32 31 y-Werte. Da das Argument, das normalerweise die x-Werte enthält, fehlt, liefert Excel die Standardwerte 1. 2. 31. Das sind die Werte, die wir sowieso verwenden möchten, in Spalte B, so dass die Formel wie angegeben zu TREND äquivalent ist (H2: H32, B2: B32). Und das ist die Struktur, die in D5 verwendet wird: D24 in Abbildung 5.7: Einstufige Prognose erstellen Bisher haben Sie für Prognosen der entsalzten Zeitreihen von t 1 bis t 31 in Abbildung 5.14 geplant. Und von t 1 bis t 20 in Abbildung 5.7. Diese Prognosen stellen nützliche Informationen für verschiedene Zwecke dar, einschließlich der Bewertung der Genauigkeit der Prognosen mittels einer RMSE-Analyse. Aber Ihr Hauptzweck ist die Prognose mindestens die nächste, noch unobserved Zeitraum. Um das zu erhalten, können Sie zunächst von der TREND () - oder der LINEST () - Funktion prognostizieren, wenn Sie mit Regression oder mit der exponentiellen Glättungsformel arbeiten, wenn Sie die Methode Holt8217s verwenden. Dann können Sie den zugehörigen saisonalen Index zur Regressions - oder Glättungsprognose hinzufügen, um eine Prognose zu erhalten, die sowohl den Trend als auch den saisonalen Effekt beinhaltet. In Abbildung 5.14. Erhalten Sie die Regressionsvorhersage in Zelle J33 mit dieser Formel: In dieser Formel sind die y-Werte in H2: H32 die gleichen wie in den anderen TREND () Formeln in Spalte J. So sind die (Standard-) x-Werte von 1 Durch 32. Nun aber liefern Sie einen neuen x-Wert als das dritte Argument function8217s, das Sie TREND () in Zelle B33 suchen. It8217s 32. Der nächste Wert von t. Und Excel gibt den Wert 156.3 in Zelle J33 zurück. Die Funktion TREND () in Zelle J33 sagt Excel, in der Tat, 8220 Berechnen Sie die Regressionsgleichung für die Werte in H2: H32 regressiv auf den t-Werten 1 bis 31. Wenden Sie die Regressionsgleichung auf den neuen x-Wert von 32 an und geben Sie das Ergebnis zurück.8221 Sie finden denselben Ansatz in Zelle D25 von Abbildung 5.7. Wo die Formel, um die One-Step-Ahead-Prognose ist dies: Hinzufügen der saisonalen Indizes zurück Im letzten Schritt ist es, die Prognosen durch Addition der saisonalen Indizes zu den Trend-Prognosen zu reseasonalisieren, umzukehren, was Sie haben vier Schritte zurück, wenn Sie subtrahiert Indizes aus den ursprünglichen Beobachtungen. Dies geschieht in Spalte F in Abbildung 5.7 und Spalte K in Abbildung 5.14. Don8217t vergessen, den entsprechenden saisonalen Index für die One-Step-Ahead-Prognose hinzuzufügen, wobei die Ergebnisse in Zelle F25 in Abbildung 5.7 und in Zelle K33 in Abbildung 5.14 gezeigt werden. (I8217ve schraffierte die einstufigen Zellen sowohl in Abbildung 5.7 als auch Abbildung 5.14, um die Prognosen hervorzuheben.) Sie können Diagramme von drei Darstellungen der Verkehrsstoppdaten in Abbildung 5.15 finden. Die entsalzte Reihe, die lineare Prognose der entsalzten Daten und die reseasonalisierten Prognosen. Beachten Sie, dass die Prognosen sowohl die allgemeine Tendenz der ursprünglichen Daten und seine FridaySaturday Spikes enthalten. Abbildung 5.15 Charting der Prognosen. Bei der Berechnung eines laufenden Mittelwertes ergibt sich, dass der Mittelwert der mittleren Zeitperiode sinnvoll ist. Im vorangegangenen Beispiel haben wir den Durchschnitt der ersten 3 Zeiträume berechnet und dann neben Periode 3 platziert Durchschnitt in der Mitte des Zeitintervalls von drei Perioden, das heißt, neben Periode 2. Dies funktioniert gut mit ungeraden Zeitperioden, aber nicht so gut für sogar Zeitperioden. Also wo würden wir den ersten gleitenden Durchschnitt platzieren, wenn M 4 Technisch, würde der Moving Average bei t 2,5, 3,5 fallen. Um dieses Problem zu vermeiden, glätten wir die MAs unter Verwendung von M 2. So glätten wir die geglätteten Werte Wenn wir eine gerade Anzahl von Terme mitteln, müssen wir die geglätteten Werte glätten Die folgende Tabelle zeigt die Ergebnisse mit M 4.David, Ja, MapReduce ist Um auf einer großen Datenmenge zu arbeiten. Und die Idee ist, dass im Allgemeinen die Karte und reduzieren Funktionen sollte nicht kümmern, wie viele Mapper oder wie viele Reduzierer gibt es, die nur Optimierung ist. Wenn Sie sorgfältig über den Algorithmus ich gepostet denken, können Sie sehen, dass es doesn39t Angelegenheit, welche Mapper bekommt, welche Teile der Daten. Jeder Eingabesatz ist für jede reduzierte Operation verfügbar, die es benötigt. Ndash Joe K 18. September um 22:30 Im besten Fall meines Verständnisses gleitende Durchschnitt ist nicht schön Karten MapReduce-Paradigma, da seine Berechnung im Wesentlichen Schiebefenster über sortierte Daten ist, während MR Verarbeitung von nicht geschnittenen Bereichen von sortierten Daten. Lösung, die ich sehe, ist wie folgt: a) Um benutzerdefinierte Partitionierer zu implementieren, um zwei verschiedene Partitionen in zwei Ausführungen zu machen. In jedem Lauf erhalten Ihre Reduzierer verschiedene Bereiche der Daten und berechnen gleitenden Durchschnitt, wo passend, werde ich versuchen zu illustrieren: Im ersten Lauf Daten für Reduzierer sollte: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Hier werden Sie gleitenden Durchschnitt für einige Qs cacluate. Im nächsten Lauf sollten Ihre Reduzierer Daten wie erhalten: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Und caclulate den Rest der gleitenden Durchschnitte. Dann müssen Sie Ergebnisse zu aggregieren. Idee der benutzerdefinierten Partitionierer, dass es zwei Modi der Operation haben wird - jedes Mal in gleiche Bereiche, aber mit einigen Verschiebung. In einem Pseudocode sieht es so aus. Partition (keySHIFT) (MAXKEYnumOfPartitions) Dabei gilt: SHIFT wird aus der Konfiguration übernommen. MAXKEY-Maximalwert der Taste. Ich nehme zur Vereinfachung an, dass sie mit Null beginnen. RecordReader, IMHO ist keine Lösung, da es auf bestimmte Split beschränkt ist und kann nicht über Splits Grenze gleiten. Eine weitere Lösung wäre, um benutzerdefinierte Logik der Aufteilung der Eingangsdaten (es ist Teil der InputFormat) zu implementieren. Es kann getan werden, um 2 verschiedene Folien, ähnlich wie die Partitionierung zu tun. Beantwortet Sep 17 12 at 8:59
No comments:
Post a Comment