Friday 15 September 2017

Moving Media Stata Example


Moving medie mobili medie Con set di dati convenzionali il valore medio è spesso il primo, e uno dei più utili, statistiche di riepilogo per calcolare. Quando i dati sono in forma di una serie temporale, serie significano è una misura utile, ma non riflette la natura dinamica dei dati. I valori medi calcolati su periodi di cortocircuito, sia che precede il periodo corrente o incentrate sul periodo attuale, sono spesso più utili. Poiché tali valori medi variano, o spostare, come le mosse del periodo corrente da tempo t 2, t 3. ecc sono conosciuti come le medie mobili (MAS). Una media mobile semplice è (in genere) la media non ponderata dei k valori precedenti. Una media mobile ponderata esponenzialmente è essenzialmente lo stesso come semplice media mobile, ma con contributi alla media ponderata per la loro vicinanza al tempo corrente. Perché non ce n'è uno, ma tutta una serie di medie per ogni serie in movimento, l'insieme di Mas può si essere tracciata su grafici, ha analizzato come una serie, e utilizzato nella modellazione e previsione. Una gamma di modelli può essere costruito utilizzando medie mobili, e questi sono conosciuti come modelli MA. Se tali modelli sono combinati con autoregressivo (AR) modelli modelli compositi risultanti sono noti come modelli ARMA o ARIMA (l'io è per integrato). Semplici media mobile Da una serie temporale possono essere considerate come un insieme di valori,, t 1,2,3,4, n la media di questi valori possono essere calcolati. Se assumiamo che n è abbastanza grande, e selezionare un intero k che è molto più piccolo di n. possiamo calcolare un insieme di calze blocco, o semplici medie mobili (dell'ordine k): Ogni misura rappresenta la media dei valori dei dati in un intervallo di k osservazioni. Si noti che la prima possibile MA di ordine k GT0 è che per t k. Più in generale possiamo cadere il pedice in più nelle espressioni sopra e scrivere: Questo si afferma che la media stimata al tempo t è la media semplice del valore osservato al tempo t e le precedenti fasi k -1 tempo. Se i pesi vengono applicate che diminuire il contributo di osservazioni che sono più lontani nel tempo, la media mobile si dice che sia in modo esponenziale levigata. Le medie mobili sono spesso utilizzati come forma di previsione, per cui il valore stimato di una serie al tempo t 1, S t1. è presa come MA per il periodo fino al tempo t. per esempio. oggi stima si basa su una media di precedenti valori registrati fino ad includere ieri (per i dati di tutti i giorni). Semplici medie mobili può essere visto come una forma di lisciatura. Nell'esempio illustrato di seguito, il set di dati di inquinamento atmosferico mostrato nella introduzione a questo argomento è stato aumentato da un movimento linea 7 giorni di media (MA), mostrato qui in rosso. Come si può vedere, la linea MA appiana i picchi e depressioni nei dati e può essere molto utile per identificare tendenze. L'attaccante-calcolo della formula standard significa che i primi punti k -1 di dati non hanno alcun valore MA, ma da allora in poi i calcoli estendersi al punto di dati finale della serie. PM10 valori medi al giorno, Greenwich fonte: London Air Quality Network, londonair. org. uk Uno dei motivi per il calcolo semplici medie mobili nel modo descritto è che consente valori da calcolare per tutte le fasce orarie da tempo tk fino ad oggi, e come si ottiene una nuova misurazione per il tempo t 1, il MA per il tempo t 1 può essere aggiunto al set già calcolato. Questo fornisce una semplice procedura per set di dati dinamici. Tuttavia, ci sono alcuni problemi con questo approccio. È ragionevole sostenere che il valore medio degli ultimi 3 periodi, per esempio, deve essere posizionato al tempo t -1, non il tempo t. e per un MA su un numero pari di periodi forse dovrebbe essere posizionata a metà punto tra due intervalli di tempo. Una soluzione a questo problema è quello di utilizzare i calcoli MA centrato, in cui il MA al tempo t è la media di un insieme di valori simmetrica intorno t. Nonostante i suoi evidenti meriti, questo approccio non è generalmente utilizzato perché richiede che i dati sono disponibili per gli eventi futuri, che potrebbero non essere il caso. Nei casi in cui l'analisi è interamente di una serie esistente, l'uso di centrata Mas può essere preferibile. medie mobili semplici possono essere considerati come una forma di smoothing eliminando alcune componenti ad alta frequenza di una serie temporale ed evidenziando (ma non rimozione) tendenze in modo simile alla nozione generale di filtraggio digitale. Infatti, le medie mobili sono una forma di filtro lineare. E 'possibile applicare un calcolo media mobile ad una serie già levigata, cioè l'attenuazione o il filtraggio di una serie già levigata. Ad esempio, con una media mobile di ordine 2, possiamo considerare come siano calcolate utilizzando pesi, in modo che il MA in x 2 x 0,5 1 0,5 x 2. Analogamente, il MA in x 3 0,5 x 2 x 0,5 3. Se applicare un secondo livello di finitura o di filtraggio, abbiamo 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0.25 x 1 0,5 x 2 0,25 x 3 cioè il filtraggio a 2 stadi processo (o la convoluzione) ha prodotto una simmetrica variabile ponderata media mobile, con i pesi. circonvoluzioni multipli possono produrre abbastanza complessi medie mobili ponderate, alcuni dei quali sono stati trovati di particolare utilità nei settori specializzati, come ad esempio nei calcoli di assicurazione sulla vita. Le medie mobili possono essere utilizzati per rimuovere gli effetti periodici se calcolata con la lunghezza della periodicità come noto. Ad esempio, con dati mensili variazioni stagionali spesso possono essere rimossi (se questo è l'obiettivo) si applicano con una media mobile di 12 mesi simmetrica con tutti i mesi ponderati allo stesso modo, tranne il primo e l'ultimo, che sono ponderati in base 12. Questo perché non ci sarà di 13 mesi nel modello simmetrico (ora corrente, t -. 6 mesi). Il totale è diviso per 12. Procedure simili può essere adottato alcuna periodicità ben definita. medie mobili ponderate in modo esponenziale (EWMA) con la semplice formula media mobile: tutte le osservazioni sono ugualmente ponderato. Se abbiamo chiamato questi pesi uguali, alfa t. ciascuno dei pesi k sarebbe uguale 1 k. quindi la somma dei pesi sarebbe 1, e la formula sarebbe: Abbiamo già visto che più applicazioni di questo risultato processo nei pesi diversi. Con medie mobili esponenziale ponderata il contributo al valore medio dalle osservazioni che sono più rimossi in tempo è deliberata ridotta, sottolineando in tal modo gli eventi più recenti (locali). Essenzialmente un parametro smoothing, 0LT alfa LT1, viene introdotto, e la formula rivisto per: Una versione simmetrica di questa formula sarebbe la forma: Se i pesi nel modello simmetrico vengono selezionati come i termini dei termini di espansione binomiale, (1212) 2q. che si somma a 1, e come q diventa grande, si approssimare la distribuzione normale. Questa è una forma di ponderazione kernel, con la recitazione Binominale come funzione del kernel. La convoluzione due fasi descritta nel paragrafo precedente, è proprio questa disposizione, con q 1, cedendo i pesi. In livellamento esponenziale è necessario utilizzare un insieme di pesi che somma a 1 e che riducono dimensioni geometricamente. I pesi utilizzati sono in genere di forma: Per dimostrare che questi pesi sommano a 1, prendere in considerazione l'espansione di 1 come una serie. Siamo in grado di scrivere e ampliare l'espressione tra parentesi con la formula binomiale (1- x) p. dove x (1-) e p -1, che assicura: Questo fornisce quindi una forma di ponderata media mobile della forma: Questa somma può essere scritta come una relazione di ricorrenza: il che semplifica notevolmente il calcolo, ed evita il problema che il regime ponderazione va rigorosamente infinito per i pesi sommano a 1 (per piccoli valori di alfa. questo non è tipicamente il caso). La notazione usata da diversi autori varia. Alcuni usano la lettera S per indicare che la formula è essenzialmente una variabile levigato, e scrivere: considerando che la letteratura teoria del controllo utilizza spesso Z invece di S per i valori in modo esponenziale ponderata o levigate (vedi, per esempio, Lucas e Saccucci 1990, luc1 , e il sito web del NIST per maggiori dettagli e lavorato esempi). Le formule sopra citati derivano dal lavoro di Roberts (1959, Rob1), ma Hunter (1986, HUN1) utilizza un'espressione della forma: che può essere più appropriato per l'uso in alcune procedure di controllo. Con alpha 1 la stima media è semplicemente il valore misurato (o il valore del dato precedente). Con 0,5 la stima è la media mobile semplice delle misure attuali e precedenti. In previsione modelli il valore, S t. viene spesso utilizzato come stima o un valore meteo per il periodo di tempo successivo, cioè come la stima per x al tempo t 1. Così abbiamo: Questo mostra che il valore di previsione al tempo t 1 è una combinazione della media mobile ponderata esponenzialmente precedente più un componente che rappresenta la pesata errore di predizione, epsilon. al tempo t. Assumendo una serie temporale è dato e si richiede una previsione, è richiesto un valore per alfa. Questo può essere definita sulla base dei dati esistenti, valutando la somma degli errori di previsione quadrati ottenere con diversi valori di alfa per ogni t 2,3. modificando la prima stima di essere il primo valore di dati osservati, x 1. In applicazioni di controllo il valore di alfa è importante che viene utilizzato per la determinazione dei limiti di controllo superiore e inferiore, e colpisce la tiratura media (ARL) previsto prima che questi limiti di controllo sono rotti (sotto l'ipotesi che la serie temporale rappresenta un insieme di casuale, identicamente distribuite variabili indipendenti con varianza comune). In queste circostanze la varianza della statistica di controllo: è (Lucas e Saccucci, 1990): Controllo limiti sono di solito impostati come multipli fissi di questa varianza asintotica, per esempio - 3 volte la deviazione standard. Se alfa 0,25, per esempio, ed i dati monitorati si assume di avere una distribuzione normale, N (0,1), quando nel controllo, i limiti di controllo saranno - 1.134 e il processo raggiungerà uno o altro limite in 500 passi in media. Lucas e Saccucci (1990 luc1) derivano le ARLS per una vasta gamma di valori alfa e sotto diverse ipotesi utilizzando le procedure di Markov Chain. Essi tabulare i risultati, compresa la fornitura ARLS quando la media del processo di controllo è stato spostato da un multiplo della deviazione standard. Ad esempio, con uno spostamento di 0,5 con alpha 0.25 l'ARL è inferiore a 50 fasi temporali. Gli approcci sopra descritti è noto come singolo livellamento esponenziale. le procedure sono applicate una volta alla serie tempo e poi analisi o processi di controllo vengono effettuate sul dataset lisciato risultante. Se il set di dati include una tendenza Andor componenti stagionali, a due o tre stadi di livellamento esponenziale può essere applicato come un mezzo per rimuovere (esplicitamente modellazione) questi effetti (vedi più avanti, la sezione sulle previsioni. Di seguito, e il NIST ha lavorato esempio). CHA1 Chatfield C (1975) L'analisi dei tempi della serie: teoria e pratica. Chapman and Hall, London HUN1 Hunter J S (1986) La media mobile esponenziale ponderata. J of Technology Qualità, 18, 203-210 luc1 Lucas J M, Saccucci M S (1990) esponenziale mobile ponderata sistemi basati sulla media di controllo: Proprietà e miglioramenti. Technometrics, 32 (1), 1-12 Rob1 Roberts S W (1959) controllo grafico test basati su medie mobili geometriche. Technometrics, 1, 239-250This struttura dati è abbastanza idonei allo scopo. Assumendo un id identificativo è necessario rimodellare. per esempio. Poi una media mobile è facile. Utilizzare tssmooth o semplicemente generare. per esempio. Più sul perché la struttura dei dati è del tutto inadatto: Non solo il calcolo di una media mobile hanno bisogno di un ciclo (che non prevedono necessariamente Egen), ma sarebbe la creazione di diverse nuove variabili aggiuntive. Utilizzando quelli in qualsiasi analisi successiva sarebbe da qualche parte tra scomodo e impossibile. EDIT Ill dare un loop del campione, mentre non si muove dalla mia presa di posizione che è la tecnica povera. Non vedo una ragione dietro la convenzione di denominazione per cui P1947 è un mezzo per 1943-1945 presumo questo è solo un errore di battitura. Consente di supporre che abbiamo i dati per il 1913-2012. Per mezzo di 3 anni, si perde un anno presso ogni estremità. Questo potrebbe essere scritto in modo più conciso, a scapito di una raffica di macro all'interno di macro. Utilizzando pesi disuguali è facile, come sopra. L'unica ragione per usare egen è che si pretende molto rinunciare se ci sono mancanze, che quanto sopra farà. Come una questione di completezza, si noti che è facile da gestire missings senza ricorrere a Egen. e il denominatore Se tutti i valori sono mancanti, questo si riduce a 00, o mancante. Altrimenti, se un valore è mancante, si aggiunge 0 al numeratore e al denominatore 0, che è la stessa di ignorarlo. Naturalmente il codice è tollerabile come sopra per le medie di 3 anni, ma sia per quel caso o per una media su più anni, si dovrebbe sostituire le linee sopra da un loop, che è ciò che egen does. Stata: Analisi dei dati e statistica Software Nicholas J il comando più evidente. Cox, Durham University, UK Christopher Baum, Boston college Egen, ma () e le sue limitazioni Statarsquos per calcolare medie mobili è la funzione ma () di Egen. Data un'espressione, crea una media - periodo movimento di tale espressione. Per impostazione predefinita, viene preso come 3. deve essere dispari. Tuttavia, come l'inserimento manuale indica, Egen, ma () non può essere combinata con by-variabili:. e, per questo motivo, non è applicabile ai dati panel. In ogni caso, si erge al di fuori del set di comandi appositamente scritte per le serie temporali vedi serie storiche per i dettagli. approcci alternativi per calcolare le medie per i dati panel in movimento, ci sono almeno due scelte. Entrambi dipendono l'insieme di dati essendo stato tsset in anticipo. Questo è molto vale la pena di fare: non solo è possibile risparmiare più volte specificando variabile variabile e l'ora del pannello, ma si comporta in modo Stata elegantemente dato eventuali lacune nei dati. 1. Scrivi la tua definizione utilizzando generare Uso degli operatori di serie temporali, come L. e F.. dare la definizione della media mobile come argomento di una dichiarazione di generare. Se si esegue questa operazione, si sta, naturalmente, non limitato alla altrettanto ponderate (non ponderata) centrato medie calcolate da Egen in movimento, ma (). Ad esempio, ugualmente ponderato tre periodo medie mobili sarebbe dato da alcuni pesi e possono essere facilmente specificati: È possibile, ovviamente, specificare un'espressione come log (myvar) al posto di un nome di variabile, come myvar. Un grande vantaggio di questo approccio è che Stata fa automaticamente la cosa giusta per i dati panel: ingresso e uscita valori vengono elaborati all'interno di pannelli, così come la logica impone che dovrebbero essere. Lo svantaggio più evidente è che la linea di comando può ottenere piuttosto lungo se la media mobile coinvolge diversi termini. Un altro esempio è una media mobile unilaterale basata solo su valori precedenti. Questo potrebbe essere utile per generare un'aspettativa di adattamento di quello che una variabile sarà basato esclusivamente su informazioni aggiornate: ciò che qualcuno potrebbe prevedere per l'esercizio in corso sulla base degli ultimi quattro valori, utilizzando uno schema fisso di ponderazione (un ritardo di 4 periodo potrebbe essere soprattutto comunemente usato con timeseries trimestrali.) 2. Usare Egen, filtro () da SSC utilizzare il filtro funzione di egen scritto dall'utente () dal pacchetto egenmore su SSC. In Stata 7 (aggiornato dopo il 14 novembre 2001), è possibile installare questo pacchetto dopo che aiutano punti egenmore ai dettagli del filtro (). I due esempi sopra sarebbe resa (In questo confronto la generano approccio è forse più trasparente, ma vedremo un esempio del contrario in un attimo.) I ritardi sono un numlist. conduce essendo GAL negativi: in questo caso -11 espande a -1 0 1 o portare 1, lag 0, in ritardo 1. I ficients COEF, un'altra numlist, moltiplicare i corrispondenti elementi in ritardo di sviluppo o di leader: in questo caso, tali elementi sono F1.myvar . MyVar e L1.myvar. L'effetto dell'opzione normalizzare è in scala ogni coefficiente per la somma dei coefficienti in modo che coef (1 1 1) normalizzare equivale a coefficienti di 13 13 13 e coef (1 2 1) normalizzare equivale a coefficienti di 14 12 14 . È necessario specificare non solo i ritardi, ma anche i coefficienti. Perché Egen, ma () prevede il caso altrettanto ponderata, la motivazione principale per Egen, filtro () è quello di sostenere il caso ineguale ponderata, per i quali è necessario specificare coefficienti. Si potrebbe anche dire che obbliga gli utenti di specificare coefficienti è un po 'di pressione in più su di loro per pensare a quello coefficienti che vogliono. La giustificazione principale per pesi uguali è, immaginiamo, la semplicità, ma pesi uguali avere pessime proprietà del dominio della frequenza, per citare solo una considerazione. Il terzo esempio di cui sopra potrebbe essere uno dei quali è quasi complicato come l'approccio di generare. Ci sono casi in cui Egen, filtro () fornisce una formulazione più semplice di generare. Se si desidera un filtro binomiale di nove termine, che i climatologi trovano utile, poi guarda forse meno orribile di, e più facile da ottenere rispetto, proprio come con il generare approccio, Egen, filtro () funziona correttamente con dati panel. Infatti, come già detto, esso dipende il set di dati essendo stato tsset anticipo. Un consiglio grafica Dopo aver calcolato i tuoi medie mobili, probabilmente voler guardare un grafico. Il comando tsgraph scritto dall'utente è intelligente su set di dati tsset. Installarlo in un up-to-date Stata 7 da SSC tsgraph Inst. Che dire sottoinsiemi con se nessuno dei precedenti esempi fanno uso di se restrizioni. Infatti Egen, ma () non permetterà, se da specificare. Di tanto in tanto la gente vuole usare se il calcolo medie mobili, ma il suo uso è un po 'più complicato di quanto non sia di solito. Che cosa ci si può aspettare da una media mobile calcolata con se. Cerchiamo di identificare due possibilità: l'interpretazione debole: non voglio vedere nessun risultato per le osservazioni esclusi. Forte interpretazione: io non neanche voglia di utilizzare i valori per le osservazioni esclusi. Ecco un esempio concreto. Supponiamo come conseguenza di una condizione if, osservazioni 1-42 sono inclusi ma non osservazioni 43 su. Ma la media mobile per 42 dipenderà, tra l'altro, sul valore per l'osservazione 43 se la media estende avanti e indietro ed è di lunghezza almeno 3, e sarà simile dipenderà alcune osservazioni 44 in poi in alcune circostanze. La nostra ipotesi è che la maggior parte delle persone sarebbe andare per l'interpretazione deboli, ma se questo è corretto, Egen, filtro () non supporta se uno dei due. È sempre possibile ignorare ciò che si vuole donrsquot o anche impostare valori indesiderati a mancare in seguito utilizzando sostituire. Una nota sui risultati alle estremità della serie mancante Perché medie mobili sono funzioni di ritardi e conduce, egen, MA () produce mancante in cui non esistono i ritardi e conduce, all'inizio e alla fine della serie. Un'opzione nomiss costringe il calcolo delle più brevi, medie mobili non centrati per le code. Al contrario, né generare nè Egen, filtro () lo fa, o consente, nulla di speciale per evitare risultati mancanti. Se uno dei valori necessari per il calcolo è mancante, quindi questo risultato è mancante. Spetta agli utenti di decidere se e quanto la chirurgia correttiva è necessaria per tali osservazioni, presumibilmente dopo aver guardato il set di dati e considerando ogni scienza di base che può essere esercitata.

No comments:

Post a Comment