Sunday 13 August 2017

12 Perioden Centrerad Glidande Medelvärde


David, ja, MapReduce är avsedd att fungera på en stor mängd data. Och tanken är att i allmänhet ska kartan och minska funktionerna inte bryr sig om hur många mappers eller hur många reducerare det finns, det är bara optimering. Om du tänker noggrant på den algoritm som jag skrev upp kan du se att det spelar ingen roll vilken mappare får vilka delar av data som finns. Varje inmatningsrekord kommer att vara tillgänglig för varje reducerad operation som behöver den. ndash Joe K Sep 18 12 på 22:30 I bästa av mina förståelse är rörligt medelvärde inte snygga kartor till MapReduce-paradigmet eftersom dess beräkning väsentligen skjuter fönster över sorterade data, medan MR behandlar icke-skärmade intervall av sorterade data. Lösningen jag ser är som följer: a) Att implementera anpassad partitioner för att kunna skapa två olika partitioner i två körningar. I varje körning kommer dina reducerare att få olika dataområden och beräkna glidande medelvärde där det är lämpligt att jag ska försöka illustrera: I första omgången bör data för reduktionsmedel vara: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . här kommer du att cacluate glidande medelvärde för några Qs. I nästa körning bör dina reducerare få data som: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Och caclulate resten av glidande medelvärden. Då måste du sammanställa resultaten. Idé av anpassad partitioner att det kommer att ha två olika sätt att fungera - varje gång dela i lika stora områden men med lite skift. I en pseudokod kommer det att se ut så här. partition (keySHIFT) (MAXKEYnumOfPartitions) där: SHIFT kommer att tas från konfigurationen. MAXKEY maximalt värde för nyckeln. Jag antar för enkelhet att de börjar med noll. RecordReader, IMHO är inte en lösning eftersom den är begränsad till specifik delning och kan inte glida över splitsgränsen. En annan lösning skulle vara att implementera anpassad logik för att dela in data (det är en del av InputFormat). Det kan göras att göra 2 olika bilder, liknar partitionering. svarade 17 september 12 kl 8:59 När du beräknar ett löpande rörligt medelvärde, är det genomsnittligt att placera medelvärdet under mellantidet. I det föregående exemplet beräknade vi genomsnittet av de första 3 tidsperioderna och placerade det bredvid period 3. Vi kunde ha placerat genomsnittet mitt i tidsintervallet för tre perioder, det vill säga intill period 2. Detta fungerar bra med udda tidsperioder, men inte så bra för jämn tid. Så vart skulle vi placera det första glidande medlet när M 4 Tekniskt sett skulle det rörliga genomsnittet falla vid t 2.5, 3.5. För att undvika detta problem släpper vi MAs med M 2. Således släpper vi de släta värdena Om vi ​​i genomsnitt ett jämnt antal termer behöver vi släta de jämnda värdena Följande tabell visar resultaten med M 4.6.2 Flytta genomsnittsvärden ma 40 elecsales , order 5 41 I den andra kolumnen i denna tabell visas ett glidande medelvärde av order 5, vilket ger en uppskattning av trendcykeln. Det första värdet i denna kolumn är medeltalet av de första fem observationerna (1989-1993) det andra värdet i 5-MA kolumnen är medelvärdet av värdena 1990-1994 och så vidare. Varje värde i 5-MA kolumnen är genomsnittet av observationerna under femårsperioden centrerad på motsvarande år. Det finns inga värden för de två första åren eller de senaste två åren eftersom vi inte har två observationer på vardera sidan. I ovanstående formel innehåller kolumn 5-MA värden på hatt med k2. För att se hur trendcykeluppskattningen ser ut, kartlägger vi den tillsammans med de ursprungliga uppgifterna i Figur 6.7. plot 40 elecsales, huvudsakliga quotResidential electricity salesquot, ylab quotGWhquot. xlab quotYearquot 41 linjer 40 ma 40 elecsales, 5 41. col quotredquot 41 Lägg märke till hur trenden (i rött) är mjukare än originaldata och fångar huvudrörelsen för tidsserierna utan alla mindre svängningar. Den rörliga genomsnittsmetoden tillåter inte uppskattningar av T där t ligger nära seriens ändar. Därför sträcker den röda linjen inte ut mot kanterna på grafen på båda sidor. Senare kommer vi att använda mer sofistikerade metoder för trendcykeluppskattning som tillåter uppskattningar nära slutpunkterna. Ordningen för glidande medel bestämmer jämnheten i trendcykeluppskattningen. I allmänhet betyder en större ordning en mjukare kurva. Följande diagram visar effekten av att ändra ordningen för glidande medelvärdet för elförsäljningsdata för bostäder. Enkla glidande medelvärden som dessa är vanligen oddliga ordningar (t ex 3, 5, 7 osv.) Det här är så att de är symmetriska: I ett glidande medelvärde av ordningen m2k1 finns k tidigare observationer, k senare observationer och mittenobservationen som är genomsnittliga. Men om m var jämn, skulle det inte längre vara symmetrisk. Flytta medelvärden för glidande medelvärden Det är möjligt att använda ett glidande medelvärde till ett glidande medelvärde. En orsak till att göra detta är att skapa en jämn ordning som rör sig i genomsnitt symmetrisk. Till exempel kan vi ta ett glidande medelvärde av order 4 och sedan tillämpa ett annat glidande medelvärde av order 2 till resultaten. I tabell 6.2 har detta gjorts under de första åren av australiensiska kvartalsvisa ölproduktionsdata. beer2 lt - window 40 ausbeer start 1992 41 ma4 lt 40 beer2, order 4. center FALSE 41 ma2x4 lt 40 beer2, order 4. center TRUE 41 Notationen 2times4-MA i den sista kolumnen betyder en 4-MA följt av en 2-MA. Värdena i den sista kolumnen erhålls genom att ta ett glidande medelvärde av ordning 2 av värdena i föregående kolumn. De första två värdena i 4-MA-kolumnen är exempelvis 451,2 (443410420532) 4 och 448,8 (410420532433) 4. Det första värdet i kolumnen 2times4-MA är medelvärdet av dessa två: 450,0 (451.2448.8) 2. När en 2-MA följer ett glidande medelvärde av jämn ordning (till exempel 4) kallas det ett centrerat glidande medelvärde av ordning 4. Detta beror på att resultaten nu är symmetriska. För att se att så är fallet kan vi skriva 2times4-MA enligt följande: starta huvuden från Bigfrac (y y y y) frac (y y y y) Stor förstärkare frac14y frac14y frac14y frac18y. slutet Det är nu ett vägt genomsnitt av observationer, men det är symmetriskt. Andra kombinationer av glidande medelvärden är också möjliga. Till exempel används en 3times3-MA ofta och består av ett glidande medelvärde av order 3 följt av ett annat glidande medelvärde av order 3. I allmänhet bör en jämn order MA följas av en jämn order MA för att göra den symmetrisk. På liknande sätt bör en udda order MA följas av en udda order MA. Beräkning av trendcykeln med säsongsdata Den vanligaste användningen av centrerade glidmedel är att uppskatta trendcykeln från säsongsdata. Tänk på 2times4-MA: hat frac y frac14y frac14y frac14y frac18y. När de tillämpas på kvartalsdata får varje kvartal av året lika stor vikt som de första och sista villkoren gäller för samma kvartal i följande år. Följaktligen blir säsongsvariationen genomsnittlig och de resulterande värdena på hatt t kommer att ha liten eller ingen säsongsvariation kvar. En liknande effekt skulle erhållas med användning av en 2 x 8-MA eller 2 x 12-MA. I allmänhet motsvarar en 2-timmars m-MA ett vägat glidande medelvärde av ordning m1 med alla observationer som tar 1m med undantag för de första och sista termerna som tar vikter 1 (2m). Så om säsongsperioden är jämn och i ordning m, använd en 2-timmars m-MA för att uppskatta trendcykeln. Om säsongsperioden är udda och av ordning m, använd en m-MA för att uppskatta trendcykeln. I synnerhet kan en 2times 12-MA användas för att uppskatta trendcykeln för månadsdata och en 7-MA kan användas för att uppskatta trendcykeln för dagliga data. Andra val för MA-ordern kommer vanligen att resultera i att trendcykeluppskattningar är förorenade av säsongsmässigheten i data. Exempel 6.2 Tillverkning av elektrisk utrustning Figur 6.9 visar en 2times12-MA applicerad på det elektriska apparatets orderindex. Observera att den släta linjen inte visar någon säsongsmässighet är nästan lika med trendcykeln som visas i Figur 6.2, som uppskattades med en mycket mer sofistikerad metod än glidande medelvärden. Något annat val för ordningen för glidande medelvärde (förutom 24, 36 etc.) skulle ha resulterat i en jämn linje som visar vissa säsongsvariationer. plot 40 elecequip, ylab quotNew orders indexquot. kol quotgrayquot, huvudkvotproduktionstillverkning (euroområdet) cv 41 linjer 40 ma 40 elecequip, order 12 41. col quotredquot 41 Vägt glidmedelvärde Kombinationer av glidande medelvärden resulterar i viktade glidmedelvärden. Exempelvis motsvarar 2x4-MA diskuterade ovan en vägd 5-MA med vikter ges av frac, frac, frac, frac, frac. I allmänhet kan en vägd m-MA skrivas som hat t sum k aj y, där k (m-1) 2 och vikterna ges med a, prickar, ak. Det är viktigt att vikterna alla summerar till en och att de är symmetriska så att aj a. Den enkla m-MA är ett speciellt fall där alla vikter är lika med 1m. En stor fördel med vägda glidmedel är att de ger en jämnare uppskattning av trendcykeln. I stället för observationer som går in i och lämnar beräkningen vid full vikt, ökas deras vikter långsamt och sakta sakta minskar vilket resulterar i en jämnare kurva. Vissa specifika uppsättningar vikter används i stor utsträckning. Några av dessa finns i tabell 6.3. Allt har lurat för en stund att suga upp information, men har stött på någonting. Jag är inte säker på. hoppas någon kan hjälpa Jag skapar ett prognosverktyg för försäljning i Excel. Jag vill jämföra ett 12, 6 och 4 månaders centrerat glidande medelvärde. Jag behöver bara lite hjälp när det gäller att lägga ut formeln och var den ska placeras. Ive utförde en BUNCH av andra beräkningar i min faktiska fil. Alla dessa är beroende av CMA-placering på grund av referenser, och så skulle jag gärna ha hjälp för att se till att mina formuleringar finns på rätt ställen (period 6 eller 7. 12 eller 11 etc). Det är lite svårt för mig att quotvisualizequot där de behöver vara på ett kalkylblad - Ive sett exempel där människor skapar en quotpd x.5quot cell, men om möjligt, gillar jag att undvika det. Exempel data bifogad. Datumen är korrekta (Rätt start och slut på månad), med juni är den första månaden som jag tycker om att prognostisera. De faktiska värdena slumpmässigt genererades amp inklämd. Ignorera t, månadskod och år - de är där för andra funktioner för att de-trend deseasonalize data och sätta dem tillbaka tillsammans senare i prognosen som Ive gjort redan i min aktuell fil - den andra beräknar jag tidigare nämnde som bygger på CMA Exempelfil: 12mCMA. xlsx Känn dig fri att redigera den som du vill. Lägga till kommentarer till filen skulle uppskattas, så jag kan lära sig aktuell fil tillgänglig på begäran om det behövs. Också bonuspoäng och en stor tacksamhet till alla som kan ge mig lite information till mig om något av följande för att göra detta till ett mer effektivt verktyg: 1) Ställa in det så att jag ständigt kan koppla in siffror till evighet och på, utan att behöva ändra min formler amp funktioner varje gång jag får nya data. 2) Sätta upp det så att jag kunde ändra mina rörelsecentrerade glidande perioder på flyg och se resultaten. Tyvärr för längden på det här inlägget ville jag bara ge så mycket information och förtydligande som möjligt att förhoppningsvis göra det lättare för alla villiga att hjälpa. Ett stort förebyggande tack till alla som kan hjälpa mig. Det är definitivt uppskattat

No comments:

Post a Comment