Free Essay

No No Dikke No No

In:

Submitted By Flop
Words 11236
Pages 45
Uitreksel Statistiek

Uitreksel Statistiek 1
Hoofdstuk 1 Statistische staaltjes 2
Hoofstuk 2 .Weergave van een scoreverdeling 2 Meetniveaus 3
Hoofdstuk 3 Klassen en dichtheden 4
Hoofdstuk 4 Cumulatieve grootheden 4
Hoofdstuk 5. Centrum en spreidingsmaten 5
Hoofdstuk 6. Lineaire transformaties en vormmaten 7
Hoofdstuk 7 Samenhang tussen twee variabelen 8
Hoofdstuk 8. Correlatie 10
Hoofdstuk 9. Regressie 13
Hoofdstuk 10. Verklaarde en niet verklaarde variantie 15
Hoofdstuk 11 Tijdreeksanalyse 16
Hoofdstuk 12 Indexcijfers 18

Hoofdstuk 1 Statistische staaltjes

Bij elk onderzoek moeten we allereerst op de ordelijke wijze informatie verzamelen., deze moet relevant zijn. Het vastleggen van de categorieën met de beschrijving hoe ingedeeld moet worden heet het operationaliseren van het kenmerk. Kenmerken worden variabelen waaraan een waarde hangt, vaak aangeduid met een hoofdletter, bv X. Zo’n waarde heet een score of meetwaarde of waarnemingsuitkomst. Score’s worden vaak afgerond.
Bij dataverzameling worden vaak vele vragen gesteld die men in een datamatrix verzameld. In een stamgram kan in 1 oogopslag worden gezien hoe de scores per variabele zijn uitgevallen. Voor de stam nemen we vaak de tientallen en als blad het laatste cijfer. Vallen bladeren in dezelfde tientallen dan is het een tak. Stammen en takken worden op volgorde gesorteerd.

Nadeel van overzichtelijkheid is wel dat informatie over details verloren gaat. Om de bladeren maken we contouren, wanneer we dan de bladeren weglakken krijg je een histogram.
Een getal dat een bepaald aspect van de verdeling uitdrukt, heet een kengetal, of karakteristiek van de verdeling. Bv karakteristiek van het centrum of spreiding der scores. Maar wel over 1 aspect.

Om groepen te vergelijken kun je 2 kanten van een stamgram maken. Een model geeft een sterk vereenvoudigde werkelijke structuur. Bovendien moet altijd gekeken worden naar de geldigheid (vertegenwoordigd dit alle groepen?).

Wanneer en hoe we uit steekproefgegevens toch algemeen geldende conclusies kunnen trekken leren we in de inductieve statistiek. Vooralsnog wordt nu de statistische beschrijving van al niet door toeval verkregen data besproken: de beschrijvende statistiek.

Hoofstuk 2 .Weergave van een scoreverdeling

Weergave van een serie scores heet een scoreverdeling. Een overzicht van alle scores van een variabele breng je onder in een tabel of een plaatje. Welke voorstelling hoort bij een voorbeeld, hangt af van het soort variabele, hoeveel scores er zijn en welk doel men er mee heeft.

Enkele basisbegrippen

Onderwerpen van studie zijn objecten, maar ook wel cases, onderzoeks- of analyseeenheden. Men moet zich beperken tot kenmerken van de objecten: bv de klassengrootte, doorsnee leeftijd etc. per kenmerk deel je weer in categorieën in, bv bij persoonskenmerk sekse in man/vrouw. De onderscheiden categorien zijn de waarden van die variabele. Bij het meten van een variabele bij een object bepalen we welke waarde dat object op de variabele heeft. Die waarde heet de meetwaarde of score. Alle scores heten data en de verzameling van de scores de datamatrix. Doel van de beschrijvende statistiek is series scores overzichtelijk (bv gesorteerd) en bondig weergeven, bv in een stamgram. Weergave is dan een scoreverdeling. Het aantal keren dat een score voorkomt heeft de frequentie. Het geheel van frequenties een frequentieverdeling.

Frequentietabellen

Bij meer dan 2 categorien is het handig de frequentie te bepalen via een turftabel. In een tabel wordt duidelijk zichtbaar gemaakt hoe de scores verdeeld zijn op de variabele, veel overzichtelijker dan een datamatrix. Een uitbeelding met bv poppetjes heet een pictogram.

Relatieve frequenties

Relatieve frequenties (ook wel proporties of fracties van de meetwaarden) krijg je door de frequenties van het object te delen door het totaal aantal frequenties. Wordt een score aangegeven met proporties, dan noemen we haar ook wel een proportieverdeling. Symbolen: f = frequenties p = proportie Formule relatieve frequentie: f = pn n = totale groepsomvang

Om te kijken of een relatieve frequentie representatief is vergelijk je die met andere studies met grotere aantallen waarnemingen. Deze moeten dan overeenkomen. De groepsomvang is n, de percenteerbasis. Deze moet minimaal 50 zijn (vuistregel).

Plaatjes van frequentieverdelingen

Wanneer je een goed beeld van een frequentieverdeling wilt hebben, maak je een plaatje. Frequenties of proportiesstel je voor de oppervlakken: verschillende vormen, verschillende plaatjes.
1. Sectordiagram of cirkeldiagram bv uitgebeeld in een taartpunt.
2. Bij een reepdiagram wordt de totale frequentie voorgesteld door een reep (of koekvorm). De koek wordt overeenkomstig de frequenties in plakken gesneden.
3. Plaatsen we de plakken van een reep niet achter elkaar maar onder elkaar op onderling gelijke afstanden, dan krijgen we een staafdiagram. Voordeel boven rependiagram is dat de categorieën onderling beter vergelijkbaar zijn. Ipv staven poppetjes dan krijgen we een pictogram. Stavendiagram wordt meestal verticaal afgebeeld. Staaf- of reepbreedtes bepalen de grootte van de onderzoeksgroep.
4. Bij een continu kenmerk mogen we de staven niet los van elkaar tekenen. We gebruiken dat een histogram of kolommendiagram. Dit suggereert nl dat er tussen de staven geen waarden mogelijk zijn. De staven worden dan tegen elkaar aangeplakt. Bij een discreet kenmerk als waarden bv alleen 2 en 3 kennen is een staafdiagram beter. Bij bv windkracht kan alles tussen 2 en 3 liggen en dan is een histogram beter. De frequentie is de hoogte of beter de oppervlakte van de kolom.

Scoreverdeling met losse scores

Bij een reeks van allemaal verschillende scores kunnen we toch een frequentieverdeling krijgen als we de scores verdelen in een beperkt aantal klassen. Wanneer alle scores apart voorkomen gebruiken we het stamgram (eerder behandeld) of puntendiagram. Met maar een paar verschillende stamwaarden biedt dit weinig inzicht.
Bij een puntendiagram zet je de scores uit op een lijn. Nadeel van een eendimensionaal puntendiagram is dat je dezelfde scores niet meer ziet (is dan maar 1 punt). Dan gebruik je een puntenband waar de afzonderlijke en soms dezelfde scores boven of onder elkaar worden gezet, dus geen overlap. Dit laat zien waar hoge concentraties voorkomen. Ook of er uitschieters zijn. Om groepen te vergelijken kun je een meervoudige puntenband maken. Nadeel si dat alleen grote verschillen opvallen. Dan kun je beter ene repesteel maken, repen met aan beide zijden een steel. Nadeel is dat de groepsomvang er niet uit af te lezen is. Sterk punt is dat er heel goed veel verdelingen mee vergeleken kunnen worden.

Variabelen en hun meting

Welk plaatje kiest men bij welke scores? Aard van de variabele speelt rol, maar ook het doel: gedetailleerd of globaal of vergeleken met andere?. Vuistregels hierin maar ook smaak speelt een rol.
Aard van de variabele concreet (lengte, gewicht, temperatuur etc) of abstract (sociaal gedrag, intelligentie, groepscohesie etc). tweede onderscheid is kwantitatief/kwalitatief. Kwantitatief als een object een bepaalde hoeveelheid kan hebben. Niet-kwantitatief is kwalitatief (bv sekse, ras, milieu etc). Variabelen kunnen ook discreet of continu zijn. Continu als er tussen 2 punten oneindig veel andere mogelijke waarden liggen (bv lengte van een persoon, windkracht). Bv gezinsomvang kan alleen hele waarden hebben: 1,2, 3…..Dan is het discreet.
Welk meetinstrument je ook kiest, altijd kom je uit op een discrete meetschaal.

Onder de betrouwbaarheid van een meting verstaan we de mate waarin een meting of meetinstrument vrij is van toevallige meetfouten. Niet betrouwbaar is niet valide. Validiteit is dus de mate waarin de meting vrij is van systematische en toevallige meetfouten.

Meetniveaus

Vier meetniveaus: bij kwalitatieve variabelen 2 niveaus: laagste is de nominale of categorale meetschaal, bv bij sekse met alleen de meetwaarden v en m. Het is ordinaal als er een ordening is in de meetschaal, bv van laag naar hoog bij sociaal economisch milieu.
Bij kwantitatieve variabelen kennen we behalve de nominale en ordinale meetschaal nog 2 hogere meetschalen. Wanneer op een ordinaal meetniveau gelijke intervallen tussen 2 meetwaarden worden aangegeven duidt dat gelijke verschillen van het kwantitatieve kenmerk. Dit heet een interval meetschaal of een meting op interval meetniveau.
Het hoogst bereikbare niveau komt voor bij een ratio-meetschaal: een tweemaal zo hoge meetwaarde betekent dan tweemaal zoveel op het kwantitatieve kenmerk. Hierbij komt de hoeveelheid op het kwantitatieve kenmerk overeen met de nulwaarde op de meetschaal. Bij een interval meetschaal hoeft dat niet.
Het meetniveau bepaalt welke betekenis de punten op de meetschaal hebben. In het algemeen zal men proberen een zo hoog mogelijk meetniveau te bereiken.
Bij de keuze van een plaatje kijkt men eerst naar meetniveau, dan naar soort kenmerk (discreet of continu) dan naar waarden (weinig, geclassificeerd of veel), dan naar doel (globaal/precies of vergelijking).

Hoofdstuk 3 Klassen en dichtheden

Wanneer de verdeling in 1 klasse het sterkst is geconcentreerd dan is de dichtheid in deze klasse het grootst. De dichtheid van een verdeling geeft dus aan hoe dicht de scores bij elkaar liggen.
Indeling in klassen moet op zinvolle wijze gebeuren. Het kan vooraf een meting gebeuren maar ook erna. Wanneer men het na afloop doet zijn de oorspronkelijke waardes de ruwe scores. De nauwkeurige waarde gaat dan verloren. Ruwe scores moeten op maar 1 klasse kunnen worden ingedeeld.
Op 3 manieren kunnen klassen worden aangegeven: (1) door per klasse op te sommen welke scores er toe behoren; (2) door per klasse de laagste en de hoogste meetwaarde te vermelden en (3) door de grenzen tussen de klassen aan te geven.
Scores kunnen achteraf niet meer worden terug gehaald.
Klassebreedte = ondergrens min bovengrens
Klassemidden = (bovengrens + ondergrens)/2 = ondergrens + ½ klassebreedte
Klassemidden is het etiket voor alle waarnemingen in de klasse.

Moeten alle klassen even breed zijn? Belangrijk uitgangspunt bij classificering is dat scores binnen 1 klasse niet relevant mogen verschillen. Ze worden immers over 1 kam geschoren. Vuistregels bij bepaling van het aantal klassen is de √ wortel uit het aantal scores maar ten hoogste 20. Zijn het aantal klassen bepaald dan kies je de breedte van elke klasse door de hoogste score af te trekken van de laagste en te delen door het aantal klassen. Vervolgens nog afronden. Soms kiest met niet alle klassen even breed, bv als er veel scores op een beperkt interval geconcentreerd liggen. Uiteindelijk blijft het altijd kwestie van inzicht en smaak.

Plaatjes van geclaccificeerde verdelingen

Door claccificering maak je van een scoreverdeling een frequentieverdeling. In een histogram zetten we boven elke klasse een rechthoekige kolom uit ter breedte van de klassebreedte en met oppervlakte gelijk aan de klassefrequentie. De hoogte is de frequentie gedeeld door de klassebreedte, of de frequentie (= aantal scores) per schaaleenheid. Dit is frequentiedichtheid (scoredichtheid). Formule fd = f/b B is klassebreedte.
Scoredichtheid kan behalve in de frequentiedichtheid ook worden uitgedrukt in de proportiedichtheid. Die krijg je als je de kolomoppervlakte niet weergeeft door frequenties maar door relatieve frequenties. Formule pd = p/b PD is proportiedichtheid, b is klassebreedte.

Een histogram suggereert dat er bij de klassegrenzen een breuk in de scoredichtheid bestaat. Bij frequentiepolygoon hef je dit op. Je verkrijgt een frequentiepolygoon als je boven elk klassemidden de frequentie (dichtheid) uitzet en de uitgezette punten van opeenvolgende klassen verbindt. In feite een wat vloeiender histogram. Bijkomend voordeel boven een histogram is dat er 2 of 3 in 1 figuur kunnen worden samengebracht zodat je kan vergelijken.

Een histogram en een polygoon zijn gebaseerd op de dichtheid per klasse. Met een dichtheidskromme hef je dit bezwaar op. Voor elke x-waarde bereken je de (lokale) dichtheid. Dit wordt gedefinieerd als de proportie scores per meeteenheid binnen een interval x als midden en een intervalbreedte b. Bij een keuze van klassebreedte 4 bv: wanneer je x=1 wil berekenen is 1 dus het klassemidden van –1 en 3. Je kijkt hoeveel scores hierin vallen en deelt deze door het totaal aantal scores. De uitkomst deel je dan weer door de gekozen klassebreedte (4) en zet je op de schaal. Hoe groter b, des te globaler wordt het beeld van de verdeling.

Hoofdstuk 4 Cumulatieve grootheden

Het nut van cumulatieve grootheden is vooral, dat de relatieve plaats binnen een verdeling er goed in kan worden uitgedrukt en er eenvoudig conclusies uit kunnen worden getrokken.

Cumulatieve frequentie en proportie

Cumulatieve frequentie is niet meer dan de frequentie die je pakt plus de vorige frequentie. Pakken we de frequentie tov de hele groep, dus delen we ze door n dan krijgen we de relatieve cumulatieve frequentie of cumulatieve proporties of somproportie. Dus cp = cf / n Dit kun je natuurlijk ook weer in procenten uitdrukken. Door dit getal kun je verschillende groepen met elkaar vergelijken. Dit kan ook worden bepaald bij geclaccificeerde verdelingen.

Kwantielen

Voor kwantielen kennen we kwartielen (opdeling in 4 stukken), de kwintielen (opdeling in 5 stukken), de octielen (opdeling in 8 stukken), de decielen (opdeling in 10 stukken), en de percentielen (opdeling in 100 stukken). Meest gebruikt is de X med; onder en boven de waarde liggen evenveel scores. Kwantielen worden veel gebruikt om aan te geven bij welke x waarde een bepaalde opdeling van de verdeling plaatsvindt. Bv. Een kwartiel in 4 stukken waarbij X25 is de eerste 25% van de scores. Een kwantielgrafiek bij een geclaccificeerde frequentieverdeling staat meer bekend als een cumulatieve polygoon
Een cumulatieve polygoon is niet meer dan een X-as met de klassen en op de Y-as de cumulatieve proportie op de rechterklassegrens. Waar die stijl loop is de scoredichtheid het grootst, heeft vaak de vorm van een S. Een polygoon suggereert dat net als een histogram de scores binnen een klasse gelijkmatig verspreid liggen. Het is een grafiek voor een contunue functie, daarom geschikt voor een continue variabel. Ze zijn erg geschikt om verdelingen onderling te vergelijken.
Bij losse scores (niet geclaccificeerd) kan dit ook

Kwantielberekening

Om een kwantiel te berekenen, bv het derde kwartiel (X75) met een verdeling van .12, .32, .52, . 84, .96, .100 pak je de klasse “hangt “bij .52 en telt daarbij op 23/32 van de breedte van de volgende klasse. Je weet dan dat 75% van de scores een bepaalde waarde hebben.

Bepaling cumulatieve proportie binnen een klasse

Omgekeerd kan natuurlijk ook als je een bepaalde x waarde hebt en wil kijken hoeveel procent daar boven of onder scoort. Je kijkt in welke klasse die valt, neemt in ieder geval het percentage van de ondergrens en telt daar het verschil van de ondergrens gedeeld door de klassebreedte waarin de x zich bevindt. Daar komt ene verhouding uit die je vermenigvuldigd met het verschil in proportie van de klassebreedte. Bij discrete variabeles is dit iets lastiger omdat je daar een discontinuiteitscorrectie moet toepassen omdat je daar altijd de x + een halve meetstap moet nemen.

Kwantielscores

De cumulatieve proportie cp(x) van een score geeft de relatieve positie van score x binnen de verdeling aan. Als een score x geeft .55 dan vebindt die zich in het derde kwartiel (50-75) en het zesde deciel. De kwartielscore van x is dan 3. De verzamelnaam is kwantielscore of fractielscore.

Hoofdstuk 5. Centrum en spreidingsmaten

Centrummaten, spreidingsmaten en scheefheidsmaten zijn karakteristieken van een verdeling. In de ene situatie is de ene maat toepasselijker dan de andere.

Centrummaten

Meest gehanteerd zijn de modus (de x score die het vaakst voorkomt, in een grafiek het hoogste punt, X mod) en de mediaan ( de x waarde waaronder en waarboven evenveel scores vallen, Xmed) en het rekenkundig gemiddelde (X gem).

Modus is de x score of x waarde waar de grootste frequentie of dichtheid optreedt, dus waar de grafiek het hoogste punt bereikt. Geeft dus niet de top aan maar de x waarde waar die zich voordoet. Bij een klasse hanteert men als modus het klassemidden. Als er duidelijk twee hoge toppen zijn, zijn er 2 modi ofwel bimodaal. Een verdeling met duidelijk 1 top heet unimodaal.

De mediaan is X50, dus de 50e score. Bij losse even scores is het het midden van de middelste 2, bij oneven scores is het de middelste. Bij geclaccificeerde scores bepaal je de middelste score en zoek je daar de klasse bij. Dan pak je de ondergrens van de klasse, die heb je in ieder geval zowel in cumulatieve proportie als in cumulatieve frequentie. Je reknt het verschil uit tussen cumulatieve proportie en 50% en deelt dat verschil door de proportie waarin de middelste score valt. En dat getal maal de klassebreedte.

Het rekenkundig gemiddelde is som van alle ( x * gewicht van x) ofwel ∑ (x*g Som van alle (gewichten) ∑ 8*g
Kun je voor losse scores maar ook voor geclaccificeerde scores gebruiken als je bij de laatste maar de klassemiddens aanhoudt. Het aanhouden van een klassemidden is natuurlijk niet helemaal zuiver. De ervaring leert dat de afwijking nooit groter is dan 1/10 van de breedste klasse.
Naast het rekenkundig gemiddelde kennen we ook het gewogen rekenkundig gemiddelde< bv een leraar die het ene cijfer zwaarder (2x) rekent dan het andere.

Keuze centrummaat

Wanneer welke centrummaat? Afwegingen: meetniveau: modus kan op elk meetniveau, mediaan op ordinaal niveau en een gemiddelde op interval niveau. Stel we hebben variabelen op interval meetniveau. Dan moeten we de keus baseren op speciale eigenschappen van de maten. Bv robuustheid, dwz hoe gevoelig voor onnauwkeurigheden. Dan mediaan de voorkeur want minst gevoelig. Ook modus tamelijk robuust. Gemiddelde het minst. Ander aspect is invloed van uitschieters, bij gemiddelde groot bij andere niet. Bij stabiliteit van de maat bij steekproeven kun je weer beter gemiddelde gebruiken. Over het algemeen hebben mediaan en gemiddelde de voorkeur. Modus als de variabele op nominaal niveau is gemeten, als 1 van de scores ( modus) het meest gewichtig is voor de variabele, als men de grootste scoredichtheid wil benadrukken.

Spreidingsmaten

Een even belangrijke karakteristiek aspect van een verdeling als het centrum is haar spreiding of verstrooiing. Het aantal manieren om de spreiding uit te drukken in een maat is groter dan voor het centrum. Eerst een aantal manieren die gerelateerd zijn aan kwantielen:

Spreidingsbreedte

Dit is de hoogste score op de x-as minus de laagste, ook wel variatiebreedte. Er is dan een probleem met de uitschieters wat kan worden opgelost door een bepaald percentage van de buitenkanten weg te laten. Bv. De interkwartielafstand (25% aan beide kanten weggelaten) of de interdecielafstand (10% weg gelaten) . Maar ook dan veel beperkingen.

Gemiddelde absolute afwijking

Neem een centrummaat (bv mediaan of rekenkundig gemiddelde), bereken voor elke x score de afwijking (deviatie) hiervan en middel dan de absolute waarden hiervan.

Variantie en standaardafwijking

Veruit meest gebruikt. Ofwel afwijkingen (deviaties) tot het gemiddelde. Spreiding wordt in eerste instantie genoteerd als het gemiddelde van alle gekwadrateerde afwijkingen tot het gemiddelde (d-waarden). Dit heet variantie ofwel sigma σ kwadraat. Om er ipv een een spreidingsgrootheid een spreidingsmaat van te maken trek je de wortel √ hieruit. Voorbeeld:
X f x*f d=x-gemiddelde d² d²*f
1 1 1 -5 25 25
3 2 6 -3 9 18
4 1 4 -2 4 4
5 1 5 -1 1 1
6 5 30 0 0 0
7 7 49 1 1 7
8. 2 16 2 4 8
9 1 9 3 9 9 20 120 = 6 72 72/20 = 3.6

en dan de wortel √ uit 3.6 (variantie)= 1.9 = standaardafwijking
Dus bereken je eerst het rekenkundig gemiddelde, dan per score de afwijking daarvan, die kwadrateer je per score en vermenigvuldigd dat met de frequentie. Daar naam je het gemiddelde van en daar de wortel uit. . Dit is een definitieformule en dat is niet werkzaam. Dan beter een rekenformule: de variantie is gelijk aan het gemiddelde van alle gekwadrateerde scores maal f minus het kwadraat van het gemiddelde van alle scores. Daar de wortel uit is standaardafwijking.

Nog een paar opmerkingen: de grootte van de standaardafwijking wordt sterk bepaald door de uiterste scores want die hebben een grote afwijking. Een soort vuistregel bij klokvormige verdelingen voor de berekening van de standaardafwijking is: laat aan weerskanten 2.5% van de scores wegen deel dan de variatiebreedte door 4.

Variatie-index

Alle voorgaande maten zijn op interval niveau omdat ze afstanden betreffen. Wat nu als het bv nominaal niveau is? Dan de variatie index.
Spreiding is maximaal als ze over alle categorien (scores bv voor, tegen en blanco) verdeeld zijn, minimaal als ze slechts in 1 categorie voorkomen. Als de spreiding (in de scores, categorien) maximaal is, is de spreiding van de frequenties minimaal. En omgekeerd. We pakken dan de frequenties om de spreidingsmaat (= variatie index) uit te drukken. Voorbeeld: F(maximale spreiding) f (minimale spreiding)
Voor 4 10
Tegen 3
Blanco 3 10 10

We gebruiken dan dezelfde formule als de variantie. Maximale spreiding variatie index is gemiddelde 4²+3²+3²= 34/3=11.33 – 3.33²=.24. Minimale spreiding is gemiddelde 10²+0+0=100/3= 33.33-3.33²= 22.24
Dus als de scores niet spreiden, spreiden de frequenties maximaal en is de vaiatie index 0. Spreiden de scores wel, is de frequentiespreiding minimaal is de score 1.
Om de spreiding in 1 getal uit te drukken in bovengenoemd voorbeeld deel je de spreiding door de maximale spreiding en trek je het van 1 af. Dat is dus 1 - .24/22.24 = 1 –0.01 = 0.99 (maximaal). Handiger is een rekenformule: het aantal categorien, gedeeld door het aantal categorien – 1, maal 1- som frequenties in het kwadraat, gedeeld door totaal aantal scores (frequenties) in het kwadraat. Volgens het voorbeeld: 3 gedeeld door 2, maal 1-34/100 = 3/2 *66/100 = 0.99

Keuze van een spreidingsmaat

Koppelen aan centrummaat:
Modus dan variatie index (bij nominale variabelen), mediaan dan interkwartieafstand of gemiddelde absolute afwijking van mediaan (weinig gebruikt), gemiddelde dan standaardafwijking of variantie. Standaardafwijking wordt meest gebruikt.

Hoofdstuk 6. Lineaire transformaties en vormmaten

Omrekening van bv cijfers voor een proefwerk naar een cijfer heet een schaaltransformatie. De aantallen fouten worden getransformeerd. De nieuwe scores heten dan transformatiescores. De omrekening gebeurt met een transformatieformule en soms een transformatiegrafiek.

Lineaire transformaties

De transformatieformule x’(Fahrenheit) = 9/5 + 32 rekent Fahrenheit om naar Celsius. Dit is een lineaire transformatie. Lineair omdat de grafiek van x’als functie van x een rechte lijn is. Algemene formule is x’=p*x + q waarin p en q constanten zijn. P wordt de rekfactor genoemd en Q de schuifterm. Omdat bij de lineaire transformatie gelijke stukken op de x-schaal overgaan in gelijke stukken op de x’schaal, zal als x kenmerk op intervalniveau meet, de x’-schaal dit ook doen.
Als de rekfactor negatief is (p = bv –1/2) zal de richting van de cijferschaal omdraaien in vergelijking met de foutenschaal.

Bepaling lineaire transformatieformule

Als een verhouding 15 –35 moet worden omgezet in de verhouding 50-100 dan is p de rekfactor 50/20 (verschil 50-100 gedeeld door verschil 35-15)= 21/2. De formule luidt dan x’= 21/2 x + q. 15 moet overgaan in 50 dus 50 = 21/2 x + q. x was 15 dus 21/2 *15 + q = 50 > q = dus 12.5. Algebraisch: 50 = p x 15 + q 100 = p x 35 + q
Aftrekken 50 = p x 20 dus p = 2.5. Wanneer we 2.5 weer invullen maakt q 12.5

Veranderingen karakteristieken door lineaire transformatie

Alle x waarden ook gemiddelde, mediaan en modus worden gewoon meegetransformeerd. Ook de standaardafwijking doet dat maal de rekfactor. Als deze negatief is draait de volgorde van de scores om maar de afstanden worden gerekt met de factor + p. Dis is de absolute waarde van p is |p|. Door de andere spreiding op de nieuwe schaal verandert ook de scoredichtheid navenant, alleen juist omgekeerd. Meer spreiding > dichtheid kleiner. Dichtheid bij x’= 1/|p| * dichtheid bij corresponderend x.

Standaard z-scores
We hadden een deviatiescore die zegt wat de afstand is van een bepaalde score vanaf de gemiddelde score (d = x – gemiddelde x). Hieraan kunnen we niet zien of dit relatief veel van het gemiddelde is of weinig. Om te kunnen zeggen of dit veel of weinig is relateren we haar een de standaardafwijking σ (sigma). Als de standaardafwijking 2 is en de deviatie 3 dan is de deviatie dus 1/1/2 keer de standaardafwijking. 1.5 is dan de z-score. In formule

X – gemiddelde x

σ of ook x = gemiddelde x + z *σ
In plaats van z-transformatie spreken we ook wel van standaardtransformatie of standaardisering.

Gebruik van standaardscores

Bij standaardisering komen 3 punten naar voren: ▪ de locatie van de oorspronkelijke x verdeling verdwijnt ▪ een z score geeft de relatieve positie aan tov het gemiddelde ▪ de vorm van de verdeling blijft intact
Omdat een z-score de relatieve positie van een score binnen een verdeling aangeeft, kunnen we z-scores ook gebruiken om verschillende verdelingen onderling te vergelijken. Bv. Een cijfers 6.3 en 5.8 kunnen zo vergeleken worden. Bij de eerste werd een gemiddelde gescoord van 6.23 met standaardafwijking 1.09. Z-score is dan (6.3-6.23)/1.09 = 0.06. Bij de tweede werd gemiddeld 5.66 gescoord met standaardafwijking 1.16. Z-score is dan (5.8-5.66)/1.16 = 0.12. Beide scores zijn positief dus boven het gemiddelde. De eerste score is iets lager dus minder goed. Z-scores kunnen alleen op interval niveau. Bij ordinaal niveau moeten we terugvallen op kwantielscores. Die zijn dus ruimer maar missen de specifieke informatie over de ligging tov het gemiddelde.

Vorm van een verdeling

Hier 3 vormen maar er zijn er veel meer, die komen later.
Er is de gelijkmatige of rechthoekige verdeling wanneer de scoredichtheid overal gelijk is. Bij transformatie van x scores naar kwantielscores ontstaat voor de kwantielscores een uniforme verdeling.
Veel in de natuur voorkomende lengteverdelingen hebben de klokvorm ( bv rekruten lengte). Werd eerst ook Gauss-kromme genoemd, tegenwoordig de normale verdeling. Een bimodale verdeling (met 2 toppen) blijken vaak veel met de normale verdeling te maken te hebben. Bovenstaande zijn symmetrische verdelingen. Vaak zijn er ook scheve verdelingen. Uitschieters met hoge scores maken een rechtsscheve verdeling. Er zijn ook linksscheve verdelingen. Scheve verdelingen worden vaak veroorzaakt door een natuurlijke of kunstmatige barriere voor de scores. Scheefheid kun je uitdrukken in een scheefheidsmaat.
Bij unimodale verdelingen kan ook de spitsheid van de top of gewelfdheid (kurtosis) onderscheiden worden.

De scheefheids (mediaan) coëfficiënt.
Empirisch geldt: x modus < x mediaan < x gemiddelde bij een rechtsscheve verdeling. Bij links is het andersom. Rechtsscheef betekent aflopend naar rechts. Hoe schever een verdeling, hoe verder modus, mediaan en gemiddelde relatief van elkaar liggen. Karl Pearson de standaard z-modus scores om de scheefheid uit te drukken. Later bleek de mediaan een veel stabielere maat en werd de definitie: -3z-mediaan. (z-mediaan was mediaan – gemiddelde/ gedeeld door standaardscore).

Hoofdstuk 7 Samenhang tussen twee variabelen

De twee variabelen studietijd en b-niveau vertonen een statistische samenhang (ook welassociatie of statistisch verband). Immers hoe hoger het niveau hoe korter de studietijd. In sommige gevallen wordt dit ook correlatie genoemd. Het doel van empirisch onderzoek is bijna altijd verbanden tussen variabelen ontdekken en vastleggen. Men zoekt dan oorzakelijke verbanden zoals welke stimulus heeft welk soort effect bij onderzoeksobjecten? In dit hoofdstuk gaan we na welke scores op de ene variabel veel of weinig samengaan met scores op de andere variabele. Dit heet statistische samenhang en bekijken we in dit hoofdstuk, niet naar oorzakelijke samenhang. Dat komt later.
De sterkte van een samenhang willen we uitdrukken in een samenhangsmaat, die bv 0 is als er geen enkele samenhang is (bv tussen lengte en intelligentie) en 1 met een volledige samenhang. Hij is volledig als er bij elke x slecht 1 y waarde hoort.

Kijk op samenhang

Bij 2 kwantitatieve variabelen met losse scores voldoet een tweedimensionaal puntendiagram. Wanneer 1 variabele kwantitatief is met losse scores en de andere is kwalitatief dan gebruik je een meervoudige puntenband. Wanneer de variabele in dit geval geclassificeerd voorkomt dan is het beter een opgedeeld histogram te gebruiken. Opgedeeld betekent dan de pilaren gedeeld door de onderzochte groepen, bv mannen en vrouwen op de variabel lengte. Bij een discrete kwantitatieve variabel is het beter een staafdiagram te nemen. Wanneer variabelen niet samenhangen zijn ze onafhankelijk van elkaar. Samenhang wordt vaak goed in beeld gebracht door een rependiagram.

Statistisch en oorzakelijk verband.
Bij statistische samenhang kan er een oorzakelijk verband zijn, maar hoeft niet. Om een oorzakelijk verband te onderzoeken moeten we een beeld krijgen van de simultane verdeling van 3 of meer variabelken. Dit onderwerp uit de multivariate analyse komt later.

Kruistabellen

Een datamatrix sorteren we mbv een tweedimensionale turftabel. Je krijgt dan een kruistabel met bv 5 rijen en 2 kolommen. Dit heet een 5x2 tabel ofwel formaat. Dus 10 verschillende combinaties. Elke combinatie heet een cel. De turfjes per cel zijn de celfrequenties en alle celfrequenties in een kolom een kolomtotaal, van een rij rijtotaal. Rijtotalen en kolomtotalen zijn de randtotalen of marginalen. Alle frequenties samen vormen de simultane frequentieverdeling . Als we kijken naar de frequentieverdeling binnen 1 kolom of binnen 1 rij dan heet dat een conditionele verdeling.
Als beide variabelen samenhangen dan komt de oorzaakvariabel (ook wel onafhankelijk) in de kolom en de gevolgvariabele (afhankelijke) in de rij. Als niet duidelijk is wat oorzaak of gevolg is dan staat het vrij en kijkt men bv naar lay-out.

Vergelijking van percentages
De cellen in elke kolom kunnen we percenteren tov het totaal van die kolom. Als je het totaal op 100% zet percenteer je dan dus verticaal. Hoe groter het percentage verschil per rij is (de hoogste min de laagste) hoe sterker het verband. Als de percentageverschillen allemaal 0 zijn dan zijn de variabelen statistisch onafhankelijk.
De sterkte van het verband kun je ook achterhalen door horizontaal percenteren. Dan moet je natuurlijk de percentages verticaal met elkaar vergelijken. Algemeen: ▪ staan de groepen waarover we een vergelijkende uitspraak willen doen in de kolommen dan percenteren we verticaal en vergelijken horizontaal ▪ staan de groepen waarover we een vergelijkende uitspraak willen doen in de rijen, dan percenteren we horizontaal en vergelijken de percentages verticaal.
Dus we vergelijken dwars op de percenteerrichting.

Sterkte van de samenhang

De sterkte van de percentageverschillen willen we uitdrukken in een samenhangsmaat (= associatiemaat). Een maat tussen 1 (volledig) en 0 (afwezig). Deze maat draagt de naam Cramers V. Zij maakt gebruik van een grootheid, de ( coëfficiënt. Cramers V corrigeert de tabel afhankelijkheid (grote of kleine tabel).

Volledige samenhang

Twee variabelen X en Y hangen volledig samen, zodra Y volledig van X afhangt en/of X volledig van Y. Dus als frequenties in de kolommen horizontaal zijn verdeeld dan is er geen volledige samenhang.

Statistische onafhankelijkheid

Bij statistische onafhankelijkheid moet de verhouding in de kolommen (dus moet je eerst percenteren ivm de verhouding) gelijk zijn als de verhouding van het totaal. Voorbeeld:
Wijze aanstelling sekse Man vrouw totaal
Vast voltijd 50 50 50
Vast deeltijd 35 35 35
Tijdelijk 15 15 15 100 100 100
Hieruit kan de formule worden gehaald f cel : f kolom = f rij : n (bv 35/100 = 35/100). Het product der buitentermen is gelijk aan het product van de binnentermen. Zelfde formule anders geschreven is f cel = f rij * f kolom / n (35 = 35 * 100 / 100). In woorden: als 2 variabelen onafhankelijk zijn, is elke celfrequentie gelijk aan het product van de bijbehorende randfrequenties gedeeld door de totale groepsomvang. Als we het uitdrukken in proporties kunnen de groepsomvang loslaten: p cel = p rij * p kolom. De laatste is de productregel bij onafhankelijkheid. Dus iets is statistisch onafhankelijk als: ▪ de frequenties (of proporties) in elke kolom dezelfde verhouding hebben, of ▪ de frequenties (of proporties) in elke rij dezelfde verhouding hebben, of ▪ voor elke celproportie de productregel p cel = p rij * p kolom geldt.
Als 1 geldt gelden ook de anderen.

Definitie van de ( coëfficiënt

Afhankelijkheid is dus sterker naarmate de discrepanties (verschillen) bij 1 van deze 3 groter zijn. Dit gaan we uitdrukken in een getal de ( coëfficiënt. De definitieformule luidt:
( = √ (². Dit is echter te omslachtig vandaar dat we beter een rekenformule kunnen gebruiken.

Berekening van (²

Formule: je neemt de proporties van de tabel die je wilt hebben, je doet de waardes in het kwadraat en deelt deze telkens door het rijtotaal maal het kolomtaal. Van de uitkomst trek je 1 af. Voorbeeld: tabel met proporties man vrouw totaal Student .30 .20 .50 Baan .10 .20 .30 Baanloos - .20 .20 Totaal 40 60 100
(.30²/.40x.50+.20²/.50x.60+.10²/20*40*30+.20²/30*60+0²/20*40+.20²/20*60)-1=
(0.45+0.133+0.125+0.222+0+0.33)-1= 0.222 het leuke is dat de celwaarde een proportie, een percentage of een frequentie mag zijn. Dit berekent dus de mate van afhankelijkheid van 2 variabelen, waarbij 1 volledig afhankelijk is.

Cramers V

Bij grotere tabellen dan 2x2 kan ( groter dan 1 worden en dat willen we niet want die moet tussen 0 en 1 zijn. Cramer heeft dit euvel opgelost door een iets aangepaste maat in te voeren, nl. door (² te delen door ( max, als samenhangsmaat koos hij de wortel hieruit, dus : √(² Kwalificaties: 1 volledige samenhang .75 sterke samenhang kleinste rij en kolom – 1 .50 middelmatige samenhang r = dan het aantal rijen .25 zwakke samenhang k = het aantal kolommen 0 geen samenhang

Cohens kappa als maat van overeenstemming

Laat maar, wordt hopelijk niet gevraagd.

Hoofdstuk 8. Correlatie

De samenhangsmaat zegt niets over de wijze waarop beide variabelen samenhangen. Wanneer bv de duurzaamheid van iets stijgt naarmate de prijs ervan stijgt spreken we van correlatie. Wanneer die rechtevenredig stijgt dan is die perfect en heeft de waarde 1. Wanneer bv de duurzaamheid juist daalt narmate de prijs stijgt spreken we van een dalende tendens en bij rechtevenredigheid is die –1. De correlatiecoëfficiënt schommelt dus tussen 1 en –1.

De correlatiecoëfficiënt r

Wanneer we van scores X en Y op een assenkruis het centrum van de puntenwolk (het zwaartepunt) tekenen met als middelpunt het gemiddelde van beide scores krijg je 4 kwadranten. De oorspronkelijke punten wijken dan af van dit gemiddelde en is de deviatiescore dx=x-gemiddelde x
Dy=y-gemiddelde y
Bij correlatie 0 liggen alle punten gelijkelijk gezaaid over de 4 kwadranten. Maar in plaats van de deviaties nemen we echter de standaard z-scores om de correlatie in uit te drukken. Dus definitieformule is r = zx*zy en daar het gemiddelde van.
Wanneer een correlatiewaarde ligt hoger dan .7 dan is er een hoge correlatie, ligt die tussen .5 en .7 dan is de middelmatig, onder .5 zwak en bij 0 is er geen correlatie.
Deze productmoment-correlatiecoefficient (pmc) is een adequate maat als beide variabelen van interval meetniveau zijn en de puntenwolk geen kromming vertoont.

Covariantie

Dit is een vergelijkbare maat voor interval niveau. De definitieformule is σ xy = dxdy (gemiddeld) = rxy*σxσy

Rekenformule voor covariantie en r

Voor covariantie wordt de rekenformule σxy = xy (gemiddeld) = x (gemiddeld * y (gemiddeld). Waarin XY (gemiddeld) = gemiddelde van alle xy scores.

R = xy (gemiddeld) – x (gemiddeld) * y (gemiddeld) σxσy
We vermenigvuldigen dus alle x(en) met alle y(en), trekken daar het gemiddelde van x maal het gemiddelde van y van af, en delen het door σxσy (standardafwijking). Voorbeeld datamatrix:

Motiva (y) curwaar (x) 1 2 3 4 5 totaal
1 3 1 1 5
2 1 7 1 1 - 10
3 - 2 4 4 - 10 y(gem)=3.0488
4 - 1 4 5 - 10 σy =1.2484
5 - - 2 2 2 6

Totaal 4 11 11 13 2 41 X(gem) = 2.9512 σx =1.0809

We vermenigvuldigen elke xy met haar celfrequentie en delen het door 41. Dus 3 +2+2+28+12+8+6+36+48+30+4+8+48+8-+40+50=405/41=9.8780. In de formule is het dan 9.8780 – 2.9512*3.0488 = 0.8804 = .65 1.0809 * 1.2484 1.3494

De correlatiecoëfficiënt is dus .65 De covariantie is gelijk aan de teller in bovenstaande breuk is 0.8804.

Kanttekeningen bij r.
R is de meest gebruikte samenhangsmaat maar heeft beperkingen. Omdat de berekening berust op gemiddelden en standaardafwijkingen, behoren x en y van (vrijwel) interval meetniveau te zijn. R is ook pas echt adequaat als de puntenwolk een ieta ovale vorm heeft rondom een rechte lijn. Daarnaast: uitschieters buien de puntenwolk beinvloeden sterk de waarde van r. Maar als r van toepassing is kan die beter worden toegepast dan andere maten. In tegenstelling tot Cramers V zegt r wel iets over de hoedanigheid van de samenhang.

Spearmans Rs

Zijn twee variabelen van ordinaal niveau, of neemt Y bij toenemende X monotoon toe of monotoon af volgens een gekromde puntenwolk, dan beschouwen we bij voorkeur de correlatie tussen de rangorden van de x- en y scores. De rangcorrelatiemaat van Spearmans wordt dan net zo gedefinieerd als de pms r maar op de rangscores voor x en y.
Voorbeeld: samenhang schriftelijke en mondelinge taalbeheersing:
Kind rangscore opstel rangscore gesprek
A 1 1
B 2 4
C 3 2
D 4 3
E 5 5
Totaal 15 15
De rangscore is hier het volgnummer in de betreffende volgorde. Wanneer opstel is u en gesprek v dan wordt de r formule: rs = uv (gemiddeld) – u (gem)*v(gem) σu*σv het enige verschil is dus dat x en y worden vervangen door u en v. Toegepast betekent dit dus:
Kind rangscore opstel rangscore gesprek uv
A 1 1 1
B 2 4 8
C 3 2 6
D 4 3 12
E 5 5 25
Totaal 15 15 52
Gemiddelde = 3
Sigma σ= 1.414
In de formule 52/5 – 3 x 3 = .70 1.414*1.414

Berekening van rs bij geknoopte rangorden

Geknoopt wil zeggen dat dezelfde scores bij verschillende personen kunnen komen bv doordat we voor gesprek geen 5 maar een 3 puntsschaal aanhouden. Daarom kennen we als rangscore van gelijken hun gemiddelde volgnummer toe. Stel dat A en C hier het beste op scoren dan krijgen zijn dus een 1.5 bij rangscore gesprek. In feite wordt een 5 puntsschaal omgezet in een 3 puntsschaal met als criteria beste, gemiddelde en slechtste. Voorbeeld:
Kind rangscore opstel rangscore gesprek uv
A 1 1.5 1.5
B 2 4.5 9
C 3 1.5 4.5
D 4 3 12
E 5 4.5 22.5
Totaal 15 15 49.5
Gemiddelde 3 3 9.9
Standaardafwijking 1.414 1.342
In formule wordt het dan rs=9.9-3*3 = 0.9 = .47 1.414*1.342 1.9

Rs versus r
Zodra beide variabelen van ordinaal niveau zijn en de puntenwolk globaal een monotoon verband vertoont, is rs een adequaat samenhangsmaat. Als beide variabelen van interval niveau zijn, is ook r bruikbaar. Is de wolk echter duidelijk gekromd, dan heeft rs de voorkeur.

Kendalls Tau
Een 2e maat voor de sterkte van de rangcorrelatie, die geheel anders wordt berekend dan rs, is de rangcorrelatie coëfficiënt tau van Kendall.
Kijkend naar bovenstaande (1e bij Spearmans Rs) tabel zie je in algemene zin dat hogere u scores, samengaan met hogere v scores, dus een positieve rangcorrelatie langs diagonaal linksonder/rechtboven. Kijken we naar alle tweetallen punten dan ligt van de meeste tweetallen het ene punt rechtsboven het andere. Hierop is tau gebaseerd. Wanneer een punt op beide variabelen hoger ligt dan een ander dan heet die consistent. Wanneer de lijn loopt van linksboven naar rechtsonder, wanneer dus het ene punt rechtsonder de ander ligt heet het inconsistent. Bovenstaande tabel heeft dus 10 paren (5*2) waarvan 8 consistent en 2 inconsistent. Kendall definieerde tau als de proportie consistente-inconsistente paren dus 8-2 = 6 = 0.60 8+2 10
In formule tau= K+-K- Ktotaal
K+ is consistente paren, K- is inconsistente paren. Als er geen knopen zijn is Ktotaal altijd gelijk aan K+ + K-
In een andere formule die algemeen gebruikt kan worden: K+ - K- 1/2n(n-1)
Bij bovenstaande tabel is dat dus 8 – 2 = 0.6 ½*5*4
Dus tamelijk sterke rangcorrelatie, hoogst mogelijke waarde is 1 als alle paren consistent zijn, nl als elk volgend punt in de puntenwolk rechtsboven zijn voorganger ligt. Dan is die volledig monotoon stijgend. Bij een volledig monotoon dalende wolk zijn alle paren incosistent en tau gelijk aan –1

Tau bij geknopte rangorden

Bij knopen kan bovenstaande formule niet. Kendall heeft een bevredigende oplossing gevonden door Ktotaal gelijk te kiezen aan Ktotaal = √ Ax *Ay
Waar Ax = aantal ongeknoopte scoreparen onder de x scores Ay = aantal ongeknoopte scoreparen onder de Y scores
(Ktotaal is het meetkundig gemiddelde).
In het voorbeeld van het opstel en gesprek is Ax = Aopstel = 10 en Ay = gesprek = 8
Dus wordt het √ 10*8=8.94 dus wordt tau 6 – 2 = .447 (1/2n(n-1) wordt dus vervangen 8.94 door √Ax*Ay)

Om Ax en Ay uit te rekenen is er de volgende formule Ax = ½(n²-∑f²). geldt ook voor Ay
In het voorbeeld kwam elke x (A,B,C,D,E) 1 keer voor en elke y (A,B,C,D,E) volgens 2 1 2.
Ax wordt dan ½(5²-(1²+1²+1²+1²+1²)= ½(25-5)=10
Ay wordt dan ½(5²-(2²+1²+2²)=1/2(25-9)=8
Deze formule (½(n²-∑f²)invullen in de eerdere tau formule (K+-K-) levert: Ktotaal

Tau = 2(K+-K-) √(n²-∑f²kolom)(n²-Σf²rij) waarin:
K+ en K- = aantal consistente resp.inconsistente paren
N = aantal objecten
Fkolom = kolomfrequentie = knoopsomvang in de rangorde van de kolomvaiabele X
Frij = rijfrequentie = knoopsomvang in de rangorde van de rijvariabele Y (een score die maar 1 keer voorkomt, is hierbij een knoop van omvang 1).
Om K+ -K- uit te rekenen kan de formule gebruikt worden: bijdrage aan K+ - K- = celfrequentie * (som freq.rechtsonder – som freq.linksonder). Voorbeeld met matrix:
Motiva (y) curwaar (x) 1 2 3 4 5 frij f²rij
1 3 1 1 5 25
2 1 7 1 1 - 10 100
3 - 2 4 4 - 10 100
4 - 1 4 5 - 10 100 5 - - 2 2 2 6 36

Totaal 4 11 11 13 2 41 361
F²kolom 16 121 121 169 4 431

Bijdrage aan K+ - K-=
1e rij 3(35-0)+1(25-1) 1(2-22) = 100
2e rij 1(26-0)+7(23-0)+1(13-3)+1(2-13) = 109
3e rij 2(15-0)+4(9-1)+4(2-7) = 42
4e rij 1(6-0)+4(4-0)+5(2-2) = 22
5e rij 2(0-0)+2(0-0)+2(0-0) = 0 K=-K- = 359

Dan in de tau formule: 2*359 √(41²-431)*(41²-361) = .56
Een redelijk sterke positieve rangcorrelatie.

Tau versus Rs

Om de rangcorrelatie uit te drukken kennen we nu tau en Rs. Welke heeft voorkeur? In het algemeen geen een. Rs valt doorgaans iets extremer uit dan tau. Om toch een keus te maken kunnen de volgende overwegingen gemaakt worden: ▪ Rs is de maat die van oudsher het meest wordt gebruikt ▪ Hoewel Rs een link heeft met pmc r bestaat er geen duidelijke interpretatie voor; de opzet van tau als de proportie consistente minus de proportie inconsistente paren is erg doorzichtig ▪ Tau is een grovere maat

Hoofdstuk 9. Regressie

Als 2 variabelen X en Y samenhangen, noemt men de wijze waarop Y van X afhangt regressie van Y op X. De gekozen Y waarden bij elke X geven de tendens van de regressie aan, zij vormen een regressie model of regressiewaarden, aangeduid door een dakje boven de ŷ.

Regressiemodellen

De keuze van een regressiemodel wordt in de eerste plaats bepaald door het meetniveau van X en Y. Bij hogere meetniveaus (interval) bv gewicht en lengte kunnen we de regressielijn op oneindig veel manieren trekken. Dan wordt keus bepaald door de aard en de sterkte van de samenhang.

Modellen bij nominale X variabele

Als Y van nominaal meetniveau is, ligt als modelwaarde de modus voor de hand. Dit heet een modimodel.
Op ordinaal niveau kunnen we beter de mediaan gebruiken, we spreken dan van medianenmodel. Op interval niveau kunnen we weer beter het rekenkundig gemiddelde nemen. Bij de keuze van Ŷ spreken we van een gemiddeldenmodel. Zodra Y een kenmerk op intervalniveau meet, zijn het medimodel, het mediaanmodel en het gemiddeldenmodel in principe alle 3 bruikbaar. Zo mogelijk kiezen we het gemiddelde, tenzij we de invloed van uitschiters willen verminderen, of indien er maar enkele y-categorien zijn, speciale waarde hechten aan de modus.

X en Y van interval meetniveau: regressielijn. Door in een puntenwolk eerst te classificeren en dan binnen elke klasse een mediaan te nemen, het midden van elk streepje vervolgens te verbinden, krijgen we een regressiepolygoon. Daarin wordt de lokale afhankelijkheid van Y naar X aangegeven. Is echter ruw doordat de punten botweg in enkele kunstmatige klassen worden opgedeeld. Mbv een computer kunnen we een verfijndere methode toepassen.
In de meeste situaties kiest men een regressielijn de grafiek van een simpele wiskundige funcctie, zoals een rechte lijn met een lineaire functie. De regressievergelijking heeft dan een volgende gedaante: Ŷ = a, Ŷ = a + bx, Ŷ = a + bx + cx², Ŷ = a + bx +cx² + dx³
Bij Ŷ = a (bv 60 krijg je een horizontale lijn op hoogte 6).
Een eerste graads vergelijking Ŷ = a + bx (bv Ŷ = 6 – 1/2x) krijg je een schuine rechte lijn. A is de constante bij x = 0 dus a is de y-waarde op de y-as door de oorsprong (a heet het intercept). De constante b is de richtings coëfficiënt van de rechte en geeft de steilheid van de rechte. Zij wordt de regressiecoefficient genoemd. Er is positieve en negatieve regressie.
Bij een tweedegraadsvergelijking Ŷ = a +bx +cx² is de grafiek een parabool. Als de coefficient c positief is een dalparabool, als die negatief is een bergparabool.
Bij een derdegraadsvergelijking Ŷ = a + bx + cx² = dx³ krijg je een slingervorm. De uiteinden zijn altijd stijgend of dalend. Bij positieve d stijgend, bij negatieve dalend. Dit zijn polynome regressiemodellen. Er zijn ook nog exponentiele. Beide zijn globale modellen

Het kleinste KS-criterium

Bij een vergelijking van 2 rechten kies je degene die het dichtste bij de gescoorde y waarde lijgt. We moeten dus kijken naar de verschillen tussen y en Ŷ. Zo’n verschil heet een residu en wordt aangeduid met e (error). Het is de voorspellingsfout die we maken als we voor een object met ee x score bekend, maar u niet, de y-score gaan voorspellen met de regressiewaarde Ŷ. Dus e = Ŷ – y.
Omdat we bij een goed passend regressiemodel de residuen over het geheel genomen zo klein mogelijk willen houden, zouden we als criterium (kleinste Ase) kunnen kiezen voor een zo klein mogelijke som van alle absolute residuen. Definitieformule: Ase =∑ │e│zo klein mogelijk. Voorbeeld:

Object x y model Ŷ = 23 + 0.3x model Ŷ = 5 + 0.5x Ŷ e │e│ e² Ŷ e │e│ e²
1 40 26 35 -9 9 81 25 1 1 1
2 50 32 38 -6 6 36 30 2 2 4
3 60 54 41 13 13 169 35 19 19 361
4 90 70 50 20 20 400 50 20 20 400
5 110 28 56 -28 28 784 60 -32 32 1024
6 120 60 59 1 1 1 65 -5 5 25
7 160 80 71 9 9 81 85 -5 5 25
Totaal 630 350 0 86 1552 0 84 1840
X(gem)=90 y(gem)=50 (=AS) (=KS) (=AS) (=KS) σx²=40σy² =20 xy(gem)=5037.1

Omdat het 2e model een kleinere AS (Absolute waardensom) (84 ipv 86) heeft past dit beter volgens het kleinste AS criterium. Het beste model is echter waarbij de kwadraten van de residuen worden genomen: KS = ∑e² zo klein mogelijk.

De optimale regressierechte

In het lineaire regressiemodel is de regressielijn de rechte met vergelijking Ŷ = a +bx en daarin a en b zo gekozen dat KS minimaal is. A = y(gem) – b* x (gem) B = xy(gem) – X(gem)*y(gem) = σxy σx² σx²

Met bovenstaande voorbeeld betekent dat dus voor b 5037.1 – 90*50 = 0.3357 1600 en voor a 50 – 0.3357 * 90= 19,79. Afgerond is de optimale regressierechte dus Ŷ = 20 + 1/3x

Relatie tussen regressierechte en r

Vergelijken we de formule voor b σxy/σx² met formule voor r = σxy/(σx*σy) dan volgt daaruit b = r * σy Σx
De regressie coëfficiënt is een a-symmetrische grootheid voor x en y, de correlatie coëfficiënt is juist symmetrisch in x en y (de formule voor r is symmetrisch in x en y).
Hieruit volgt dat bx*y by*x = r²

RyŶ
Het beste regressiemodel moet de Y dicht liggen bij de y (immers e=y-Ŷ). Bij een optimaal lineair regressiemodel is RyŶ sterk gelieerd aan Rxy. Immers voor een lineair model is Ŷ = a +bx, dus is Ŷ een lineaire transformatie van x. En omdat r ongevoelig is voor (positieve) lineaire transformatie geldt RyŶ = │xy|

Is een lineair model adequaat?

Bij een ideaal regressiemodel strooien alle x evenwichtig rond de X-as. Dat is niet altijd zo dus een lineair model kan niet adequaat zijn.

Voorspellen van een y-score

Als van een object de y-waarde niet bekend is maar de x-score wel, dan kan men de regressiewaarde Ŷ bij x het best kiezen als voorspelling van de y-score. Het handigst is een vorspellingsinteval (Ŷ laagst, Ŷ hoogst) op te geven, anders gezegd een betrouwbaarheidsinterval voor y met een 95% betrouwbaarheid.
Nu 2 modellen, in beide gevallen zal het gekozen centrum gelijk zijn aan de modelwaarde Ŷ en wordt de breedte van het interval bepaald door de grootte van de residuen.
Bij de 2e methode geldt voor de grenzen van het 95% betrouwbaarheidsinterval Ŷ laagst - 2σe, resp Ŷ hoogst + 2σe
De standaardafwijking van de residuen wordt in dit verband de standaardschattingsfout genoemd en σ²e de foutenvariantie. Bij de rapportage van een regressieanalyse wordt meestal de regressievergelijking gegeven: σe = σy√1-r². Voorwaarden voor een zinvolle toepassing van een voorspellingsinterval voor y op x dan moet: ▪ Y vrij sterk van x afhangen (r²>.50); ▪ De onderzoeksgroep groot zijn (>50, liefst enkele honderden) ▪ De residuen spreiding bij elke x ongeveer gelijk zijn; ▪ De y variabele vrijwel continue zijn;

Hoofdstuk 10. Verklaarde en niet verklaarde variantie

Omdat we de Ŷ zien als uit de x-score voorspelde of verklaarde y-waarde, noemen we de σ²Ŷ de door x verklaarde variantie in y.
Naarmate de residuen kleiner worden bij een regressiemodel wordt y relatief sterker door x bepaald. Ook zullen de Ŷ dichter bij de y-scores liggen en zal σ²Ŷ dichter bij σ²y komen. En zo kunnen we σ²Ŷ/σ²y, de proportie verklaarde variantie in y, als afhankelijkheidsmaat voor y van x definiëren.

Analyse van de varia(n)tie.
We kunnen de invloed van alle factoren bij elkaar op een individuele y-score kwantificeren als de afwijking van de y-score tot een doorsnee y waarde bij alle objecten, dus door d=y – y(gem). Dit is het effect van alle factoren te zamen. In de regressietheorie hebben we de invloed van x op y uitgedrukt in de regressiewaarde Ŷ. We kunnen het effect van x ook goed weergeven door Ŷ – y(gem). Dit effect noemen de gDe afstand van y tot de modelwaarde Ŷ (het residu e = y – Ŷ) is dan het resultaat (=effect) van andere invloeden dan x op y. Formule:
Y – y(gem) = Ŷ – y(gem) + (y – Ŷ) ofwel d = g + e Voorbeeld Totale effecten effecten van x residu effecten
Punt x y Ŷ=1.3+.75x d=y-y(gem)d² g=Ŷ –y(gem) g² e=y-Ŷ e²
1 1 1 2.05 -1.8 3.24 -.75 .5625 -1.05 1.1025
2 1 3 2.05 .2 .04 -.75 .5625 .95 .9025
3 2 3 2.8 .2 .04 0 .0 .2 .04
4 3 3 3.55 .2 .04 .75 .5625 -.55 .3025
5 3 4 3.55 1.2 1.44 .75 .56255 .45 .2025
Totaal 10 14 0 4.8 0 2.25 0 2.55
(gem) 2 2.8 =KSd =KSg =Kse

met de effecten is elke kolom 0, elk soort effect is gemiddeld dus ook 0. Deze eigenschap geldt voor elk kleinste KS model, maar niet voor andere. Dus d(gem)=e(gem)=g(gem)=0 kijken we naar de kwadratensommen dan zien we dat KS(totaal) = KS(regressieeffecten van x)) + (KS residu-effecten).
Naast het optimale lineaire model gaat dit ook op voor polynome modellen en het gemiddeldenmodel. De KS-en worden ook wel vaiaties genoemd. Dus:
KSd = KS y – Ŷ = de totale variatie in Y (in de y-scores)
KSg = KSŶ – y(gem)= de door x (via regressie) verklaarde variatie y
Kse = Ksy(gem) – Ŷ residuen variatie = niet (door x) verklaarde variatie in y
Omdat de totale variatie wordt opgesplitst in een deel verklaarde en niet verklaarde variatie spreken we van een variatie-analyse. De laatste formule noemen we ook de somregel voor variaties.

Van variaties naar varianties

Bovenstaande variaties gaan na deling door de groepsomvang n over in een variantie σ². Variantie is het gemiddelde van de gekwadrateerde deviaties tov de gemiddelde score (hoofdstuk 5). Dus: totaal y-variatieσ²y= d²(gem)=KSd = ∑(u-y(gem))² N n Dus: totaal residuen variatie σ²e=e²(gem) = Kse = ∑(y-Ŷ)² N n Dus: totaal regressievariatie σ²y=σ²g(gem)=g²(gem)=KSg = ∑(Ŷ-y(gem))² N n
Nu kunnen we variaties herformuleren in varianties, de somregel voor varianties:
Dus: σ²y=σ²Ŷ+σ²e
In woorden: de totale variantie van de y-scores kan bij een optimaal regressiemodel van y op x worden opgesplitst in een deel met regressie-variantie (van midelwaarden; de door x verklaarde variantie in y) en een deel met residuen-variantie (de niet door x verklaarde variantie in y).
Voordeel van het werken met varianties is dat de grootheid gestandaardiseerd is op het aantal scores. Variaties groeien mee met het aantal beschouwde scores toeneemt, varianties niet.

Proportie verklaarde varia(n)tie

De maar σ²Ŷ/σ²y geeft de proportie door x in y verklaarde variantie weer: hoe sterk hangt y van x af en is dus een afhankelijkheidsmaat. Omdat die maat mede afhangt van het gekozen regressiemodel, wordt zij per model verschillend genoemd:
Correlatieratio h² =σ²Ŷ/σ²y (=KSg) is gemiddeldenmodel (KSd)

Determinatie coefficient r² = σ²Ŷ/σ²y (= KSg) in polynoom model (KSd)

De correlatieratio h²

Berekenen van h² komt dus neer op berekenen van σ²Ŷ en σ²y. De waarde van h² ligt altijd tussen de 0 en 1.

De determinatie coëfficiënt r²

Zie hierboven.
Wanneer dan h² en wanneer r²?
Hangt af van het regressiemodel. Voor r² moeten x en y van interval niveau zijn, bij een gemiddeldenmodel met h²y alleen y. Is x dus van nominaal niveau dan komt alleen h² in aanmerking. Bij x en y interval dan staan alle keuzes open.

Keuze van een regressiemodel en een samenhangsmaat

Bij de keuze is het vereiste meetniveau het allerbelangrijkst. Wanneer en wat staat in het keuzeschema blz. 179

Hoofdstuk 11 Tijdreeksanalyse

Gegevens die in een serie opeenvolgende tijdstippen of perioden zijn verzameld heten tijdreeks of historische reek. De vraag is of zo’n tijdreeks een bepaald patroon laat zien, waardoor we voorspellingen kunnen doen. Bv een conjunctuur beweging.

Bewegingen in de tijd

We kunnen tijdgegevens bv afzet van ijs in een periode van 10 jaar weergeven in een tijddiagram.

Componenten van een tijdreeks

Een tijddiagram kent vaak pieken en dalen maar we kunnen de regressielijn erin tekenen waardoor we komen tot een trendmatige beweging of “trend van de reeks”. Hierbinnen is er vaak een seizoenbeweging. De cycluslengte van ijs (met daarbinnen de seizoenen die ook in een week kunnen zitten) is 1 jaar, die van de verkeersdrukte, met op werkdagen de ochtend en avondspits, is 1 dag. Golfbewegingen kunnen ook door elkaar lopen, bv dag, week, maand en jaargolf.
Als een trend zich plotseling op een ander niveau voortzet of ineens sterk van richting verandert, spreken we van een trendbreuk.
In een tijdreeksanalyse proberen we de cijferreeksen uiteen te rafelen in al deze golfbewegingen: de componenten. Doel is de componenten te onderkennen, de oorzaken ervan te bepalen en toekomstige waarden voor de reeks te voorspellen.

Bepaling van de trend

Een trendlijn loopt dwars door de schommelende (seizoen) lijn heen. 3 methoden.

Methode met kleinste kwadratensom

We zoeken een trendfunctie (lineair, parabolisch, exponentieel) die het best past bij het waargenomen verloop van de variabele in de tijd. Best past is die aanpassing Ŷ, waarbij de kwadratensom van de residuen Yt – Ŷt het kleinst is. Onafhankelijke variabele is de tijd.
De berekeningen die we moeten verrichten komen neer op die van de regressieanalyse. Bij een lineaire functie (Ŷ= a +bt) krijg je dus (zie hoofdstuk 7 voor bepaling van a en b):
B = ty(gem) – t(gem) * y(gem) en a= y(gem) – b*t(gem)
Z σ²t
De n perioden zijn genummerd van 1 tot n dus kunnen we t en σ²t uitdrukken in de formules:
T(gem) = ½(n+1) en σ²t is 1/12 (n²-1)
Bedoeling is natuurlijk te extrapoleren (op basis van gegevens uit het verleden te voorspellen).
Deze methode is globaal: de vorm van de trendlijn in recente perioden wordt net zo sterk mee bepaald door y-waarden in het verre verleden als door de y waarden in recente perioden.

Methode met voortschrijdend gemiddelde

In plaats van het laten meetellen van alle waarnemingen op de vorm van de regressielijn, laten we nu voor elk tijdstip dat een trendwaarde moet worden bepaald, slechts die y-waarden meetellen die in de directe omgeving van tijdstip t liggen; methode voortschrijdend gemiddelde.Deze bereken je als volgt:
Bij een oneven aantal (waarnemingen bv, stel 5) gedurende bv 3 weken, bepaal je het gemiddelde van de eerste 5 en zet je dat op de derde waarneming, dat is het gemiddelde van de periode (1 week), dan doe je hetzelfde voor de 2e en 3e week en krijg je dus 3 gemiddeldes. Je pakt dus eigenlijk van elke waarneming de 2 voorafgaande, de huidige en de 2 volgende om het gemiddelde van de huidige te krijgen.
Bij een even aantal (bv 4) pak je de vorige, de helft van degene daarvoor, de huidige, die erna komt en de helft van de 5e en deelt het door 4. In feite kun je dus zo voor elke waarneming het voortschrijdend gemiddelde bepalen maar in de grafiek zetten we de middelste.

Methode van exponentieel gladstrijken

Hierbij wordt de trend Ŷ bepaald door alle waarden van het begin van de tijdreeks tot en met y zelf. Formule: Ŷt = (Yt +(1-()Ŷt – 1)
Hierbij is de trendwaarde Ŷ het gewogen gemiddelde van de tijdreekswaarde y en de voorgaande trendwaarde Ŷ – 1.Door ( groter te kiezen, laten we de lokale waarde y zwaarder meetellen en de historie minder zwaar. Voorbeeld:
Kwartaal periode t afzet Yt
I 1 26
II 2 90
III 3 120
IV 4 32

Ŷt = yt =26
Ŷ2 = .3*90+.7*26 =45.2
Ŷ3 = .3*120+.7*45.2 =67.2
Ŷ4 = .3*32+.7*67.2 =56.9
Om de trend enigszins zuiver weer te geven mag ( niet te groot worden gekozen (anders volgt die teveel de seizoenbeweging), bv 1/cycluslengte. Bij een cycluslengte van 5 is dat dus 1/5 = 0.2. De factor ( heet de gladstrijkfactor. Deze methode is alleen na een groot aantal perioden adquaat. Bij voorspellingen kan men de trendlijn met de hand doortrekken (extrapoleren).

Seizoenbewegingen

Nu kunnen we beginnen met opsporen van bewegingen die zich periodiek herhalen. Om het seizoenpatroon te achterhalen bekijken we de residuen Yt – Ŷt, die er na de verrekening van de trend overblijven. Een tijdreekswaarde wordt geschreven als Y = Ŷ + S waarin S de constante seizoenafwijking voor een bepaald seizoen is. Vanwege de samenstelling van de tijdreekswaarde Y als som van een trend Ŷ en een seizoencomponent spreken we hier van een additief (seizoen)model.
Er is ook het multiplicatief (seizoen)model Y = Ŷ * S, waarin s de constante verhouding per seizoen is tussen de trendwaarde en de tijdreekswaarde inclusief seizoeninvloed: de seizoenindex.

Het additieve model

Wanneer we het voortschrijdend gemiddelde van elk seizoen hebben bepaald (zie bovenstaand voortschrijdend gemiddelde), dit is Ŷt, kunnen we per seizoen kijken hoeveel de werkelijke afzet afwijkt van het voorschrijdend gemiddelde. Zo krijgen we, als we bv een periode van 6 jaar nemen, per seizoen een afwijking van haar gemiddelde. We tellen dan elk seizoen bij elkaar op (alle eerste kwartalen, tweede etc) en nemen daar het gemiddelde van en ronden het af. Per seizoen krijg je dan dus de gemiddelde seizoenafwijking. Wanneer je dit bij de trendwaarde optelt krijg je dus de statistische afzet. Deze hoeft niet met de werkelijkheid overeen te komen, het verschil is dan toevalsafwijking. Zo is afzet = (lange termijn)trend + seizoenafwijking + toevalsafwijking. In formule Yt = Ŷt + St + et waarin et de toevalsafwijking is in periode t.
Kenmerk is dat het seizoenpatroon door de jaren heen als constant wordt beschouwd. Is dat niet zo, dan moeten we een ander model kiezen. Als we willen voorspellen nemen we de trendcomponent + de seizoencomponent plus een toevalscomponent tussen -2σ en +2σ.
Andersom kan natuurlijk ook: wanneer je bv van een seizoen iets weet (bv de werkloosheid) en je trekt daar de seizoencomponent af, dan krijg je kijk op de trendwaarde (inclusief toeval). Als de schommelingen met het stijgen van de trend lijken groter te worden, kunnen we beter het multiplicatieve model nemen.

Het multiplicatieve model

Hierbij is Yt = Ŷt * St * et. S is een constante per seizoen en e een hiervan onafhankelijke toevalsfactor. Die per periode varieert. In een tijdreeksanalyse zijn Yt en Ŷt bekende waarden, S en e moeten nog worden bepaald. Dit doen we door S en e voor elke periode te berekenen volgens s*e = Y/Ŷ (volgt uit bovenstaande formule) = s*e is dus waarneming gedeeld door trendwaarde. We weten dan elke s*e per seizoen. In het multiplicatieve model stellen we dat de toevalsindices elkaar in doorsnee opheffen dus dat alle e’s 1 zijn. Als we daarvan uitgaan weten we dat vermenigvuldiging van alle s ’n St oplevert.
Als er bv 5 waarnemingen zijn (5 seizoenen I) krijg je dus St (tot de 5e macht)= uitkomst. Zo berekenen we dus een seizoenindex als een geometrisch gemiddelde van alle quotiënten y/Ŷ in dat seizoen. Hun gemiddelde moet 1 zijn.

Naijleffecten

Is het analyseren van 1 tijdreeks al een hele klus, nog complexer wordt het als we 2 tijdreeksen onderling bestuderen. Om te zien of er verband bestaat kunnen we de correlatie coëfficiënt berekenen. Maar welke variabele “leidt” dan? Dit kun je in een grafiek zien als de ene voorijlt (of naijlt) achter de andere. Om ten berekenen hoelang dan wordt negeijld gebruiken we een kruiscorrelatie.

Hoofdstuk 12 Indexcijfers

Willen we twee of meer tijdreeksen met elkaar vergelijken, dan kan dat problemen geven als schaaleenheden in grootte of in soort verschillen.Om hieraan het hoofd te bieden gaan we over van de nominale waarden op verhoudingsgetallen zoals indexcijfers. Deze drukken de warde van iets in een bepaalde periode (of een bepaalde plaats) uit in procenten van de waarden die het in een vroegere – even grote- periode gehad zou hebben.

Indexcijfers

Indexcijfers worden weergegeven als percentages. Bij berekeningen is het handiger de indexcijfers als decimale breuk aan te geven. Worden er meer variabelen gelijktijdig in een indexcijfer betrokken dan noemen we dat indexcijfer samengesteld.

Enkelvoudige prijs,hoeveelheids- en waarde-indescijfers

Er worden prijsindexcijfers, hoeveelheidsindexcijfers en waardeindexcijfers inderscheiden.

Prijsindexcijfer = Ip=Pt Hoeveelheidsindexcijfer=Oq=Qt Waardeindexcijfer=Iw=Wt Po Qo Wo
Pt = prijs in lopende periode Qt=hoeveelheid in lopende periode Wt=waarde lopende periode
Po=prijs in basisperiode Qo=hoeveelheid in basisperiode Wo=waarde basisperiode

Het indexcijfer is dimensieloos dwz dat de grootte van een kenmerk in de basisperiode en in de lopende periode dezelfde dimensie hebben (maakt niet uit of het is uitgedrukt in guldens, tonnen, dollars etc).

Wijziging in de basisperiode

Wanneer het basisjaar wijzigt, wijzigt natuurlijk ook het indexcijfer. Keuze van een basisjaar is in principe vrij. Gevolg van een vaste verhouding tussen nieuwe en oude indexcijfers met tenminste 1 gemeenschappelijke periode is dat we ze aan elkaar kunnen koppelen. Voorbeeld:
Jaar reeks 1 reeks 2 koppeling 1985=100 1988=100 index 1989=100
1985 100 - 100/122=82
1986 112 - 112/122=92
1989 122 105 =100
1991 - 117 117/105=111
1993 - 124 124/105=118

Samengestelde indexcijfers

Vaak moeten we de prijzen van verschillende goederen volgen en de prijsveranderingen in 1 samengesteld indexcijfer uitdrukken. Dit meer dus de verandering in prijs, hoeveelheid of waarde van een pakket goederen en diensten als geheel. Enkelvoudige cijfers worden dan dus partiele indexcijfers.

Budgetonderzoek

Het CBS vraagt gezinnen gedurende een maand een huishoudboekje bij te houden. Door stijgende of dalende welvaart en gewijzigde consumptievoorkeur veranderen de bestedingspatronen.
Het relatieve aandeel in de uitgaven aan een bepaald goed of een bepaalde dienst wordt de budgetquote genoemd: budgetquote = besteed bedrag een een goed/dienst = Wo Totaal besteed bedrag aan goederen/diensten (Wo
Of, aangezien geldbedrag = prijs x hoeveelheid: (prijs x hoeveelheid) van een goed/dienst = PoQo Som van (prijs x hoeveelheid) goederen/diensten (PoQo

Samengesteld waarde-indexcijfer

Verschillende goederen opgeteld leveren een waarde. Wanneer je dezelfde goederen van een latere periode deelt door de eerste periode krijg je het samengesteld indexcijfer.

Samengesteld prijsindexcijfer

Het samengesteld waarde indexcijfer stijgt of daalt als gevolg van prijs- en hoeveelheidsveranderingen. Omdat de ene prijsstijging meer drukt op een budget dan een anderen moeten we bij het middelen rekening houden met het relatieve belang van de verschillende goederen en diensten waarvan we de enkelvoudige prijsindexcijfers moeten middelen. We moeten dan het gewogen gemiddelde nemen: X (gem; gewogen)= (Xg (g waarin x de scores zijn en g de bijbehorende gewichten. Vervangen we x door Ip dan luidt de formule van een samengesteld van een bepaald goederen- en dienstenpakket: Ip(in een periode) = (Ipg = (Ipg’ (g
Het gewicht drukt het relatieve belang van het goed of dienst in het bestedingspakket uit. In de Laspeyres-, de Paasche- en de Fisher index komt dit naar voren.

Laspeyres-index

Hierbij wordt het gewicht in het samengestelde prijsindexcijfer de waarde Wo uit het basisjaar gekozen. Voorbeeld:
Goed/dienst prijs per eenheid enkelvoudig waardebedrag 1975 1975 1993 prijsindexcijfer 1975=100 Wo IpWo huishuur 3600 6990 1.942 3600 6990 gas 0,22 0,48 2.182 919,60 2006,57
Electriciteit 0,13 0,18 1.385 264,03 365,68
Lampen 1,50 1,38 0.92 18,- 16,56
Water 0,76 1,10 1.447 104,12 150,66 4905,75 9529,47
Prijsindexcijfer wordt dan 9529,47/4905,75= 1.94. Hierbij wordt dus wel de prijsverandering meegenomen maar niet de hoeveelheidsverandering. Dezelfde van 1975 wordt aangehouden. Deze methode wordt ook wel de indirecte methode genoemd, omdat we de items stuk voor stuk moeten berekenen. Bij de directe methode met formule Ip (Laspeyres)= (PtQo (Pt is prijs in verslagperiode) (PoQo

Paasche prijsindex

Als de samenstelling van het goederen- en dienstenpakket verandert, is het samengestelde prijsindexcijfer van Laspeyres geen reële weergave van de prijsveranderingen meer. Om veranderingen in de bijdrage van een goed of dienst goed tot uiting te laten komen, kunnen we beter baseren op de quote uit het verslagjaar t zelf. In formule: Ip(Paasche) = ( PtQt (Qt is hoeveelheid in verslagperiode) (PoQt
Dan wordt dus de prijsverandering meegenomen maar het waarde verschil gebaseerd op de hoeveelheid in het verslagjaar.

Laspeyres of Paasche?

Bij Paasche zijn dus de gewichten voor elk jaar anders. Bij Laspeyres blijven de gewichten constant. Meestal is Laspeyres groter dan Paasche. Het verschil kan groot worden als de hoeveelheden veel gaan verschillen. Omdat Laspeyres de onderlinge vergelijkbaarheid verhoogt gebruikt het CBS die. Paasche wordt weinig gebruikt.

Fisher prijsindex

Fisher combineert de gunstige eigenschappen van beiden: Ip(fisher) = (Ip(Laspeyres) x Ip(Paasche).
Nadeel is wel dat zij niet meer kunnen worden opgevat als gewogen gemiddelden van enkelvoudige indexcijfers, waardoor ze minder eenvoudig zijn te interpreteren.

Samengestelde hoeveelheidsindexcijfers

Ook hoeveelheid kunnen we uitdrukken in een samengesteld indexcijfer. We kijken dan naar de hoeveelheidsverandering en hanteren de prijs uit het basisjaar. Zelfde dus als Laspeyres maar dan met hoeveelheid. Maar we kunnen natuurlijk ook de prijzen hanteren uit het verslagjaar zoals Paasche. Fisher middelt deze weer door de wortel uit Laspeyres en Paasche.

Enkele belangrijke indexcijfers

Index reëel inkomen: toepassing van het prijsindexcijfer

Hierbij worden de prijzen vergeleken met het inkomen. Loonindex Prijsindex

Prijsindexcijfers van in- en uitvoer; ruilvoetverbetering

Ruilvoet: prijsindexcijfer uitvoer Prijsindexcijfer invoer

Beurs indices

Similar Documents

Free Essay

Jopie

...Lieve sjaarzen, Het is zeer belangrijk voor het dispuut dat iedereen zijn uiterste best doet deze afroeiperiode soepel te laten verlopen, dit betekent dus dat iedereen aanwezig is op alle onderstaande data. We willen natuurlijk een minimaal zo mooie lichting naar ons toe trekken als voorgaande jaren. Traditionele avonden altijd jasje dasje. Donderdag avonden exorbitant verkleed. Wij hebben het volgende plan bedacht om de nieuwe lichting te gaan samenstellen. Ten eerste zorg dat je met alle nieuwe leden zoveel mogelijk socialized. Wij als bestuur willen graag dat ieder voor zich iedere week een potentiële lichting samenstelt. Hiervoor gaan wij een speciale mailing starten. Dit om geen enkele mooie baas mis te lopen! Kopieer niet van je lichtingsgenoten, maar probeer iedere week weer nieuwe mensen toe te voegen. 2 september : Start afroeiperiode (is een maandag!) Eerst contactpunt sjaarzen! 3 september : Traditionele avond, elke week op dinsdag vanaf deze datum tijdens de afroeiperiode. 5 september: Kikkerfeest op donderdag. 10 september: Traditionele avond. 12 september: Vuur feest. 13 september: Erasmus sprints; bestuur + UV 8.* 13 t/m 21 Bar klussen lustrum week ( 3 avonden tappen met feest) ; tapschema volgt nog. 24 september: Borrel nieuwe ‘’verticale’’ het elfde 25 september: sjaarzendiner; hoeft niemand bij te zijn maar bob en mets tappen?! 26 september: Comprix feest. 1 Oktober: Traditionele avond. 3 Oktober: Dolgedraaid/Emmer feest! 7 t/m 10 Oktober:...

Words: 422 - Pages: 2

Free Essay

Man Van de Wereld Controle

...Man van de Wereld Controle Het vliegveldje van Monsterrat is klein. Een kort start -en landingsbaantje met een hut ernaast. Wie hier komt, gaat weer. Op het eilandje zelf is niks te doen. Midden op het eiland staat een imposante vulkaan die zich eeuwenlang gedeisd hield. Tot een jaar of vijftien geleden. Het gevolg: drie-kwart van Monsterrat verdween onder de gloeiende lava. Zelfs de hoofdstad, inclusief parlement, werd compleet verzwolgen. Sindsdien is het behelpen, legt mijn gastheer uit, exploitant van een hotelletje op de helling dat wonderwel gespaard bleef. ‘Maar die krater, meneer, die is beslist de moeite van het bezoeken waard. En die lava, zo véél! Gasten zijn daar vandaag niet op af gekomen. ‘Maar dat ligt aan het seizoen’, weet hij. De terugweg naar Nederland, althans naar Sint Maarten, gaat onverbiddelijk weer via het vliegveld. Daar blijkt dat het eiland nog altijd meetelt op het gebied van de internationale veiligheidsvoorschriften. Ik heb een fototas met camera en toebehoren. Plus een trolley met kleding. Er zijn vijf andere passagiers vanochtend. Ik sta vooraan, ik was wat aan de vroegere kant. Er is slechts één veiligheidsdame, maar die is niet te missen. Zij smijt mijn koffer en de tas op een bandje dat piepend leidt naar een vooroorlogs röntgenapparaat. Intussen bast haar stem door de ruimte: ‘Anything to declare?’ Naar eer en geweten antwoord ik van nee. Dat overtuigt haar niet. Alles moet open. En nee, de rest wacht maar...

Words: 502 - Pages: 3

Free Essay

20,000 Miljen Onder Zee

...106 toestand?" Ik aarzelde om te spreken. "Gij kunt gerust spreken," zeide de kapitein, "die man verstaat geen Fransch." Ik keek den gewonde nog eens aan, en antwoordde: "Die man zal binnen twee uur dood zijn." "Kan niets hem meer redden?" "Niets." De hand van den kapitein wrong zich krampachtig samen, en eenige tranen sprongen hem uit de oogen, welke ik niet dacht dat ooit tranen konden storten. Ik beschouwde nogmaals den stervende, wiens leven langzaam wegvlood; zijne bleekheid werd nog vermeerderd door het electrieke licht, hetwelk dit doodbed bescheen. Ik vestigde het oog op het schrandere gelaat, waarin tal van rimpels, door het ongeluk, misschien door de ellende gegrift waren. Ik trachtte door te dringen in het geheim van dit leven door middel, van enkele woorden, welke over zijn lippen kwamen! "Gij kunt vertrekken, mijnheer Aronnax," zeide kapitein Nemo. Ik liet den kapitein in de hut van den stervende en ging ontroerd van dit tooneel naar mijne kamer. Ik werd gedurende den ganschen dag door sombere voorgevoelens gekweld. Dien nacht sliep ik slecht, en in mijn dikwijls afgebroken slaap meende ik in de verte te hooren zuchten en lijkzangen zingen. Was dit soms het gebed voor stervenden in die taal, welke ik niet begreep? Den volgenden morgen ging ik op het plat; de kapitein was er reeds; toen hij mij zag, kwam hij naar mij toe. "Mijnheer de professor," zeide hij, "hebt gij lust om heden eene wandeling onder zee te maken?" "Met mijne makkers?" "Als...

Words: 1646 - Pages: 7

Free Essay

Dictature

...De alleswetende dictatuur! Inhoudsopgave: Inleiding Hoofdstuk1: Belangrijke Technieken. Hoofdstuk 2: Spionage. Hoofdstuk 3: Bekentenissen. Hoofdstuk 4: Straffen. Hoofdstuk 5: Verzet. Conclusie Literatuurlijst Bijlage Inleiding: In Nederland kennen wij de vrijheid van meningsuiting, vrijheid van drukpers, vrijheid van briefgeheim en als allerbelangrijkste het recht op een privéleven. Iedereen vult zijn leven naar eigen behoren in. Er waren vroeger/ Er zijn nog steeds landen waar alles door de staat wordt geregeld. Nu kan bijna niemand zich voorstellen dat de staat invloed heeft op het dagelijks leven. Laat staan op je privéleven. We hebben de opdracht gekregen om in blok 3 een praktische opdracht te maken. Deze luidt: “totalitaire dictatuur”. Maar wat is totalitaire dictatuur eigenlijk? Totalitaire dictatuur is een systeem waarbij de staat bijna volledige controle heeft op het dagelijks leven van mensen, zowel in politiek, cultureel, filosofisch, godsdienstig als in sociaal of economisch opzicht. Hierin moeten wij onderzoeken hoe het leven van de bevolking eruit ziet in zo´n dictatuur. Aan het eind van dit P.O. heb je een conclusie waarin je de volgende vragen goed moet kunnen beantwoorden: Hoe zag het leven van de bevolking in een totalitaire dictatuur eruit?. Daarnaast zijn er nog 3 deelvragen: - Waarom vindt een totalitaire dictatuur het...

Words: 3711 - Pages: 15

Free Essay

Boekverslag Multatuli

...Jesse Faber V6C Titelbeschrijving Harry Mulisch, Ontdekking van de hemel, de bezige bij Amsterdam, 1e druk 1992 , 901 bladzijden De eerste reactie achteraf. |niet |een beetje|Erg| Spannend||x|| Meeslepend| | |x| Ontroerend|| x|| Grappig|x| | | Realistisch| |x|| Fantasierijk|| | x| Interessant|| |x| Origineel| | |x| Goed te begrijpen| |x|| Optimistisch|| x| | Goed geschreven| || x| · Dit werk heeft mij aan het denken gezet. nee/ ja over. Alle aspecten van het leven, omdat het een combinatie is van: religie, vriendschap, historie · Dit werk spreekt mij wel/niet aan, omdat het een goed verhaal is met tot de verbeelding sprekende gebeurtenissen en prachtige dialogen. Zes aandachtspunten 1 Aandachtspunt: Structuur Reden van mijn keuze: Het boek heeft een opvallende structuur. Het boek begint met een proloog en eindigt met een epiloog. Het boek is volledig chronologisch verteld met uitzondering van de intermezzo's van de engelen en hun chef. De titel's van het hoodstukken vallen ook op, na het hoofdstuk snap je de titel en de titel dan vaak in een woord de strekking van het hoofdstuk weer. Het opvallende aspect zit hem in de stukjes die worden verteld door de engelen.Hierin wordt al aagegevn waar het verhaal op uit draait.Zo komt bijvoorbeeld in het proloog al aan bod dat ze een nieuwe messias willen creeren.Zoals ook wordt aangegeven op bladzijde 9 "Dat wij in ons Oneindige Licht een Vonk hebben voor elke mogelijke combinatie van een...

Words: 3511 - Pages: 15

Free Essay

Architectuur in Nederland

...[pic] [pic] Inhoudsopgaven Titelblad blz. 1 Inhoudsopgave blz. 2 Inleiding blz. 3 Hoofd- en deelvragen blz. 3 Wat is architectuur? blz. 4 Woonhuizen blz. 5 Architectuur & Natuur blz. 6 Architectuur & Decoratie blz. 7, 8 De Nederlandse trapgevel blz. 9 t/m 12 Globale architectuurindeling van Nederland blz. 13 t/m 18 Bouwexplosie na 1945 blz. 18, 19 Architectuur vanaf 1970 tot heden blz. 20 t/m 24 Conslusie blz. 25 Logboek blz. 27, 28 Bronvermelding blz. 29, 30 Inleiding Het woord architectuur is een groot begrip. Je hebt architectuur aan de buitenzijde van huizen, waar ik het over ga hebben. Maar je hebt ook binnenhuisarchitectuur en tuinarchitectuur. Binnen deze architecten vormen zijn heel veel verschillende stijlen of stromingen te vinden. Ook in elk land heb je een eigen architectuur. Ik ga het vooral hebben over onze eigen Nederlandse architectuur, hoe het ontstaan is en de kenmerken ervan. Sommige mensen zullen denken: ‘Wat maakt mij uit wat voor een soort architecturen er zijn?’. Maar de architectuur is ook belangrijk voor de mens. Dit is ook bij iedereen verschillend. Ik zelf, vind het leuker om door een oud dorpje te lopen dan door een nieuwbouwwijk en de kleinste versierinkjes kunnen mij heel erg opvallen en boeien. De architectuur kan je humeur beïnvloeden. Je kunt met de architectuur een huis...

Words: 9429 - Pages: 38

Free Essay

History

...§8 het christendom   Het Jodendom De joden waren de bewoners van Palestina. De godsdienstige naam van de joden wordt het Jodendom genoemd. Zij staan in het Ouder Testament. Daarin staat dat God aan Mozes opdracht gaf Tien Gebodenaan de mensen door te geven (enkele daarvan);  eert uw vader en moeder, niet stelen, niet doden, niet echtbreken. Toen de Joden telkens door andere volken werden over heerst, kwam het geloof in een verlosser op. Jezus van Nazareth werd door sommige gezien als verlosser.   Jezus van Nazareth Jezus werd in de tijd v/d  keizer augustus geboren te Bethlehem in Palestina. Hij begon toen-ie 30 was te prediken. Hij sprak over een ‘koninkrijk van God’. Dat koninkrijk zou bezit worden van alle arme.  Ook gaf hij de mensen hoop op een beter leven na de dood, als ze goed gedrag toonde. Toen sommige hem tot verlosser  gingen zien klaagden Joodse leiders hem aan. De Romeinse gouverneur, Pontius Pilatusveroordeelde heb tot de dood. De volgelingen vonden hem een goddelijk wezen en noemden heb Christus,  volgelingen heten Christenen. Volgens zijn volgelingen steeg Jezus 40 dagen na zijn dood naar de hemel. (Pasen en Hemelvaart wordt er gevierd). Christenen geloven dat God Jezus heeft gestuurd. Sinds Adam & Eva ongehoorzaam zijn geweest, alleen Jezus kon die breuk herstellen. Jezus zou later terug keren en alle rijken verenigen.   Het christendom vastgelegd in de bijbel Met christendom word de godsdienstige opvatting v/d christenen bedoeld. Die opvattingen...

Words: 3870 - Pages: 16

Free Essay

Nieuw Product Mona

...Over Datum 15 juni 2009 Inhoudsopgave blz. 2 1. Inleiding blz. 3 2. Micro analyse blz. 4 1. Bedrijfsfuncties blz. 4 2. 4p’s blz. 4 3. Sterkte/zwakte-analyse blz. 5 3. Meso analyse blz. 6 1. 5 krachtenmodel Porter blz. 7 2. Kansen/bedreigingen-analyse blz. 8 4. Macro analyse (DESTEP erin verwerkt) blz. 9 5. SWOT- analyse blz. 11 6. Confrontatie matrix blz. 12 1. Conclusies op basis van de confrontatiematrix blz. 13 7. Lanceringstrategie blz. 14 1. Marketingmix blz. 14 2. Breakeven afzet analyse blz. 15 8. Communicatieplan blz. 17 9. Literatuurlijst+bronnenlijst blz. 19 Inleiding Mona is onderdeel van Friesevlag Campina. Mona bestaat al vanaf 1970 en is al meer dan 35 jaar hét toetjesmerk van Nederland. Het is een van de grootste zuivelmerken in de Nederlandse supermarkt en daarbij hoort Mona ook nog is bij de top 20 van best verkochte merken in de Nederlandse supermarkt. Dit is behaald door een eigentijds en op de consument gericht merkenbeleid. En ook nog door de sterke themacampagnes waar Mona om bekend staat. Mona vind nieuwe producten en variatie belangrijk. Dit komt omdat smaak met de tijd verandert. Ze richten zich erg op de consument. Maar nog sterker op innovatie. Dit kan je terug zien in ons assortiment. Ons assortiment bestaat nu uit zo’n 90 verschillende producten, variërend...

Words: 6283 - Pages: 26

Free Essay

Events

...© - 2008 Deadline Entertainment Group VOORWOORD . . . . . . . . . . . . . . . . . . . . . . . InleIDInG . . . . . . . . . . . . . . . . . . . . . . . . . . Het FeStIValteRReIn . . . . . . . . . . . . . . . . 3 4 6 De papIeRWInkel . . . . . . . . . . . . . . . . . . 34 3.1 BeGROtInG . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 SaBaM en BIllIjke VeRGOeDInG . . . . . . . . . 36 3.2.1 SABAM 3.2.2 De Billijke Vergoeding 3.3 Het nIeuWe aRtIeStenStatuut . . . . . . . . . 38 3.4 COntRaCten . . . . . . . . . . . . . . . . . . . . . . 39 1.1 teRReInGeSCHIktHeID . . . . . . . . . . . . . . . . . 6 1.2 alGeMene SCHetS . . . . . . . . . . . . . . . . . . . . 8 1.2.1 In- en uitgang 1.2.2 Podium 1.2.3 Drank- en eetbonnetjesstand 1.2.4 Drank- en eetstand 1.2.5 Licht- en geluidstoren of PA 1.2.6 Veiligheidsbuffer 1.2.7 Signeerstand 1.2.8 EHBO 1.2.9 Merchandising 1.2.10 Sponsors 1.2.11 Sanitair 1.2.12 Bewegwijzering en informatie 1.2.13 Backstage 1.3 Denk OOk eenS aan . . . . . . . . . . . . . . . . . . . 15 1.3.1 Ecologisch festival 1.3.2 Toegankelijkheid gehandicapten WeRkplan StReSSFaCtOR 4.1.1 Unit algemene organistatie 4.1.2 Unit stagehands 4.1.3 Unit catering 4.1.4 Unit techniek 4.1.5 Unit security 4.1.6 Unit PR 4.1.7 Unit sponsoring en subsidies 4.1.8 Unit backstage . . . . . . . . . . 40 4.1 De GROte VOORBeReIDInGen . . . . . . . . . . . 41 4.2 De laatSte alGeMene VeRGaDeRInG . . . . . 49 4.3 ‘le MOMent SupRèMe’: De FeStIValDaG . . . 50 BIjlaGen ...

Words: 34628 - Pages: 139

Free Essay

Hsfh

...Werktitel (en ook niet meer dan dat…): Economie voor Nederlanders en hun bestuurders Floris Heukelom f.heukelom@fm.ru.nl Conceptversie – gelieve niet te verspreiden Te verschijnen bij: Boom Uitgeverij Inhoudsopgave Inleiding pag [?] 1. Politiek en economie pag [?] 2. Overheid en markt pag [?] 3. Nederland en Europa: de economie van onderlinge verbondenheid pag [?] 4. De overheid als BBP- en/of geluksmachine pag [?] 5. Wel of juist niet bezuinigen? pag [?] 6. Regels, prikkels en psychologie pag [?] 7. Indicatoren: zegen of vloek? pag [?] 8. Vertrouwen als appeltaart pag [?] Conclusie: Wat valt er te kiezen? pag [?] Inleiding Mensen leven samen in groepen, want goed samenleven heeft evolutionaire voordelen. Het feit dat wij homo sapiens de taken tussen man en vrouw verdelen, maar in geval van nood voor elkaar in kunnen springen, gaf ons een duidelijk voordeel ten opzichte van de sterkere en minstens zo slimme Neanderthaler. En in weerwil van de dominante idealisering van individuele excellentie op school, het sportveld, of in het bedrijf, is goed samenleven voor de mens vele malen belangrijker dan zijn of haar cognitieve en lichamelijke kwaliteiten. Zo is een mens van gemiddelde lichamelijke en intellectuele kunne veel beter af in een goed georganiseerde samenleving als de Nederlandse, dan in een slecht georganiseerde samenleving als die van pak ‘m beet Zimbabwe, of die van Nederland...

Words: 36289 - Pages: 146