Plinius

søndag, oktober 23, 2011

P 151/11: Ni trinn statistikk

Filed under: profesjon, statistikk — plinius @ 11:44 pm

Denne posten anvender nitrinnsmodellen på statistikk, med bibliotekstatistikk som eksempel.

Trinn 1. Ett ord

Kjenner ordet statistikk.

Trinn 2. Ti ord

Statistikk er et matematisk fag som arbeider med analyse av observerte kvantitative data. [13 ord].

Trinn 3. Hundre ord

Statistikk er vitenskapen for planlegging av undersøkelser, innsamling og presentasjon av tallmateriale, og analyse og beslutninger ut fra innsamlede data. Data er ofte et utvalg fra en avgrenset mengde (populasjon) personer, organisasjoner, dokumenter, transaksjoner eller andre enheter. Data  kan også omfatte hele populasjonen (fullstendig telling) eller observasjoner av fysiske og biologiske fenomener. Ordet statistikk brukes også om de innsamlede og analyserte dataene.

Faget statistikk kan deles inn i teoretisk (induktiv) og beskrivende (deskriptiv) statistikk. Teoretisk statistikk bygger på matematisk statistikk og sannsynlighetsteori, mens deskriptiv statistikk omfatter systematisk beskrivelse (ved hjelp av tabeller, grafer og tallmål) av utvalg, populasjoner og datasett. [100 ord].

Kilde: SNL. Statistikk, forkortet og bearbeidet av TH.

Trinn 4. Tusen ord = fem sider = fem minutter

I vedlegget har jeg gjengitt en forkortet versjon  av artikkelen Statistics i Wikipedia. Den omfatter ca. 1150 ord.

Artikkelen kan kanskje skumleses på fem minutter, men hvis leseren ikke kan en god del statistikk på forhånd, kommer det svært lite statistisk kunnskap ut av lesingen. Statistikk kan ikke pugges, men må innøves gjennom statistisk praksis. Det vil si å arbeide med konkrete eksempler og modeller.

Øve, øve, jevnt og trutt og tappert det er tingen … enten du skal lære å svømme, danse, undervise eller å mestre statistikk.

Derfor skifter jeg skala fra ord og sidetall til timer, uker og år.

Trinn 5. En time

Det er lett å bruke en hel time – eller ti timer – på den engelske Wikipedia-artikkelen ved å følge opp lenkene i teksten, men denne veien blir alt for bratt for nybegynnere. De bør heller lese en populær innføringsbok, av typen Huff, Darrell (1954) How to Lie With Statistics (mange nyopplag).

Trinn 6. Ti timer

Veien videre er mer komplisert. Dagens norske elever lærer litt statistikk på videregående skole (jeg må sjekke timetallet). Totalt bruker de sikkert mer enn ti timer (inkludert hjemmearbeid) på dette faget.

Men deres ferdigheter når de starter på et studium, tilsvarer neppe mer enn ti timers innsats. Resten har dunstet bort underveis. Selv elementær prosentregning skaper problemer.

Trinn 7. Hundre timer

Mange fag har obligatoriske kurs i statistikk og metodelære. Forventet arbeidsinnsats innenfor en bachelor kan dreie seg om hundre timer. Men disse kursene mangler ofte (etter min vurdering) en forankring i fagenes løpende statistiske praksis. Problemet er minst i realfag, medisin, psykologi og økonomiske fag, som har godt etablerte fagstatistiske miljøer (medisinsk statistikk, psykometri, økonometri). Det er større i de andre samfunnsfagene. Det er antagelig størst i de kortere profesjonsfagene som prøver å etablere egne forskningsmiljøer.

De humanistiske fagene skiller seg ut. De betrakter ikke matematikk og statistikk som sentrale hjelpefag. De som likevel arbeider statistisk, gjør det ut fra en personlig interesse. Statistiske arbeider og metoder i humanistiske fag holder derfor ofte høyere kvalitet enn de ukritiske og trivielle statistiske analysene som preger mange samfunnsfaglige artikler og rapporter.

Kurset Statistikk i praksis, som gikk over tre hele uker høsten 2010 og vinteren 2011, var en annen måte å organisere statistisk opplæring på. Kurset var organisert som et verksted for yrkesaktive bibliotekarer. Deltakerne arbeidet sammen omtrent nitti timer – dels med egne prosjekter basert på lokale data, og dels innenfor seminarer der vi presenterte og diskuterte ulike måter å bruke bibliotekstatistikken på.

Siden arbeidet fortsatte mellom og etter samlingene, har deltakerne, vil jeg tro, investert kanskje 150 til 200 timer. Da er de ikke lenger rene begynnere, men i noen grad kompetente utøvere (Dreyfus).

Trinn 8. Tusen timer

Tusen timer tilsvarer kanskje femti studiepoeng, altså nesten et fullt studieår. De som har brukt så pass mye tid på statistikk innenfor sitt eget fagområde, vil være ganske drevne utøvere – og gode ressurspersoner for sine kolleger – enten vi snakker om biologer, lærere, sosialarbeidere eller bibliotekarer.

Trinn 9. Ti tusen timer

Det gamle hovedfagsstudiet i statistikk omfattet mellomfag (1,5 år) og hovedfag (minst 2 år). Da er vi oppe i fem tusen timer. En statistisk doktorgrad eller tilsvarende, gir ytterligere fem tusen timer. En profesjonell statistiker på høyt nivå starter her – med ti tusen timer som grunnlag.

Deretter må hun spesialisere seg. Ingen kan være virtuos på alle statistiske områder samtidig. Bibliotekstatistikk (eller kulturstatistikk) er bare ett av mange slike spesialiteter.

Ressurser

VEDLEGG

Trinn 4

Some consider statistics to be a mathematical science pertaining to the collection, analysis, interpretation or explanation, and presentation of data, while others consider it a branch of mathematics concerned with collecting and interpreting data. Because of its empirical roots and its focus on applications, statistics is usually considered to be a distinct mathematical science rather than a branch of mathematics.

Statisticians improve the quality of data with the design of experiments and survey sampling. Statistics also provides tools for prediction and forecasting using data and statistical models. Statistics is applicable to a wide variety of academic disciplines, including natural and social sciences, government, and business. Statistical consultants are available to provide help for organizations and companies without direct access to expertise relevant to their particular problems.

Statistical methods can be used to summarize or describe a collection of data; this is called descriptive statistics. This is useful in research, when communicating the results of experiments. In addition, patterns in the data may be modeled in a way that accounts for randomness and uncertainty in the observations, and are then used to draw inferences about the process or population being studied; this is called inferential statistics. Inference is a vital element of scientific advance, since it provides a prediction (based in data) for where a theory logically leads.

To prove the guiding theory further, these predictions are tested as well, as part of the scientific method. If the inference holds true, then the descriptive statistics of the new data increase the soundness of that hypothesis. Descriptive statistics and inferential statistics (a.k.a., predictive statistics) together comprise applied statistics.

Statistics is closely related to probability theory, with which it is often grouped; the difference is roughly that in probability theory, one starts from the given parameters of a total population to deduce probabilities pertaining to samples, but statistical inference moves in the opposite direction, inductive inference from samples to the parameters of a larger or total population.

Early applications of statistical thinking revolved around the needs of states to base policy on demographic and economic data, hence its stat- etymology. The scope of the discipline of statistics broadened in the early 19th century to include the collection and analysis of data in general. Today, statistics is widely employed in government, business, and the natural and social sciences.The use of modern computers has expedited large-scale statistical computation, and has also made possible new methods that are impractical to perform manually.

In applying statistics to a scientific, industrial, or societal problem, it is necessary to begin with a population or process to be studied. Populations can be diverse topics such as «all persons living in a country» or «every atom composing a crystal». A population can also be composed of observations of a process at various times, with the data from each observation serving as a different member of the overall group. Data collected about this kind of «population» constitutes what is called a time series.

For practical reasons, a chosen subset of the population called a sample is studied — as opposed to compiling data about the entire group (an operation called census). Once a sample that is representative of the population is determined, data are collected for the sample members in an observational or experimental setting. These data can then be subjected to statistical analysis, serving two related purposes: description and inference.

The concept of correlation is particularly noteworthy for the potential confusion it can cause. Statistical analysis of a data set often reveals that two variables (properties) of the population under consideration tend to vary together, as if they were connected. For example, a study of annual income that also looks at age of death might find that poor people tend to have shorter lives than affluent people. The two variables are said to be correlated; however, they may or may not be the cause of one another. The correlation phenomena could be caused by a third, previously unconsidered phenomenon, called a lurking variable or confounding variable. For this reason, there is no way to immediately infer the existence of a causal relationship between the two variables.

For a sample to be used as a guide to an entire population, it is important that it is truly a representative of that overall population. Representative sampling assures that the inferences and conclusions can be safely extended from the sample to the population as a whole. A major problem lies in determining the extent to which the sample chosen is actually representative. Statistics offers methods to estimate and correct for any random trending within the sample and data collection procedures. There are also methods of experimental design for experiments that can lessen these issues at the outset of a study, strengthening its capability to discern truths about the population. Statisticians describe stronger methods as more «robust».

Randomness is studied using the mathematical discipline of probability theory. Probability is used in «mathematical statistics» (alternatively, «statistical theory«) to study the sampling distributions of sample statistics and, more generally, the properties of statistical procedures. The use of any statistical method is valid when the system or population under consideration satisfies the assumptions of the method.

Misuse of statistics can produce subtle, but serious errors in description and interpretation — subtle in the sense that even experienced professionals make such errors, and serious in the sense that they can lead to devastating decision errors. For instance, social policy, medical practice, and the reliability of structures like bridges all rely on the proper use of statistics. See below for further discussion.

Even when statistical techniques are correctly applied, the results can be difficult to interpret for those lacking expertise. The statistical significance of a trend in the data — which measures the extent to which a trend could be caused by random variation in the sample — may or may not agree with an intuitive sense of its significance. The set of basic statistical skills (and skepticism) that people need to deal with information in their everyday lives properly is referred to as statistical literacy.

Legg igjen en kommentar »

Ingen kommentarer så langt.

RSS feed for comments on this post. TrackBack URI

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s

Blogg på WordPress.com.

%d bloggers like this: