Statistici de învățare, de la prezentare la măsuri de distribuire a datelor

Statistica este o știință matematică care studiază colectarea, prelucrarea, analiza și prezentarea datelor. Statisticile sunt utilizate pe scară largă la companiile de asigurări, dintre care una este determinarea cuantumului primei într-o poliță de asigurare. Fiecare titular de asigurare este obligat să plătească o contribuție numită primă. Prima plătită este în conformitate cu acoperirea de asigurare pe care o primește.

Aici, compania de asigurări folosește statistici, astfel încât suma primei să fie în concordanță cu valoarea acoperirii care poate fi asigurată titularului asigurării. În acest fel, ambele părți beneficiază de aceasta.

Așa cum s-a menționat anterior, statisticile nu colectează și procesează doar, dar prezintă și date. Statistica utilizează, de asemenea, mai multe măsuri de distribuire a datelor în procesarea datelor. Astăzi, vom discuta tipurile de prezentare, precum și dimensiunea răspândirii datelor în statistici.

Tipuri de prezentare a datelor

Tipurile de prezentare a datelor în statistici includ tabele de distribuție a frecvenței, histograme, poligoane și ogive.

Prima formă de prezentare a datelor este utilizarea unui tabel de distribuție a frecvenței. După cum sugerează și numele, folosim un tabel pentru a afișa tipul și cantitatea de date obținute. Tabelul de distribuție a frecvenței are, de asemenea, mai multe tipuri, și anume tabelul de distribuție a frecvenței pentru date unice și date de grup.

(Citiți și: Două date de măsurare în statistici)

Un singur tabel de distribuție a frecvenței datelor este utilizat pentru a prezenta cantități mici de date, cel puțin mai puțin de 30 de date. Un exemplu de prezentare a datelor folosind un singur tabel de distribuție a frecvenței datelor este următorul.

Datele de mai jos sunt scorurile testelor a 30 de studenți. Serviți într-un singur tabel de distribuție a frecvenței datelor!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Dacă acordăm atenție, cel mai mic scor obținut este 3, în timp ce cel mai mare scor este 10. Apoi, din aceste scoruri, se calculează numărul de elevi care îl obțin. Pentru o notă de 3, de exemplu, doar 1 elev. Pentru clasa a 4-a, sunt 4 elevi și așa mai departe. Această cifră este apoi prezentată într-un tabel precum următorul.

turbine pe solul parcului eolian offshore

Următorul tip de tabel de distribuție a frecvenței este tabelul de distribuție a frecvenței datelor de grup. Acest tabel este utilizat pentru a prezenta o mulțime de date, adică peste 30 de date. Să vedem exemplul de mai jos.

Următoarea este înălțimea plantelor de chili (în milimetri) într-o plantație de chili. Prezentați datele într-un tabel de distribuție a datelor de grup!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 132 128 124

Spre deosebire de datele individuale, aici trebuie să calculăm numărul de clase și lungimile clasei care vor fi afișate în tabel. Folosind datele de mai sus, iată calculele.

O mulțime de date (n) = 40

Înălțimea maximă (xmax) = 135

Înălțimea minimă (xmin) = 120

Gama (J) = xmax - Xmin = 135 – 120 = 15

Numărul de clase (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868 ... ≈ k = 6

Lungimea clasei (c) = J / k = 15/6 = 2,5 ≈ c = 3

Din aceste rezultate, putem afișa tabelul de distribuție a datelor de grup după cum urmează.

turbine pe solul parcului eolian offshore

În continuare, vom discuta despre alte tipuri de prezentare a datelor grupate, și anume sub formă de histograme, poligoane de frecvență și ogive. Aruncați o privire la tabelul de frecvențe de mai jos, care conține informații despre greutate pentru 80 de membri ai clubului sportiv.

turbine pe solul parcului eolian offshore

Pentru a prezenta datele folosind un grafic de histogramă, construim mai întâi o diagramă carteziană. Axa x arată limitele superioare și inferioare ale fiecărei clase, în timp ce axa y arată frecvența.

statistici4 (1)

Spre deosebire de o histogramă, un grafic poligonal de frecvență ia valoarea medie a intervalului de clasă și o afișează cu linii în funcție de frecvență.

statistici5 (1)

În cele din urmă, prezentarea datelor utilizează o curbă de frecvență cumulativă sau negativă pozitivă. Mai întâi, marcați valorile de frecvență cumulative ale fiecărei clase de intervale pe axa y. Apoi, marcați coordonatele punctelor în funcție de perechile limită superioară ale clasei de intervale și frecvența cumulativă. Conectați punctele într-o curbă lină.

Dimensiunea răspândirii datelor

În statistici, există două tipuri de măsurare a datelor, și anume dimensiunea concentrației datelor și dimensiunea distribuției datelor. Care este explicația și diferența?

Dimensiunea centrului de date este o valoare care reprezintă locația datelor. În măsura centrată pe date, există medie, mod și mediană.

Media sau media este coeficientul dintre suma tuturor datelor observate cu un număr mare de date. Media poate fi formulată după cum urmează.

Media = (Suma tuturor datelor) / (O mulțime de date)

Pentru a înțelege mai bine, să lucrăm la următorul exemplu de problemă. Numărul de ore pe săptămână necesare pentru 5 persoane pentru activități sociale în mediul lor este de 10, 7, 13, 20 și 15 ore. Determinați numărul mediu de ore pe săptămână pe care le petrec în activități sociale!

Pe baza problemelor de mai sus, putem introduce numerele în formulă după cum urmează.

Media = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Aceasta înseamnă că numărul mediu de ore pe care îl petrec în activități sociale este de 13 ore.

În afară de medie sau medie, există și moduri. Modul este valoarea care apare cel mai frecvent în date. Să vedem un exemplu al următoarei probleme.

Mai jos sunt datele despre greutate (în kilograme) ale unor elevi de clasa a 7. Determinați modul de date!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

În primul rând, trebuie să numărăm de câte ori apare fiecare valoare în date. Pe baza acestor date, obținem 31 (x3), 32 (x2), 33 (x1), 34 (x2) și 35 (x4). Deoarece 35 apare cel mai frecvent, modul datelor de mai sus este 35.

Ultimul tip de măsură centrată pe date este mediana. Mediana împarte datele în două părți egale, astfel încât mediana este valoarea medie a datelor sortate.

Pentru a determina mediana, trebuie mai întâi să sortăm toate datele în ordine descrescătoare sau crescătoare. În al doilea rând, definiți o mulțime de date și simbolizați-le ca „n”. Dacă n este impar, formula pe care o folosim este următoarea.

Mediană = număr de date - ((n + 1) / 2)

Între timp, dacă n este egal, vom folosi formula de mai jos.

Median = (date ith (n / 2) + data ith (n / 2 + 1)) / 2

A doua măsurare a datelor din statistici este o măsură a răspândirii datelor. Dimensiunea răspândirii datelor este o valoare care indică cât de departe sunt datele de centrul de date. Dimensiunea distribuției datelor constă în intervalul, quartile și intervalul interquartile.

Intervalul este diferența dintre cea mai mare valoare a datelor și cea mai mică valoare a datelor. Putem obține scăderea celor mai mari date din cele mai mici date. De exemplu, dacă într-o singură clasă, cel mai înalt elev are o înălțime de 160 cm și cel mai mic elev are o înălțime de 143 cm, vom obține o acoperire de 23 cm.

Între timp, quartila este gruparea datelor statistice în patru părți egale. Dimensiunea quartilei este împărțită în 3, și anume quartila inferioară (Q1), quartila mijlocie (Q2 sau mediană), iar quartila superioară (Q3). Pentru a determina fiecare quartilă, trebuie să facem mai mulți pași.

Mai întâi, sortați datele în ordine crescătoare sau descendentă. În al doilea rând, determinați valoarea medie sau medie a datelor. În al treilea rând, găsiți quartila inferioară (Q1), care este valoarea medie a grupului de date sub mediana (Q2). În cele din urmă, găsiți quartila superioară (Q3), și anume valoarea medie a grupului de date deasupra medianei (Q2).

Ultimul tip de măsură de distribuție a datelor este intervalul intercuartil. Gama intercuartilă este diferența dintre quartilele superioare și inferioare. Formula este următoarea.

Îd = Î3 - Î1

Postări recente

$config[zx-auto] not found$config[zx-overlay] not found