5 Statistical Analysis Methods – A Detailed Overview (2021)

Inleiding

alles komt neer op het gebruik van het voorrecht van statistische analysemethoden, dat is de manier waarop we interageren en testen van gegevens verzamelen om trends en patronen te onthullen.

de normale bedrijfsvoering is in de loop van het laatste decennium fundamenteel veranderd. Ongeacht of het de hardware die wordt gebruikt op het werk gebieden of de software die wordt gebruikt om te geven, niet zeer zeldzame dingen lijken gelijkwaardig aan wat ze vroeger zijn. Statistische modelleringstechnieken zijn logistieke regressie, lineaire regressie, analyse van variatie, correlatie, Matrixoperaties, bemonstering, enzovoort.

iets anders dat uniek is, is hoeveel informatie we direct beschikbaar hebben. Wat eens schaars was, is momenteel een overweldigende hoeveelheid informatie. Hoe dan ook, het is mogelijk overweldigend op de off kans dat je niet de mistigste idee hoe om te onderzoeken van uw bedrijf informatie inzichtelijke en ware betekenis te ontdekken.

de 5 methoden voor het uitvoeren van statistische analyses

voor deze statistische analysemethoden zijn er 5 om uit te kiezen:

  1. gemiddelde
  2. standaardafwijking
  3. regressie
  4. hypothesetest
  5. bepaling van de steekproefgrootte

1) gemiddelde:

de gebruikte statistische analysemethoden gemiddelde, dat des te meer gewoonlijk als gemiddelde wordt bedoeld. Op het punt waarop deze techniek wordt gebruikt, neemt het in overweging het algemene patroon van een gegevensset te bepalen, net als de capaciteit om een snel en compact perspectief op de gegevens te krijgen. Klanten van deze techniek bovendien voordeel van snelle en simplistische schatting.

de statistische middelen zijn gericht op de belangrijkste kwestie van de informatie die wordt voorbereid. De uitkomst wordt bedoeld als het gemiddelde van de gegeven informatie. In werkelijkheid, individuen gewoonlijk gebruiken van plan om met betrekking tot de exploratie, sport, en academici.

hoe het gemiddelde

te vinden om het gemiddelde van uw gegevens te vinden, zou u in eerste instantie de getallen bij elkaar optellen en daarna het geheel delen door het aantal getallen dat zich in de dataset bevindt.

bijvoorbeeld om het gemiddelde van 24, 3, 15, 6, 2, Je zou ze in eerste instantie bij elkaar optellen.

24 3 15 6 2=50

op dat punt, delen door het aantal nummers in de rundown (5).

50/5= 10

het gemiddelde is 10.

het nadeel

wanneer het gemiddelde buitengewoon is, wordt het niet voorgesteld als een onafhankelijke statistische analysemethode. Dit is omdat dit de totale inspanningen achter de schatting kan vernietigen, aangezien het eveneens wordt geïdentificeerd met de mediaan en de modus in sommige datasets.

2) standaardafwijking:

standaardafwijking is een strategie voor de statistische analysemethoden die de verspreiding van informatie rond het gemiddelde meten.

op het moment dat u een verhoogde afwijking beheert, richt dit zich op informatie die breed verspreid is vanuit het gemiddelde. Evenzo toont een lage standaardafwijking aan dat de meeste informatie door het gemiddelde is en ook bekend kan worden als de verwachte waarde van een verzameling.

hoe de standaardafwijking te vinden

de formule om de standaardafwijking te berekenen is:

σ2 = Σ (x − μ)2 / n

In deze formule:

  1. n staat voor het aantal gegevenspunten in de populatie.
  2. σ2 geeft de variantie weer.
  3. μ is het gemiddelde van de gegevens.
  4. x vertegenwoordigt de waarde van de dataset.
  5. Σ geeft de som van de gegevens weer.
  6. het symbool voor standaardafwijking is σ.

het nadeel

een vergelijkbare opmerking ten nadele van het gebruik van gemiddelde, kan de standaardafwijking misleidend zijn wanneer gebruikt als de Solitaire strategie in uw meetbare onderzoek.

3) regressie:

met betrekking tot inzichten is regressie het verband tussen een onafhankelijke variabele en een afhankelijke variabele in de statistische analysemethoden. De lijn gebruikt in regressieanalyse grafieken en grafieken betekent of de verbindingen tussen de factoren solide of broos zijn, niettegenstaande het tonen van patronen gedurende een bepaalde maat van de tijd.

regressievergelijking

de regressievergelijking die wordt gebruikt om waar te nemen hoe informatie later zou kunnen worden bekeken, is:

Y = a b (x)

In deze vergelijking:

  1. b verwijst naar de helling, of stijging overschrijding.
  2. Y is de onafhankelijke variabele.
  3. x is de afhankelijke variabele.
  4. a verwijst naar de Y-as, de waarde van y wanneer x = 0.

het nadeel

een nadeel van het gebruik van regressie als onderdeel van uw statistische analyse van gegevens is dat regressie niet onmiskenbaar is, wat impliceert dat hoewel de anomalieën op een dissipate plot significant zijn, dat zijn ook de redenen waarom ze uitzonderingen zijn.

4) hypothesetest:

hypothesetest, ook wel “t-test” genoemd, in statistische analysemethoden. De methode voor het testen van de hypothese is gekoppeld aan het testen als een specifieke stelling of een specifiek einde geldig is voor de gegevensverzameling. Er wordt overwogen de informatie af te zetten tegen verschillende aannames en hypothesen. Het kan ook helpen bij het schatten van wat keuzes gemaakt kan betekenen voor het bedrijf.

hypothese testformule

de nawerkingen van een statistische hypothese test moeten worden ontcijferd om een bepaald geval te maken, waarop wordt gezinspeeld als de p-waarde.

de formule voor deze hypothese test is::

  1. h1: p ≠ 0,5
  2. H0: P = 0.5

het nadeel

het testen van hypothesen kan in sommige gevallen vertroebeld en vertroebeld worden door regelmatige fouten, vergelijkbaar met een placebo-effect.

5) bepaling van de steekproefgrootte:

met betrekking tot het onderzoeken van informatie voor de statistische methoden is de dataset in sommige gevallen in wezen excessief enorm, waardoor het moeilijk is om exacte informatie te verzamelen voor elke component van de dataset.

het vinden van een steekproefgrootte

in ieder geval zijn er enkele brede tips om te onthouden bij het bepalen van een steekproefgrootte:

  1. uitgaande van een bescheiden steekproefomvang, directe statistische gegevens.
  2. gebruik een steekproefgrootte van een onderzoek als uw eigen.
  3. in het geval dat u een niet-exclusief rapport leidt, kan er een tabel zijn die vanaf nu bestaat en die u kunt gebruiken voor uw potentiële voordeel.
  4. gebruik een minicomputer met steekproefgrootte.

het nadeel

wanneer u een andere en niet-geteste informatievariabele binnen deze techniek onderzoekt, moet u afhankelijk zijn van specifieke vermoedens. Als je dat doet, krijg je een totaal valse verdenking.

conclusie

ongeacht welke strategie voor de statistische analysemethoden u kiest, probeer uitzonderlijke nota te nemen van elk verwacht nadeel, net als hun verschillende formule. Er is geen hoogste kwaliteitsniveau of verkeerde of juiste techniek te gebruiken. Het zal afhangen van het soort informatie dat je hebt verzameld, net als de stukjes kennis die je hoopt te hebben als een eindproduct. Voorbeelden van gegevensanalyse zijn prescriptieve analyse, voorspellende analyse, diagnostische analyse, inferentiële analyse. Beschrijvende analyse, tekstanalyse, enzovoort.

als u geïnteresseerd bent in het maken van een carrière in het Data Science domein, kan onze 11 maanden durende persoonlijke PGDM in Data Science cursus u enorm helpen om een succesvolle Data Science professional te worden.

lees ook

  • belangrijke Clusteringsalgoritmen voor gegevenswetenschappers in 2021

Leave a Reply

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.