introduktion
alt kommer til at udnytte privilegiet ved statistiske analysemetoder, som er den måde, vi interagerer og indsamler test af data for at afsløre tendenser og mønstre.
den normale forretning har fundamentalt ændret sig i løbet af det seneste årti. Uanset om det er det udstyr, der bruges på arbejdsområder eller det program, der bruges til at formidle, ser ikke meget sjældne ting ud som det, de plejede at være. Statistiske modelleringsteknikker er logistisk regression, lineær regression, analyse af variation, korrelation, Matricsoperationer, prøveudtagning og så videre.
noget andet, der er unikt, er, hvor meget information vi har let tilgængelige. Det, der engang var ringe, er i øjeblikket et overvældende mål for information. Vær det som det kan, det er muligvis overvældende på off chance for, at du ikke har den foggiest ide, hvordan du undersøger din virksomheds oplysninger for at opdage indsigtsfuld og sand betydning.
de 5 metoder til udførelse af statistisk analyse
for denne statistiske analysemetoder er der 5 at vælge imellem:
- middel
- standardafvigelse
- Regression
- hypotesetest
- bestemmelse af prøvestørrelsen
1) middelværdi:
de anvendte statistiske analysemetoder betyder, hvilket desto mere normalt henvises til som gennemsnittet. På det tidspunkt, hvor denne teknik bruges, tager det hensyn til at beslutte det generelle mønster for et datasæt, ligesom evnen til at få et hurtigt og kompakt perspektiv på dataene. Kunder af denne teknik drager desuden fordel af hurtig og forenklet estimering.
de statistiske midler tænker på hovedspørgsmålet om de oplysninger, der udarbejdes. Resultatet henvises til som middelværdien af de givne oplysninger. I virkeligheden, enkeltpersoner normalt udnytte har til hensigt at vedrørende udforskning, sport, og akademikere.
Sådan finder du gennemsnittet
for at finde gennemsnittet af dine data, vil du i første omgang tilføje tallene sammen og derefter dele hele med antallet af tal er inde i datasættet.
for eksempel at lokalisere gennemsnittet af 24, 3, 15, 6, 2, du vil i første omgang tilføje dem sammen.
24 3 15 6 2=50
på det tidspunkt divideres med antallet af tal i oversigten (5).
50/5= 10
gennemsnittet er 10.
ulempen
når man bruger middelværdi, er det ikke foreslået som en uafhængig statistisk analysemetode. Dette skyldes, at det kan ødelægge de samlede bestræbelser bag estimeringen, da det ligeledes identificeres med medianen og tilstanden i nogle datasæt.
2) standardafvigelse:
standardafvigelse er en strategi for de statistiske analysemetoder, der måler spredningen af information omkring gennemsnittet.
på det tidspunkt, hvor du styrer en forhøjet afvigelse, fokuserer dette på information, der spredes bredt fra gennemsnittet. Ligeledes viser en lav standardafvigelse, at de fleste oplysninger er i gennemsnit og ligeledes kan kaldes den forventede værdi af et sæt.
Sådan finder du standardafvigelsen
formlen til beregning af standardafvigelsen er:
liter 2 = liter 2 / n
i denne formel:
- n repræsenterer antallet af datapunkter i befolkningen.
- lira2 repræsenterer variansen.
- venstre repræsenterer gennemsnittet af dataene.
- h repræsenterer værdien af datasættet.
- venstre repræsenterer summen af dataene.
- symbolet for standardafvigelse er LR.
ulempen
på en sammenlignelig note til ulempen ved at bruge middelværdi kan standardafvigelsen bedrage, når den anvendes som den ensomme strategi i din målbare undersøgelse.
3) Regression:
med hensyn til indsigt er regression forbindelsen mellem en uafhængig variabel og en afhængig variabel i de statistiske analysemetoder. Linjen anvendt i regressionsanalysediagrammer og grafer betyder, om forbindelserne mellem faktorerne er solide eller skrøbelige, uanset at de viser mønstre gennem et bestemt tidsmål.
regressionsligning
regressionsligningen, der bruges til at opfatte, hvordan information kunne se senere, er:
Y = a b (h)
i denne ligning:
- B henviser til hældningen eller stigningen overskridelse.
- Y er den uafhængige variabel.
- er den afhængige variabel.
- a henviser til Y-skæringspunktet, værdien af y når = 0.
ulempen
en ulempe ved at bruge regression som en komponent i din statistiske analyse af data er, at regression ikke er umiskendelig, hvilket indebærer, at omend anomalierne på et spredt plot er betydelige, så er årsagerne til, hvorfor de er undtagelser.
4) hypotesetest:
hypotesetest, ellers kaldet “T-Test”, i statistiske analysemetoder. Hypotesetestmetoden er bundet sammen med test, hvis en bestemt påstand eller ende er gyldig for datasættet. Den anser for at kontrastere oplysningerne mod forskellige antagelser og hypoteser. Det kan ligeledes hjælpe med at estimere, hvilke valg der træffes, kan betyde for virksomheden.
Hypotesetestformel
eftervirkningerne af en statistisk hypotesetest skal dechiffreres for at fremstille en bestemt sag, der henvises til som p-værdien.
formlen for denne hypotesetest er:
- H1: p 0,5
- H0: P = 0.5
ulempen
hypotesetestning kan i nogle tilfælde være skæv og overskyet af regelmæssige fejl, svarende til en placebo-effekt.
5) bestemmelse af stikprøvestørrelse:
med hensyn til undersøgelse af information til de statistiske metoder er datasættet i nogle tilfælde i det væsentlige for enormt, hvilket gør det svært at indsamle nøjagtige oplysninger for hver komponent i datasættet.
Find en stikprøvestørrelse
under alle omstændigheder er der nogle brede tip at huske, mens du beslutter en stikprøvestørrelse:
- mens man overvejer en mere beskeden stikprøvestørrelse, direkte statistiske data.
- brug en stikprøvestørrelse fra en undersøgelse som din egen.
- hvis du leder en ikke-eksklusiv rapport, kan der være en tabel, der fra nu af eksisterer, som du kan bruge til din potentielle fordel.
- brug en prøvestørrelse mini-computer.
ulempen
når du undersøger en anden og uprøvet variabel af information inde i denne teknik, skal du afhænge af specifikke mistanker. Hvis du gør det, kan det medføre en helt off-base mistanke.
konklusion
uanset hvilken strategi for de statistiske analysemetoder du vælger, skal du prøve at notere enhver forventet ulempe, ligesom deres forskellige formel. Der er ingen Højeste kvalitetsniveau eller forkert eller rigtig teknik til at udnytte. Det vil stole på den slags information, du har samlet, ligesom de viden, du håber at have som et slutprodukt. Eksempler på dataanalyse er præskriptiv analyse, forudsigelig analyse, diagnostisk analyse, inferentiel analyse. Beskrivende analyse, tekstanalyse og så videre.
hvis du er interesseret i at gøre en karriere i Data Science domæne, kan vores 11-måneders in-person PGDM i Data Science kursus hjælpe dig uhyre i at blive en succesfuld Data Science professionel.
LÆS OGSÅ
- vigtige Klyngealgoritmer til dataforskere i 2021