introduktion
allt handlar om att utnyttja privilegiet för statistiska analysmetoder, vilket är hur vi interagerar och samlar test av data för att avslöja trender och mönster.
den normala verksamheten har i grunden förändrats under det senaste decenniet. Oavsett om det är hårdvaran som används på arbetsområden eller programvaran som används för att förmedla, ser inte mycket sällsynta saker ut som vad de brukade vara. Statistiska modelleringstekniker är logistisk regression, linjär regression, analys av variation, korrelation, matrisoperationer, provtagning och så vidare.
något annat som är unikt är hur mycket information vi har lätt tillgängliga. Det som en gång var knappt är för närvarande ett överväldigande mått på information. Hur det nu än är med det, det är möjligen överväldigande på off chans att du inte har foggiest aning om hur att undersöka ditt företags information för att upptäcka insiktsfulla och sanna innebörd.
de 5 metoderna för att utföra statistisk analys
för dessa statistiska analysmetoder finns det 5 att välja mellan:
- medelvärde
- standardavvikelse
- Regression
- hypotesprövning
- bestämning av provstorlek
1) medelvärde:
de statistiska analysmetoderna som används betyder, vilket är allt mer normalt hänvisat till som genomsnittet. Vid den tidpunkt då denna teknik används tar det hänsyn till att bestämma det allmänna mönstret för en datamängd, precis som förmågan att få ett snabbt och kompakt perspektiv på data. Kunder av denna teknik drar dessutom nytta av snabb och förenklad uppskattning.
det statistiska sättet tänker på huvudfrågan på den information som förbereds. Resultatet hänvisas till som medelvärdet av den information som ges. I själva verket, individer använder vanligtvis avser att om prospektering, sporter, och akademiker.
hur man hittar medelvärdet
för att hitta medelvärdet av dina data skulle du först lägga till siffrorna tillsammans och därefter dela hela med antalet siffror som finns i datasetet.
till exempel för att lokalisera medelvärdet av 24, 3, 15, 6, 2, du skulle först lägga till dem tillsammans.
24 3 15 6 2=50
vid den tiden dividerar du med antalet siffror i rundownen (5).
50/5= 10
medelvärdet är 10.
nackdelen
när man använder medelvärdet är extraordinärt, föreslås det inte som en oberoende statistisk analysmetod. Detta beror på att det kan förstöra de totala ansträngningarna bakom uppskattningen, eftersom det också identifieras med medianen och läget i vissa datamängder.
2) standardavvikelse:
standardavvikelse är en strategi för statistiska analysmetoder som mäter spridningen av information runt medelvärdet.
när du hanterar en förhöjd avvikelse fokuserar detta på information som sprids brett från medelvärdet. På samma sätt visar en låg standardavvikelse att mest information är medelvärdet och kan också kallas det förväntade värdet av en uppsättning.
så här hittar du standardavvikelsen
formeln för att beräkna standardavvikelsen är:
2 = 2 (x − 2)2/N
i denna formel:
- n representerar antalet datapunkter i befolkningen.
- occur2 representerar variansen.
- motsvarar medelvärdet av uppgifterna.
- X representerar värdet på datauppsättningen.
- motsvarar summan av uppgifterna.
- symbolen för standardavvikelse är Xiaomi.
nackdelen
på en jämförbar anteckning till nackdelen med att använda medelvärdet kan standardavvikelsen lura när den används som den ensamma strategin i din mätbara undersökning.
3) Regression:
när det gäller insikter är regression sambandet mellan en oberoende variabel och en beroende variabel i de statistiska analysmetoderna. Linjen som används i regressionsanalysdiagram och grafer betyder om kopplingarna mellan faktorerna är fasta eller svaga, trots att de visar mönster under en viss tidsmått.
regressionsekvation
regressionsekvationen som används för att uppfatta hur information kan blicka senare är:
Y = a b (x)
i denna ekvation:
- B hänvisar till lutningen, eller stiga överskridande.
- Y är den oberoende variabeln.
- x är den beroende variabeln.
- a hänvisar till y-intercept, värdet på y när x = 0.
nackdelen
en nackdel med att använda regression som en del av din statistiska analys av data är att regression inte är omisskännlig, vilket innebär att om än avvikelserna på en spridningsplot är signifikanta, så är orsakerna till varför de är undantag.
4) hypotesprovning:
hypotesprovning, annars kallad ”T-testning”, i statistiska analysmetoder. Hypotesprovningsmetoden är knuten till testning om ett specifikt påstående eller slut är giltigt för datamängden. Den anser att kontrastera informationen mot olika antaganden och hypoteser. Det kan också hjälpa till med att uppskatta vilka val som görs kan betyda för verksamheten.
Hypotesprovningsformel
efterverkningarna av ett statistiskt hypotesprov bör dechiffreras för att göra ett särskilt fall, vilket hänvisas till som p-värdet.
formeln för detta hypotesprov är:
- h1: p 0,5
- H0: P = 0.5
nackdelen
hypotesprovning kan i vissa fall Skevas och fördunklas av vanliga misstag, liknande en placebo-effekt.
5) bestämning av provstorlek:
när det gäller att undersöka information för de statistiska metoderna är datauppsättningen i vissa fall väsentligen alltför enorm, vilket gör det svårt att samla exakt information för varje komponent i datauppsättningen.
hitta en provstorlek
i alla fall finns det några breda tips att komma ihåg när du bestämmer en provstorlek:
- medan man överväger en mer blygsam provstorlek, direkt statistiska data.
- använd en provstorlek från en undersökning som din egen.
- om du dirigerar en icke-exklusiv rapport kan det finnas en tabell som från och med nu finns som du kan använda för din potentiella fördel.
- använd en mini-dator med provstorlek.
nackdelen
när du undersöker en annan och otestad variabel av information inom denna teknik måste du bero på specifika misstankar. Om du gör det kan det leda till en helt utanför basen misstanke.
slutsats
oavsett vilken strategi för de statistiska analysmetoderna du väljer, försök att ta exceptionell notering av varje förväntad nackdel, precis som deras olika formel. Det finns ingen Högsta kvalitetsnivå eller fel eller rätt teknik att använda. Det kommer att förlita sig på den typ av information du har samlat, precis som de bitar av kunskap du hoppas ha som en slutprodukt. Exempel på dataanalys är föreskrivande analys, prediktiv analys, diagnostisk analys, inferentiell analys. Beskrivande analys, textanalys och så vidare.
om du är intresserad av att göra en karriär inom Data Science-domänen kan vår 11-månaders personliga PGDM i Data Science-kurs hjälpa dig oerhört att bli en framgångsrik Data Science-professionell.
Läs också
- viktiga Klusteralgoritmer för datavetare 2021