Úvod
vše spočívá v využití privilegia metod statistické analýzy, což je způsob, jakým interagujeme a shromažďujeme testy dat, abychom odhalili trendy a vzorce.
normální podnikání se v průběhu posledního desetiletí zásadně změnilo. Bez ohledu na to, zda se jedná o hardware používaný v pracovních oblastech nebo software používaný k předávání, ne velmi vzácné věci vypadají stejně jako to, co bývaly. Techniky statistického modelování jsou logistická regrese, lineární regrese, analýza variací,korelace, maticové operace, vzorkování atd.
něco jiného, co je jedinečné, je, kolik informací máme snadno dostupné. To, co bylo kdysi málo, je v současné době ohromným měřítkem informací. Ať už je to jakkoli, je to možná přehnané v naději, že nemáte nejasné představy o tom, jak prozkoumat informace o vaší firmě, abyste objevili bystrý a skutečný význam.
5 metod pro provádění statistické analýzy
pro tyto metody statistické analýzy existuje 5 na výběr:
- průměr
- směrodatná odchylka
- regrese
- testování hypotéz
- stanovení velikosti vzorku
1) Průměr:
použité statistické metody analýzy průměr, který je o to více běžně zmiňován jako průměr. V okamžiku, kdy je tato technika využívána, bere v úvahu rozhodování o obecném vzoru datové sady, stejně jako schopnost získat rychlý a kompaktní pohled na data. Klienti této techniky navíc těží z rychlého a zjednodušujícího odhadu.
statistické prostředky uvažují o hlavním problému připravovaných informací. Výsledek je zmiňován jako průměr poskytnutých informací. Ve skutečnosti jednotlivci obvykle využívají záměr týkající se průzkumu, sportu a akademiků.
jak najít průměr
Chcete-li najít průměr vašich dat, měli byste nejprve přidat čísla dohromady a poté rozdělit celek počtem čísel uvnitř datové sady.
například k nalezení průměru 24, 3, 15, 6, 2, zpočátku byste je sčítali dohromady.
24 3 15 6 2=50
v tomto okamžiku vydělte počtem čísel v přehledu (5).
50/5= 10
průměr je 10.
nevýhoda
při použití průměru je mimořádná, není navržena jako nezávislá metoda statistické analýzy. Je to proto, že to může zničit celkové úsilí za odhadem, protože v některých datových sadách je také identifikováno s mediánem a režimem.
2) směrodatná odchylka:
směrodatná odchylka je strategie pro metody statistické analýzy, které měří šíření informací kolem průměru.
v okamžiku, kdy řídíte zvýšenou odchylku, se toto zaměřuje na informace, které jsou široce rozloženy od průměru. Podobně nízká směrodatná odchylka ukazuje, že většina informací je v průměru a může být také známá jako očekávaná hodnota množiny.
jak najít směrodatnou odchylku
vzorec pro výpočet směrodatné odchylky je:
σ2 = Σ (x-μ) 2 / n
v tomto vzorci:
- n představuje počet datových bodů v populaci.
- σ2 představuje rozptyl.
- μ představuje průměr dat.
- x představuje hodnotu datové sady.
- Σ představuje součet dat.
- symbolem směrodatné odchylky je σ.
nevýhoda
při srovnatelné poznámce k nevýhodě využití průměru může být směrodatná odchylka klamavá, pokud je použita jako osamělá strategie ve vašem měřitelném vyšetření.
3) regrese:
pokud jde o poznatky, regrese je spojení mezi nezávislou proměnnou a závislou proměnnou v metodách statistické analýzy. Linka použitá v grafech a grafech regresní analýzy znamená, zda jsou spojení mezi faktory pevná nebo křehká, bez ohledu na to, že ukazují vzory v určitém časovém měřítku.
regresní rovnice
regresní rovnice, která se používá k vnímání toho, jak by se informace mohly později podívat, je:
Y = a b (x)
v této rovnici:
- b odkazuje na svahu, nebo vzestup překročení.
- Y je nezávislá proměnná.
- x je závislá proměnná.
- a označuje y-intercept, hodnotu y, když x = 0.
nevýhodou
jednou z nevýhod využití regrese jako součásti statistické analýzy dat je, že regrese není nezaměnitelná, což znamená, že i když anomálie na rozptýleném grafu jsou významné, stejně tak jsou důvody, proč jsou výjimky.
4) testování hypotéz:
testování hypotéz, jinak nazývané „T testování“, v metodách statistické analýzy. Metoda testování hypotéz je vázána na testování, zda konkrétní tvrzení nebo konec platí pro datovou sadu. Zvažuje kontrast informací proti různým předpokladům a hypotézám. To může také pomoci s odhadem, co volby by mohlo znamenat pro podnikání.
vzorec pro testování hypotéz
aftereffects of a statistical hypothesis test should be deciphered to make a particular case, which is allocated to as the p-value.
vzorec pro tento test hypotézy je:
- H1: P 0.5 0.5
- H0: P = 0.5
nevýhodou
testování hypotéz může být v některých případech zkresleno a zakaleno pravidelnými chybami, podobně jako placebo efekt.
5) stanovení velikosti vzorku:
pokud jde o zkoumání informací pro statistické metody, v některých případech je datová sada v podstatě příliš obrovská,což ztěžuje shromažďování přesných informací pro každou složku datové sady.
nalezení velikosti vzorku
v každém případě existuje několik obecných tipů, které je třeba pamatovat při rozhodování o velikosti vzorku:
- při zvažování skromnější velikosti vzorku, přímé statistické údaje.
- využijte velikost vzorku z vyšetřování, jako je vaše vlastní.
- v případě, že řídíte nevýhradní zprávu, může existovat tabulka, která již nyní existuje a kterou můžete použít pro svůj potenciální prospěch.
- využít velikost vzorku mini-počítač.
nevýhodou
při zkoumání další a netestované proměnné informací uvnitř této techniky budete muset záviset na konkrétních podezřeních. Pokud tak učiníte, může to způsobit zcela mimo podezření.
závěr
bez ohledu na to, jakou strategii pro metody statistické analýzy vyberete, zkuste vzít na vědomí každou očekávanou nevýhodu, stejně jako jejich odlišný vzorec. Neexistuje žádná nejvyšší úroveň kvality nebo špatná nebo správná technika. Bude se spoléhat na druh informací, které jste shromáždili, stejně jako kousky znalostí, které doufáte, že budete mít jako konečný produkt. Příklady analýzy dat jsou normativní analýza, prediktivní analýza, diagnostická analýza, inferenční analýza. Popisná analýza, Analýza textu atd.
pokud máte zájem o kariéru v oblasti vědy o datech, náš 11měsíční osobní kurz PGDM in Data Science vám může nesmírně pomoci stát se úspěšným profesionálem v oblasti vědy o datech.
přečtěte si také
- důležité shlukovací algoritmy pro datové vědce v roce 2021