![]() |
|---|
| Životný cyklus dátovej vedy: Analyzovanie - Sketchnote od @nitya |
Analyzovanie v životnom cykle dát potvrdzuje, že dáta dokážu odpovedať na položené otázky alebo vyriešiť konkrétny problém. Tento krok sa tiež zameriava na overenie, či model správne rieši tieto otázky a problémy. Táto lekcia sa sústreďuje na prieskumnú analýzu dát (Exploratory Data Analysis, EDA), čo sú techniky na definovanie vlastností a vzťahov v rámci dát, ktoré môžu byť použité na prípravu dát na modelovanie.
Použijeme príkladovú dátovú sadu z Kaggle, aby sme ukázali, ako sa to dá aplikovať pomocou Pythonu a knižnice Pandas. Táto dátová sada obsahuje počty niektorých bežných slov nachádzajúcich sa v e-mailoch, pričom zdroje týchto e-mailov sú anonymné. Použite notebook v tomto adresári na sledovanie.
Fáza zachytávania v životnom cykle je miestom, kde sa získavajú dáta, ako aj problémy a otázky, ktoré treba riešiť. Ale ako vieme, že dáta môžu podporiť konečný výsledok? Pripomeňme si, že dátový vedec sa môže pýtať nasledujúce otázky, keď získava dáta:
- Mám dostatok dát na vyriešenie tohto problému?
- Sú dáta dostatočne kvalitné pre tento problém?
- Ak objavím ďalšie informácie prostredníctvom týchto dát, mali by sme zvážiť zmenu alebo predefinovanie cieľov? Prieskumná analýza dát je proces spoznávania dát a môže byť použitá na zodpovedanie týchto otázok, ako aj na identifikáciu výziev pri práci s dátovou sadou. Poďme sa zamerať na niektoré techniky používané na dosiahnutie tohto cieľa.
Ako zhodnotíme, či máme dostatok dát na vyriešenie problému? Profilovanie dát môže zhrnúť a zhromaždiť niektoré všeobecné informácie o našej dátovej sade prostredníctvom techník popisnej štatistiky. Profilovanie dát nám pomáha pochopiť, čo máme k dispozícii, a popisná štatistika nám pomáha pochopiť, koľko toho máme.
V niekoľkých predchádzajúcich lekciách sme použili Pandas na poskytnutie niektorých popisných štatistík pomocou funkcie describe(). Táto funkcia poskytuje počet, maximálne a minimálne hodnoty, priemer, štandardnú odchýlku a kvantily pre číselné dáta. Používanie popisných štatistík, ako je funkcia describe(), vám môže pomôcť posúdiť, koľko dát máte a či potrebujete viac.
Preskúmanie všetkého v rozsiahlej dátovej sade môže byť veľmi časovo náročné a zvyčajne je to úloha, ktorú vykonáva počítač. Avšak vzorkovanie je užitočný nástroj na pochopenie dát a umožňuje nám lepšie pochopiť, čo sa v dátovej sade nachádza a čo reprezentuje. S použitím vzorky môžete aplikovať pravdepodobnosť a štatistiku na dosiahnutie všeobecných záverov o vašich dátach. Hoci neexistuje presne definované pravidlo, koľko dát by ste mali vzorkovať, je dôležité si uvedomiť, že čím viac dát vzorkujete, tým presnejšiu generalizáciu môžete o dátach urobiť.
Pandas má vo svojej knižnici funkciu sample(), kde môžete zadať argument, koľko náhodných vzoriek chcete získať a použiť.
Všeobecné dotazovanie dát vám môže pomôcť odpovedať na niektoré všeobecné otázky a teórie, ktoré môžete mať. Na rozdiel od vzorkovania vám dotazy umožňujú mať kontrolu a zamerať sa na konkrétne časti dát, na ktoré máte otázky.
Funkcia query() v knižnici Pandas vám umožňuje vybrať stĺpce a získať jednoduché odpovede o dátach prostredníctvom získaných riadkov.
Nemusíte čakať, kým budú dáta dôkladne vyčistené a analyzované, aby ste mohli začať vytvárať vizualizácie. V skutočnosti, mať vizuálne znázornenie počas preskúmania môže pomôcť identifikovať vzory, vzťahy a problémy v dátach. Navyše, vizualizácie poskytujú spôsob komunikácie s tými, ktorí nie sú zapojení do správy dát, a môžu byť príležitosťou na zdieľanie a objasnenie ďalších otázok, ktoré neboli riešené vo fáze zachytávania. Pozrite si sekciu o vizualizáciách, kde sa dozviete viac o niektorých populárnych spôsoboch vizuálneho preskúmania.
Všetky témy v tejto lekcii môžu pomôcť identifikovať chýbajúce alebo nekonzistentné hodnoty, ale Pandas poskytuje funkcie na kontrolu niektorých z nich. isna() alebo isnull() dokáže skontrolovať chýbajúce hodnoty. Jedným z dôležitých aspektov preskúmania týchto hodnôt vo vašich dátach je preskúmať, prečo sa tam dostali. To vám môže pomôcť rozhodnúť sa, aké kroky podniknúť na ich vyriešenie.
Upozornenie:
Tento dokument bol preložený pomocou služby AI prekladu Co-op Translator. Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho rodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za žiadne nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.
