![]() |
|---|
| ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ: ਵਿਸ਼ਲੇਸ਼ਣ - @nitya ਦੁਆਰਾ ਸਕੈਚਨੋਟ |
ਡਾਟਾ ਲਾਈਫਸਾਈਕਲ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਇਹ ਪੱਕਾ ਕਰਦਾ ਹੈ ਕਿ ਡਾਟਾ ਉਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਹਨ ਜਾਂ ਕਿਸੇ ਖਾਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਕਦਮ ਇਹ ਵੀ ਯਕੀਨੀ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਸਵਾਲਾਂ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰ ਰਿਹਾ ਹੈ। ਇਸ ਪਾਠ ਵਿੱਚ Exploratory Data Analysis (EDA) 'ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਜੋ ਡਾਟਾ ਦੇ ਅੰਦਰ ਫੀਚਰਾਂ ਅਤੇ ਸੰਬੰਧਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਦੇ ਤਰੀਕੇ ਹਨ ਅਤੇ ਮਾਡਲਿੰਗ ਲਈ ਡਾਟਾ ਤਿਆਰ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ।
ਅਸੀਂ Kaggle ਤੋਂ ਇੱਕ ਉਦਾਹਰਨ ਡਾਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਾਂ ਇਹ ਦਿਖਾਉਣ ਲਈ ਕਿ ਇਸਨੂੰ Python ਅਤੇ Pandas ਲਾਇਬ੍ਰੇਰੀ ਨਾਲ ਕਿਵੇਂ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਈਮੇਲਾਂ ਵਿੱਚ ਪਾਏ ਗਏ ਕੁਝ ਆਮ ਸ਼ਬਦਾਂ ਦੀ ਗਿਣਤੀ ਸ਼ਾਮਲ ਹੈ, ਅਤੇ ਇਹ ਈਮੇਲਾਂ ਦੇ ਸਰੋਤ ਗੁਪਤ ਹਨ। ਇਸ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਨੋਟਬੁੱਕ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਵਰਤੋਂ ਕਰੋ।
ਲਾਈਫਸਾਈਕਲ ਦਾ ਕੈਪਚਰ ਫੇਜ਼ ਉਹ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਅਤੇ ਸਵਾਲਾਂ ਨੂੰ ਹੱਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਅਸੀਂ ਕਿਵੇਂ ਜਾਣ ਸਕਦੇ ਹਾਂ ਕਿ ਡਾਟਾ ਅੰਤਮ ਨਤੀਜੇ ਨੂੰ ਸਹਾਇਤਾ ਦੇ ਸਕਦਾ ਹੈ?
ਯਾਦ ਕਰੋ ਕਿ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਸਮੇਂ ਹੇਠ ਲਿਖੇ ਸਵਾਲ ਪੁੱਛ ਸਕਦਾ ਹੈ:
- ਕੀ ਮੇਰੇ ਕੋਲ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕਾਫੀ ਡਾਟਾ ਹੈ?
- ਕੀ ਡਾਟਾ ਇਸ ਸਮੱਸਿਆ ਲਈ ਸਵੀਕਾਰਯੋਗ ਗੁਣਵੱਤਾ ਦਾ ਹੈ?
- ਜੇ ਮੈਂ ਇਸ ਡਾਟਾ ਰਾਹੀਂ ਵਾਧੂ ਜਾਣਕਾਰੀ ਖੋਜਦਾ ਹਾਂ, ਤਾਂ ਕੀ ਸਾਨੂੰ ਲਕਸ਼ਾਂ ਨੂੰ ਬਦਲਣ ਜਾਂ ਦੁਬਾਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਬਾਰੇ ਸੋਚਣਾ ਚਾਹੀਦਾ ਹੈ?
Exploratory Data Analysis ਡਾਟਾ ਨੂੰ ਜਾਣਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ ਅਤੇ ਇਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਡਾਟਾਸੈੱਟ ਨਾਲ ਕੰਮ ਕਰਨ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨਾ। ਆਓ ਕੁਝ ਤਕਨੀਕਾਂ 'ਤੇ ਧਿਆਨ ਦੇਈਏ ਜੋ ਇਸਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।
ਅਸੀਂ ਕਿਵੇਂ ਅੰਕਲਣ ਕਰਦੇ ਹਾਂ ਕਿ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਸਾਡੇ ਕੋਲ ਕਾਫੀ ਡਾਟਾ ਹੈ? ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਵਰਣਾਤਮਕ ਸਾਂਖਿਆਕੀ ਦੀਆਂ ਤਕਨੀਕਾਂ ਰਾਹੀਂ ਸਾਡੇ ਡਾਟਾਸੈੱਟ ਬਾਰੇ ਕੁਝ ਆਮ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਖੇਪ ਅਤੇ ਇਕੱਠਾ ਕਰ ਸਕਦੀ ਹੈ। ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕੀ ਉਪਲਬਧ ਹੈ, ਅਤੇ ਵਰਣਾਤਮਕ ਸਾਂਖਿਆਕੀ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕਿੰਨੀ ਚੀਜ਼ਾਂ ਉਪਲਬਧ ਹਨ।
ਪਿਛਲੇ ਕੁਝ ਪਾਠਾਂ ਵਿੱਚ, ਅਸੀਂ Pandas ਦੀ describe() function ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ। ਇਹ ਗਿਣਤੀ, ਵੱਧ ਤੋਂ ਵੱਧ ਅਤੇ ਘੱਟ ਤੋਂ ਘੱਟ ਮੁੱਲ, ਔਸਤ, ਮਿਆਰੀ ਵਿਸਥਾਪਨ ਅਤੇ ਗਣਾਂਕਾਂ ਨੂੰ ਸੰਖਿਆਤਮਕ ਡਾਟਾ 'ਤੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਵਰਣਾਤਮਕ ਸਾਂਖਿਆਕੀ ਜਿਵੇਂ ਕਿ describe() ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਸੀਂ ਅੰਕਲਣ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਕਿੰਨਾ ਹੈ ਅਤੇ ਕੀ ਤੁਹਾਨੂੰ ਹੋਰ ਦੀ ਲੋੜ ਹੈ।
ਵੱਡੇ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਸਭ ਕੁਝ ਖੋਜਣਾ ਬਹੁਤ ਸਮਾਂ ਲੈਣ ਵਾਲਾ ਕੰਮ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਕੰਮ ਕੰਪਿਊਟਰ 'ਤੇ ਛੱਡਿਆ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਸੈਂਪਲਿੰਗ ਡਾਟਾ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦਗਾਰ ਸਾਧਨ ਹੈ ਅਤੇ ਸਾਨੂੰ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕੀ ਦਰਸਾਉਂਦਾ ਹੈ ਇਸ ਬਾਰੇ ਬਿਹਤਰ ਸਮਝ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਸੈਂਪਲ ਨਾਲ, ਤੁਸੀਂ ਸੰਭਾਵਨਾ ਅਤੇ ਸਾਂਖਿਆਕੀ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਆਪਣੇ ਡਾਟਾ ਬਾਰੇ ਕੁਝ ਆਮ ਨਤੀਜੇ ਕੱਢ ਸਕਦੇ ਹੋ। ਜਦੋਂ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨਾ ਡਾਟਾ ਸੈਂਪਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਇਸ ਬਾਰੇ ਕੋਈ ਨਿਰਧਾਰਤ ਨਿਯਮ ਨਹੀਂ ਹੈ, ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਡਾਟਾ ਤੁਸੀਂ ਸੈਂਪਲ ਕਰਦੇ ਹੋ, ਉਨ੍ਹਾਂ ਡਾਟਾ ਬਾਰੇ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਜ਼ਿਆਦਾ ਸਹੀ ਹੋ ਸਕਦੀ ਹੈ।
Pandas ਵਿੱਚ sample() function ਹੈ ਜਿੱਥੇ ਤੁਸੀਂ ਦੱਸ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨੇ ਰੈਂਡਮ ਸੈਂਪਲ ਚਾਹੀਦੇ ਹਨ ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ।
ਡਾਟਾ ਦੀ ਆਮ ਕਵੈਰੀ ਕਰਨਾ ਤੁਹਾਨੂੰ ਕੁਝ ਆਮ ਸਵਾਲਾਂ ਅਤੇ ਸਿਧਾਂਤਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। ਸੈਂਪਲਿੰਗ ਦੇ ਵਿਰੁੱਧ, ਕਵੈਰੀਜ਼ ਤੁਹਾਨੂੰ ਨਿਯੰਤਰਣ ਅਤੇ ਡਾਟਾ ਦੇ ਖਾਸ ਹਿੱਸਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਤੁਹਾਡੇ ਕੋਲ ਸਵਾਲ ਹਨ। Pandas ਲਾਇਬ੍ਰੇਰੀ ਵਿੱਚ query() function ਤੁਹਾਨੂੰ ਕਾਲਮ ਚੁਣਨ ਅਤੇ ਡਾਟਾ ਬਾਰੇ ਸਧਾਰਨ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
ਤੁਹਾਨੂੰ ਡਾਟਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਾਫ਼ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ ਤਾਂ ਜੋ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਬਣਾਈ ਜਾ ਸਕੇ। ਹਕੀਕਤ ਵਿੱਚ, ਖੋਜ ਕਰਦੇ ਸਮੇਂ ਵਿਜੁਅਲ ਪ੍ਰਸਤੁਤੀ ਹੋਣ ਨਾਲ ਡਾਟਾ ਵਿੱਚ ਪੈਟਰਨ, ਸੰਬੰਧਾਂ, ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਮਿਲ ਸਕਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਉਹਨਾਂ ਲੋਕਾਂ ਨਾਲ ਸੰਚਾਰ ਕਰਨ ਦਾ ਸਾਧਨ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਡਾਟਾ ਦੇ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ ਅਤੇ ਇਹ ਕੈਪਚਰ ਸਟੇਜ ਵਿੱਚ ਹੱਲ ਨਾ ਕੀਤੇ ਗਏ ਵਾਧੂ ਸਵਾਲਾਂ ਨੂੰ ਸਾਂਝਾ ਕਰਨ ਅਤੇ ਸਪਸ਼ਟ ਕਰਨ ਦਾ ਮੌਕਾ ਹੋ ਸਕਦਾ ਹੈ। ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਦੇ ਕੁਝ ਪ੍ਰਸਿੱਧ ਤਰੀਕਿਆਂ ਬਾਰੇ ਜਾਣਨ ਲਈ Visualizations ਸੈਕਸ਼ਨ ਨੂੰ ਵੇਖੋ।
ਇਸ ਪਾਠ ਵਿੱਚ ਸਾਰੇ ਵਿਸ਼ੇ ਗੁੰਮ ਜਾਂ ਅਸੰਗਤ ਮੁੱਲਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ Pandas ਕੁਝ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਫੰਕਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। isna() ਜਾਂ isnull() ਗੁੰਮ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦਾ ਹੈ। ਤੁਹਾਡੇ ਡਾਟਾ ਵਿੱਚ ਇਹ ਮੁੱਲ ਕਿਵੇਂ ਆਏ ਇਸ ਦੀ ਖੋਜ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਫੈਸਲਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕੀ ਕਾਰਵਾਈ ਕੀਤੀ ਜਾਵੇ।
ਅਸਵੀਕਤੀ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤ ਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।
