Skip to content

Latest commit

 

History

History
50 lines (33 loc) · 13.3 KB

File metadata and controls

50 lines (33 loc) · 13.3 KB

ជីវចរណ៍វិទ្យាសាស្ត្រទិន្នន័យ៖ ការវិភាគ

 Sketchnote by (@sketchthedocs)
ជីវចរណ៍វិទ្យាសាស្ត្រទិន្នន័យ៖ ការវិភាគ - Sketchnote by @nitya

ការវិភាគនៅក្នុងជីវចរណ៍ទិន្នន័យបញ្ជាក់ថាទិន្នន័យអាចឆ្លើយតបនឹងសំណួរដែលបានដាក់ជាប្រធានបទ ឬក៏កំពុងដោះស្រាយបញ្ហាមួយណាមួយ។ ជំហាននេះក៏អាចផ្តោតលើការបញ្ជាក់ថាគំរូត្រូវបានដោះស្រាយសំណួរនិងបញ្ហាទាំងនោះត្រឹមត្រូវ។ មេរៀននេះផ្តោតលើការវិភាគទិន្នន័យស្វែងរក ឬ EDA ដែលជាបច្ចេកទេសសម្រាប់កំណត់លក្ខណៈ និងទំនាក់ទំនងនៅក្នុងទិន្នន័យ និងអាចប្រើបានសម្រាប់រៀបចំទិន្នន័យសម្រាប់គំរូ។

យើងនឹងប្រើឧទាហរណ៍នៃកំណត់ទិន្នន័យពី Kaggle ដើម្បីបង្ហាញពីវិធីដែលអាចអនុវត្តជាមួយ Python និងបណ្ណាល័យ Pandas។ កំណត់ទិន្នន័យនេះមានការប្រាប់គំនាន់នៃពាក្យដែលគឺពេញនិយមមួយចំនួននៅក្នុងអ៊ីមែល ស្រាយដើមដូចជាអ៊ីមែលទាំងនេះមិនអាចសម្គាល់បាន។ ប្រើ សៀវភៅសម្ភារៈ ក្នុងថតបច្ចុប្បន្ននេះដើម្បីដើរតួជាមួយ។

ការវិភាគទិន្នន័យស្វែងរក

ដំណាក់កាលចាប់យកនៅក្នុងជីវចរណ៍គឺពេលដែលទិន្នន័យត្រូវបានទទួលយក និងបញ្ហានិងសំណួរត្រូវបានយកមក ពីរបៀបទទួលយកតើតើយើងដឹងថាទិន្នន័យអាចគាំទ្រចុងក្រោយត្រូវបានអ្វី? ចងចាំថាអ្នកវិទ្យាសាស្ត្រទិន្នន័យអាចសួរសំនួរដូចតទៅពេលដែលពួកគេទទួលយកទិន្នន័យ៖

  • តើខ្ញុំមានទិន្នន័យគ្រប់គ្រាន់ដើម្បីដោះស្រាយបញ្ហានេះទេ?
  • តើគុណភាពទិន្នន័យគួរឱ្យទទួលយកសម្រាប់បញ្ហានេះទេ?
  • ប្រសិនបើខ្ញុំរកឃើញព័ត៌មានបន្ថែមតាមរយៈទិន្នន័យនេះ យើងគួរតែរំពឹងថាត្រូវផ្លាស់ប្តូរឬកំណត់ទិសដៅគោលបំណងឡើងវិញទេ? ការវិភាគទិន្នន័យស្វែងរកគឺជាដំណើរការដើម្បីស្គាល់ទិន្នន័យនោះ ហើយអាចប្រើដើម្បីឆ្លើយសំណួរទាំងនេះ ក៏ដូចជាកំណត់បញ្ហានៃការដំណើរការជាមួយកំណត់ទិន្នន័យ។ យើងនឹងផ្តោតលើបច្ចេកទេសខ្លះៗដែលបានប្រើសម្រាប់សម្រេចបានសារៈសំខាន់នេះ។

ការពិពណ៌នាទិន្នន័យ, ស្ថិតិសង្ខេប និង Pandas

តើយើងវាយតម្លៃយ៉ាងដូចម្តេចថាយើងមានទិន្នន័យគ្រប់គ្រាន់ដើម្បីដោះស្រាយបញ្ហានេះ? ការពិពណ៌នាទិន្នន័យអាចសង្ខេប និងប្រមូលព័ត៌មានទូទៅអំពីកំណត់ទិន្នន័យរបស់យើងតាមរយៈបច្ចេកទេសនៃស្ថិតិសង្ខេប។ ការពិពណ៌នាទិន្នន័យជួយឱ្យយើងយល់ពីអ្វីដែលមានស្រាប់ និងស្ថិតិសង្ខេបជួយយើងយល់ថាមានច្រើនប៉ុន្មាន។

ក្នុងមេរៀនមួយចំនួនមុន យើងបានប្រើ Pandas ដើម្បីផ្តល់ស្ថិតិសង្ខេបជាមួយ មុខងារ describe()។ វាបង្ហាញចំនួន, តម្លៃអតិបរមា និងអប្បបរមា, ค่าเฉลี่ย, ស្តង់ដាដាច់គេ ហើយគុណសម្បត្តិលើទិន្នន័យជាលេខ។ ការប្រើស្ថិតិសង្ខេបដូចមុខងារ describe() អាចជួយអ្នកវាយតម្លៃថាតើអ្នកមានប៉ុន្មាន និងតើអ្នកត្រូវតែមើលបន្ថែមទេ។

ការជ្រើសតំណាង និងការស្នើសុំ

ការស្វែងយល់អ្វីៗទាំងអស់នៅក្នុងកំណត់ទិន្នន័យធំនឹងចំណាយពេលយ៉ាងច្រើន ហើយជារឿងដែលភាគច្រើនត្រូវបានទុកឱ្យកុំព្យូទ័រធ្វើ។ ទោះយ៉ាងណា ការជ្រើសតំណាងគឺជាបច្ចេកទេសជួយសម្រាប់យល់ពីទិន្នន័យ ហើយអនុញ្ញាតឱ្យយើងមានការយល់ដឹងល្អឡើងអំពីអ្វីដែលមានក្នុងកំណត់ទិន្នន័យ និងតំណាងរបស់វា។ ជាមួយការជ្រើសតំណាង អ្នកអាចអនុវត្តប្រូបាបលីតី និងស្ថិតិសម្រាប់រកចរន្តទូទៅពីទិន្នន័យរបស់អ្នក។ ខណៈដែលមិនមានច្បាប់ដែលកំណត់ថាតើអ្នកគួរជ្រើសតំណាងប៉ុន្មានទិន្នន័យ ទោះជាយ៉ាងណា វាអ្នកត្រូវចងចាំថា ទិន្នន័យដែលអ្នកជ្រើសបានច្រើនប៉ុណ្ណា ការសន្និដ្ធានទូទៅនឹងមានភាពច្បាស់លាស់បន្ថែមប៉ុណ្ណា។ Pandas មាន មុខងារ sample() នៅក្នុងបណ្ណាល័យ ដែលអ្នកអាចបញ្ជូនអារក្យូម៉ង់ថាចង់បានការជ្រើសតំណាងចៃដន្យប៉ុន្មាន និងប្រើ។

ការស្វែងរកទូទៅពីទិន្នន័យអាចជួយឱ្យអ្នកឆ្លើយបញ្ហាទូទៅ និងទ្រឹស្ដីដែលអ្នកមាន។ ផ្ទុយពីការជ្រើសតំណាង, ការស្នើសុំអនុញ្ញាតឱ្យអ្នកគ្រប់គ្រង និងផ្តោតលើផ្នែកជាក់លាក់នៃទិន្នន័យដែលអ្នកមានសំណួរ។ មុខងារ query() នៅក្នុងបណ្ណាល័យ Pandas អនុញ្ញាតឱ្យអ្នកជ្រើសកាឡុំនិងទទួលបានចម្លើយ​គំរូពីទិន្នន័យតាមរយៈជួរដេកដែលបានទាញ។

ការស្វែងរកជាមួយការផ្តល់មើលនូវរូបភាព

អ្នកមិនចាំបាច់រង់ចាំរហូតដល់ទិន្នន័យត្រូវបានសំអាតនិងវិភាគយ៉ាងពេញលេញដើម្បីចាប់ផ្តើមបង្កើតការផ្តល់មើលនូវរូបភាពទេ។ ជាការពិត ការមានតំណាងវីស្វាល់នៅពេលស្វែងរកអាចជួយកំណត់លំនាំ, ទំនាក់ទំនង និងបញ្ហានៅក្នុងទិន្នន័យ។ លើសពីនេះ ការផ្តល់មើលនូវរូបភាពផ្តល់ជាឧបករណ៍ទំនាក់ទំនងជាមួយអ្នកដែលមិនពាក់ព័ន្ធនឹងការគ្រប់គ្រងទិន្នន័យ ហើយអាចជាឱកាសចែករំលែកនិងច្បាស់លាស់បន្ថែមសំណួរដែលមិនបានពិចារណាលើក្នុងដំណាក់កាលចាប់យក។ សូមយោងទៅកាន់ ផ្នែកអំពីការផ្តល់មើលនូវរូបភាព ដើម្បីស្វែងយល់បន្ថែមអំពីវិធីពេញនិយមក្នុងការស្វែងរកតាមរូបភាព។

ការស្វែងរកដើម្បីកំណត់ភាពមិនស្របគ្នា

ប្រធានបទទាំងអស់ក្នុងមេរៀននេះអាចជួយកំណត់តម្លៃដែលខ្វះឬមិនស្របគ្នា ហើយ Pandas ផ្តល់មុខងារដើម្បីពិនិត្យមើលខ្លះៗនេះ។ isna() ឬ isnull() អាចពិនិត្យតម្លៃខ្វះខាតបាន។ ព័ត៌មានសំខាន់មួយនៅក្នុងការស្វែងរកតម្លៃទាំងនេះនៅក្នុងទិន្នន័យរបស់អ្នក គឺការស្វែងរកមូលហេតុដែលបានបណ្តាលអោយវាធ្វើដូច្នេះពីដំបូង។ វាអាចជួយអ្នកសម្រេចចិត្តលើ សកម្មភាពដែលត្រូវអនុវត្តដើម្បីដោះស្រាយវា

ការងារ

ស្វែងរកចម្លើយ


ការបដិសេធ:
ឯកសារនេះត្រូវបានបកប្រែដោយប្រើសេវាបកប្រែ AI Co-op Translator។ ខណៈពេលយើងខំប្រឹងប្រទានភាពត្រឹមត្រូវ សូមជ្រាបថាការបកប្រែដោយស្វ័យប្រវត្តិនេះអាចមានកំហុស ឬភាពមិនត្រឹមត្រូវបាន។ ឯកសារដើមក្នុងភាសាមាតុភាគរបស់វាគួរត្រូវបានគេរាប់បញ្ចូលជាគន្លងដើមដែលត្រឹមត្រូវ។ សម្រាប់ព័ត៌មានសំខាន់ សូមផ្ដល់អាទិភាពកិច្ចការបកប្រែដោយមនុស្សជំនាញ។ យើងមិនទទួលខុសត្រូវចំពោះការយល់ខុស ឬការបកប្រែខុសដែលកើតមានពីការប្រើប្រាស់ការបកប្រែនេះឡើយ។