ازگر میں ڈیٹا کو معمول پر لانا۔

Normalization Data Python



ڈیٹا کو معمول پر لانا ایک ایسی تکنیک ہے جو تیزی سے نتیجہ حاصل کرنے میں مدد دیتی ہے کیونکہ مشین کو ڈیٹا کی چھوٹی رینج پر کارروائی کرنا پڑتی ہے۔ معمول بنانا کوئی آسان کام نہیں ہے کیونکہ آپ کے تمام نتائج آپ کے نارمل کرنے کے طریقہ کار کے انتخاب پر منحصر ہوتے ہیں۔ لہذا ، اگر آپ نے اپنے ڈیٹا کو نارمل کرنے کے لیے غلط طریقہ منتخب کیا ہے تو ، آپ کو اپنی توقعات سے کچھ مختلف مل سکتا ہے۔

نارملائزیشن کا انحصار ڈیٹا کی قسم پر ہوتا ہے جیسے تصاویر ، ٹیکسٹ ، عددی وغیرہ۔ لہذا ، اس مضمون میں ، ہم عددی اعداد و شمار پر توجہ دے رہے ہیں۔







طریقہ 1: سکلرن کا استعمال۔

sklearn طریقہ ڈیٹا کو معمول پر لانے کا ایک بہت مشہور طریقہ ہے۔





سیل نمبر میں [83] : ہم تمام مطلوبہ لائبریریاں ، NumPy اور sklearn درآمد کرتے ہیں۔ آپ دیکھ سکتے ہیں کہ ہم پری پروسیسنگ کو سکیلرن سے ہی درآمد کرتے ہیں۔ یہی وجہ ہے کہ یہ سکلرن نارملائزیشن کا طریقہ ہے۔





سیل نمبر میں [84] : ہم نے ایک NumPy صف کو کچھ انٹیجر ویلیو کے ساتھ بنایا جو ایک جیسی نہیں ہے۔

سیل نمبر میں [85] : ہم نے پری پروسیسنگ سے نارملائز طریقہ کو بلایا اور numpy_array کو پاس کیا ، جسے ہم نے صرف ایک پیرامیٹر کے طور پر بنایا ہے۔



سیل نمبر میں [86] : ہم نتائج سے دیکھ سکتے ہیں ، ہمارا تمام عدد ڈیٹا اب 0 اور 1 کے درمیان معمول پر آ گیا ہے۔

طریقہ 2: اسکیلرن کا استعمال کرتے ہوئے ڈیٹاسیٹ میں ایک خاص کالم کو معمول بنائیں۔

ہم مخصوص ڈیٹاسیٹ کالم کو بھی معمول بنا سکتے ہیں۔ اس میں ، ہم اس کے بارے میں بات کرنے جا رہے ہیں۔


سیل نمبر میں [87] : ہم لائبریری پانڈا اور سکلرن درآمد کرتے ہیں۔

سیل نمبر میں [88] : ہم نے ایک ڈمی CSV فائل بنائی ہے ، اور اب ہم اس CSV فائل کو پانڈا (read_csv) پیکج کی مدد سے لوڈ کر رہے ہیں۔

سیل نمبر میں [89] : ہم اس CSV فائل کو پرنٹ کرتے ہیں جسے ہم نے حال ہی میں لوڈ کیا ہے۔

سیل نمبر میں [90] : ہم np کا استعمال کرتے ہوئے CSV فائل کا خاص کالم پڑھتے ہیں۔ صف کو ترتیب دیں اور نتیجہ کو value_array میں محفوظ کریں۔

سیل نمبر میں [92] ، ہم نے پری پروسیسنگ سے نارملائز طریقہ کو بلایا اور ویلیو_آری پیرامیٹر پاس کیا۔

طریقہ 3: کالم کو صف میں استعمال کیے بغیر معمول پر لانے میں تبدیل کریں (sklearn کا استعمال کرتے ہوئے)

پچھلے طریقہ 2 میں ، ہم نے بحث کی کہ کس طرح ایک مخصوص CSV فائل کالم کو ہم معمول بنا سکتے ہیں۔ لیکن بعض اوقات ہمیں پورے ڈیٹاسیٹ کو معمول پر لانے کی ضرورت ہوتی ہے ، پھر ہم ذیل کا طریقہ استعمال کرسکتے ہیں جہاں ہم پورے ڈیٹاسیٹ کو معمول بناتے ہیں لیکن کالم کے لحاظ سے (محور = 0)۔ اگر ہم محور = 1 کا ذکر کرتے ہیں ، تو یہ قطار کے مطابق معمول پر آئے گا۔ محور = 1 بطور ڈیفالٹ قدر ہے۔


سیل نمبر میں [93] : ہم لائبریری پانڈا اور سکلرن درآمد کرتے ہیں۔

سیل نمبر میں [94] : ہم نے ایک ڈمی CSV فائل (demo_numeric.csv) بنائی ہے ، اور اب ہم اس CSV فائل کو پانڈا (read_csv) پیکج کی مدد سے لوڈ کر رہے ہیں۔

سیل نمبر میں [95] : ہم اس CSV فائل کو پرنٹ کرتے ہیں جسے ہم نے حال ہی میں لوڈ کیا ہے۔

سیل نمبر میں [96] : اب ، ہم ایک اور اضافی پیرامیٹر محور = 0 کے ساتھ پوری CSV فائل کو پاس کرتے ہیں ، جس نے لائبریری سے کہا کہ صارف پورے ڈیٹاسیٹ کو کالم کے مطابق معمول بنانا چاہتا ہے۔

سیل نمبر میں [97] ، ہم نتیجہ پرنٹ کرتے ہیں اور 0 اور 1 کے درمیان قدر کے ساتھ ڈیٹا کو معمول بناتے ہیں۔

طریقہ 4: MinMaxScaler () کا استعمال

sklearn نارملائزیشن کا ایک اور طریقہ بھی فراہم کرتا ہے ، جسے ہم نے MinMaxScalar کہا۔ یہ بھی ایک بہت ہی مقبول طریقہ ہے کیونکہ یہ استعمال کرنا آسان ہے۔


سیل نمبر میں [98] : ہم تمام مطلوبہ پیکجز درآمد کرتے ہیں۔

سیل نمبر میں [99] : ہم نے ایک ڈمی CSV فائل (demo_numeric.csv) بنائی ہے ، اور اب ہم اس CSV فائل کو پانڈا (read_csv) پیکج کی مدد سے لوڈ کر رہے ہیں۔

سیل نمبر میں [100] : ہم اس CSV فائل کو پرنٹ کرتے ہیں جسے ہم نے حال ہی میں لوڈ کیا ہے۔

سیل نمبر میں [101] : ہم نے پری پروسیسنگ طریقہ سے من میکس اسکیلر کو بلایا اور اس کے لیے ایک شے (min_max_Scalar) بنائی۔ ہم نے کوئی پیرامیٹر نہیں پاس کیا کیونکہ ہمیں 0 اور 1 کے درمیان ڈیٹا کو نارمل کرنے کی ضرورت ہے۔

سیل نمبر میں [102] : ہم نتائج کو ظاہر کرنے کے لیے مزید استعمال کے لیے سب سے پہلے کالموں کے نام پڑھتے ہیں۔ پھر ہم fit_tranform کو تخلیق کردہ آبجیکٹ min_max_Scalar سے کال کرتے ہیں اور CSV فائل کو اس میں منتقل کرتے ہیں۔

سیل نمبر میں [103] : ہمیں معمول کے نتائج ملتے ہیں جو 0 اور 1 کے درمیان ہوتے ہیں۔

طریقہ 5: MinMaxScaler استعمال کرنا (feature_range = (x، y))

sklearn آپ کی مطلوبہ قیمت کو معمول پر لانے کا آپشن بھی فراہم کرتا ہے۔ پہلے سے طے شدہ طور پر ، وہ 0 اور 1 کے درمیان قدر کو معمول پر لاتے ہیں۔

سیل نمبر میں [104] : ہم تمام مطلوبہ پیکجز درآمد کرتے ہیں۔

سیل نمبر میں [105] : ہم نے ایک ڈمی CSV فائل (demo_numeric.csv) بنائی ہے ، اور اب ہم اس CSV فائل کو پانڈا (read_csv) پیکج کی مدد سے لوڈ کر رہے ہیں۔

سیل نمبر میں [106] : ہم اس CSV فائل کو پرنٹ کرتے ہیں جسے ہم نے حال ہی میں لوڈ کیا ہے۔

سیل نمبر میں [107] : ہم نے پری پروسیسنگ طریقہ سے من میکس اسکیلر کو بلایا اور اس کے لیے ایک شے (min_max_Scalar) بنائی۔ لیکن ہم MinMaxScaler (feature_range) کے اندر ایک اور پیرامیٹر بھی پاس کرتے ہیں۔ اس پیرامیٹر ویلیو کو ہم نے 0 سے 2 مقرر کیا ہے۔ لہذا اب ، MinMaxScaler 0 سے 2 کے درمیان ڈیٹا ویلیوز کو نارمل کرے گا۔

سیل نمبر میں [108] : ہم نتائج کو ظاہر کرنے کے لیے مزید استعمال کے لیے سب سے پہلے کالموں کے نام پڑھتے ہیں۔ پھر ہم fit_tranform کو تخلیق کردہ آبجیکٹ min_max_Scalar سے کال کرتے ہیں اور CSV فائل کو اس میں منتقل کرتے ہیں۔

سیل نمبر میں [109] : ہمیں معمول کے نتائج ملتے ہیں جو 0 اور 2 کے درمیان ہوتے ہیں۔

طریقہ 6: زیادہ سے زیادہ مطلق اسکیلنگ کا استعمال۔

ہم پانڈا کا استعمال کرتے ہوئے ڈیٹا کو نارمل بھی کر سکتے ہیں۔ یہ خصوصیات ڈیٹا کو نارمل کرنے میں بھی بہت مشہور ہیں۔ زیادہ سے زیادہ مطلق اسکیلنگ 0 اور 1 کے درمیان اقدار کو معمول بناتی ہے۔ ہم یہاں .max () اور .abs () کا اطلاق کر رہے ہیں جیسا کہ نیچے دکھایا گیا ہے۔

سیل نمبر میں [110] : ہم پانڈوں کی لائبریری درآمد کرتے ہیں۔

سیل نمبر میں [111] : ہم نے ایک ڈمی ڈیٹا فریم بنایا اور اس ڈیٹا فریم کو پرنٹ کیا۔

سیل نمبر میں [113] : ہم ہر کالم کو کال کرتے ہیں اور پھر کالم اقدار کو .max () اور .abs () سے تقسیم کرتے ہیں۔

سیل نمبر میں [114] : ہم نتیجہ پرنٹ کرتے ہیں ، اور نتیجہ سے ، ہم تصدیق کرتے ہیں کہ ہمارا ڈیٹا 0 اور 1 کے درمیان معمول پر آتا ہے۔

طریقہ 7: z- سکور طریقہ استعمال کرنا۔

اگلا طریقہ جس پر ہم بات کرنے جا رہے ہیں وہ ہے z سکور کا طریقہ۔ یہ طریقہ معلومات کو تقسیم میں تبدیل کرتا ہے۔ یہ طریقہ ہر کالم کے وسط کا حساب لگاتا ہے اور پھر ہر کالم سے منہا کرتا ہے اور بالآخر اسے معیاری انحراف سے تقسیم کرتا ہے۔ یہ -1 اور 1 کے درمیان ڈیٹا کو معمول بناتا ہے۔

سیل نمبر میں [115] : ہم نے ایک ڈمی ڈیٹا فریم بنایا اور اس ڈیٹا فریم کو پرنٹ کیا۔

سیل نمبر میں [117] : ہم کالم کے وسط کا حساب لگاتے ہیں اور اسے کالم سے کم کرتے ہیں۔ پھر ہم کالم کی قیمت کو معیاری انحراف سے تقسیم کرتے ہیں۔

سیل نمبر میں [118] : ہم -1 اور 1 کے درمیان معمول کا ڈیٹا پرنٹ کرتے ہیں۔

نتیجہ: ہم نے مختلف قسم کے معمول کے طریقے دیکھے ہیں۔ ان میں سے ، سکلرن مشین لرننگ کو سپورٹ کرنے کی وجہ سے بہت مشہور ہے۔ لیکن یہ صارف کی ضروریات پر منحصر ہے۔ بعض اوقات ڈیٹا کو معمول پر لانے کے لیے پانڈا فیچر کافی ہوتا ہے۔ ہم یہ نہیں کہہ سکتے کہ عام کرنے کے طریقے صرف اوپر ہیں۔ ڈیٹا کو معمول پر لانے کے بے شمار طریقے ہیں جو آپ کے ڈیٹا کی قسم پر بھی منحصر ہوتے ہیں جیسے تصاویر ، عددی ، متن وغیرہ۔ ہم اس عددی ڈیٹا اور ازگر پر توجہ دیتے ہیں۔