پانڈاس کیو کٹ

Pan As Kyw K



'Python' بہت سی لائبریریوں پر مشتمل ہے، اور جب ہم ڈیٹا کا تجزیہ کرنا چاہتے ہیں یا اس میں ہیرا پھیری کرنا چاہتے ہیں، تو ہم ان 'Python's' لائبریریوں کو استعمال کرتے ہیں، اور 'پانڈا' بھی اس کی لائبریری ہے۔ 'پانڈا' لائبریری ڈیٹا سائنسز کے میدان میں استعمال ہوتی ہے، اور یہ مشین سیکھنے کی سرگرمیوں میں بھی استعمال ہوتی ہے۔ 'پانڈا' ڈیٹا فریم ڈیٹا کو محفوظ کرنے میں ہماری مدد کرتا ہے۔ 'پانڈا' میں، جب ہم ڈیٹا بائننگ کرنا چاہتے ہیں، تو ہم 'qcut()' طریقہ استعمال کرتے ہیں۔ 'qcut()' طریقہ کو مسلسل خصوصیات کو دوٹوک خصوصیات میں تبدیل کرنے کے لیے استعمال کیا جاتا ہے۔ ہم مختلف قسم کے نتائج حاصل کرنے کے لیے اس 'qcut()' طریقہ میں مختلف قسم کے پیرامیٹرز شامل کر سکتے ہیں۔ یہ ٹیوٹوریل 'qcut()' طریقہ کے بارے میں ہے، اور ہم یہاں 'qcut()' طریقہ کی پوری تفصیل سے وضاحت کریں گے۔ ہم آپ کو بتائیں گے کہ ہم اس ٹیوٹوریل میں 'پانڈا' میں 'qcut()' فنکشن کی مدد سے ڈیٹا بائننگ کیسے کرتے ہیں۔

مثال نمبر 01

ہم ان کوڈز میں 'qcut()' طریقہ کا اطلاق کریں گے، اور ہم ان کوڈز کو 'Spyder' ایپ میں کریں گے۔ جب ہمیں 'پانڈا' کے ساتھ کام کرنا ہوتا ہے، تو ہم صرف اس کے افعال تک رسائی حاصل کر سکتے ہیں جب ہم 'پانڈا' لائبریری کو اپنے کوڈز میں درآمد کرتے ہیں۔ پہلے، ہم 'import' ڈالتے ہیں اور پھر ہم 'pandas as pd' لکھتے ہیں۔ اب، ہمیں 'qcut()' طریقہ کو لاگو کرنا ہے، تو اس کے لیے، ہم یہاں ڈیٹا فریم بنا رہے ہیں۔ ہم 'R_ID، R_name، اور R_age' پر مشتمل 'R_ID، R_name، اور R_age' کو اس کے کالم کے طور پر بناتے ہیں، اور 'R_ID' میں بھی، ہم 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_51' رکھتے ہیں۔ R_61، R_73، اور R_81'۔ پھر ہم 'R_name' کالم میں 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob, and Harper' کو شامل کرتے ہیں۔ اس کے بعد، ہم 'R_age' کالم میں '21، 33، 12، 43، 22، 7، 21، 51، 72، 19، 10، 9، 37، اور 40' داخل کرتے ہیں۔ اب، ہم 'print()' استعمال کرتے ہیں، جس میں 'Random_df' ہوتا ہے اور یہ 'Random_df' ڈیٹا فریم کو رینڈر کرنے میں مدد کرے گا۔ ہم نے ابھی ڈیٹا فریم بنایا ہے اور ابھی تک 'qcut()' طریقہ کا اطلاق نہیں کیا ہے۔








'رن' آئیکون کوڈز پر عمل درآمد کرنے میں ہماری مدد کرتا ہے۔ جب ہم اس 'رن' آئیکون کو دباتے ہیں، تو اس کوڈ کا نتیجہ 'اسپائیڈر' ایپ کے ٹرمینل پر ظاہر ہوتا ہے۔ 'Random_df' DataFarme کوڈ کے نتیجے کے طور پر دکھایا گیا ہے جسے ہم نے اس مثال میں لکھا ہے۔ اب، ہم 'qcut()' طریقہ کا اطلاق کریں گے اور اس کا نتیجہ بھی دکھائیں گے۔




ہم یہاں ڈیٹا کو بائن کر رہے ہیں۔ ہم 'R_age' کالم کو بائن کر رہے ہیں اور 'pd.qcut()' طریقہ لگا رہے ہیں، جو کہ 'پانڈا' کا طریقہ ہے جو ڈیٹا بائننگ میں مدد کرتا ہے۔ اس طریقہ میں، ہم ڈیٹا فریم کا نام اور کالم کا نام بھی ڈالتے ہیں جس پر ہم اس 'qcut()' طریقہ کو لاگو کرنا چاہتے ہیں۔ ہم نے 'q' کی قدر کو '5' پر بھی سیٹ کیا ہے اور یہ 'R_age' کالم کے ڈیٹا کو پانچ برابر مقدار میں کاٹنے کے لیے استعمال ہوتا ہے۔ ہم 'print()' میں 'qcut()' طریقہ شامل کرتے ہیں، تو یہ ٹرمینل پر بائننگ ڈیٹا بھی دکھائے گا۔




یہاں، بائننگ کے بعد کا ڈیٹا ظاہر ہوتا ہے، اور یہ 'R_age' کو پانچ کوانٹائل میں کاٹتا ہے۔ یہ وہ زمرے بھی دکھاتا ہے جن میں 'R_age' کالم کا ڈیٹا بائن کیا جاتا ہے۔ واضح سیریز 'R_age' ڈبوں کی نمائندگی کرتی ہے۔






ہم ان ڈبوں کے لیبل کو بھی ایڈجسٹ کر سکتے ہیں۔ ہم ان بن لیبلز کو شامل کرتے ہیں تاکہ ان کی تشریح میں آسانی ہو۔ ہم 'R_age_qcut' کالم کو 'Random_df' میں شامل کرتے ہیں جس میں ہم ان ڈبوں کے لیبل شامل کرتے ہیں۔ ان پر لیبل لگانے کے لیے ہم دوبارہ 'pd.qcut()' طریقہ استعمال کرتے ہیں۔ ہم اس میں وہ لیبل شامل کرتے ہیں جو 'چھوٹے، اتنے کم نہیں، معمولی، اعلی، اور سب سے زیادہ' ہیں۔ پھر ہم نے دوبارہ 'Random_df' کو 'print()' میں ڈال دیا۔


تمام ڈبوں کو اس نتیجے میں لیبل لگا کر پیش کیا گیا ہے۔ اس ڈیٹا فریم میں 'R_age_qcut' کالم ظاہر ہوتا ہے جس میں لیبل والے ڈبے دکھائے جاتے ہیں۔



مثال نمبر 02

ڈیٹا فریم بنانے کے لیے، ہم سب سے پہلے 'گریڈز' شامل کرتے ہیں، جو کہ '3، 6، 8، 7، 2، 5، 1، 9، 4، 7، اور 8' ہیں۔ پھر، ہم 'طلبہ' میں طلباء کے نام شامل کرتے ہیں، جو کہ 'پیٹر، بروملے، جیمز، ڈیوڈ، ایلیز، جان، جیمز، سیموئیل، ولیم، ہاورڈ، اور الیگزینڈر' ہیں۔ پھر ہم 'Grades_df' تیار کرتے ہیں جہاں ہم نے 'pd.DataFrame()' طریقہ شامل کیا ہے، اور اس طریقہ میں، ہم 'Std_name' ڈالتے ہیں، جو کالم کے نام کے طور پر ظاہر ہوگا، اور اس کے لیے 'طلبہ' کی قدریں تفویض کرتے ہیں۔ پھر ہم ڈیٹا فریم کے کالم کے نام کے طور پر 'Students_grades' سیٹ کرتے ہیں اور یہاں 'گریڈز' بھی تفویض کرتے ہیں، جو ہم نے اوپر بنایا ہے۔ اس کے بعد، ہمارے پاس 'print()' ہے جس میں ہم پرنٹنگ کے لیے 'Grades_df' شامل کرتے ہیں۔


اس کوڈ کے نتیجے میں دو کالموں پر مشتمل ڈیٹا فریم ظاہر ہوتا ہے۔ اب، ہم اس کالم کی اقدار کے ڈیٹا کو بائن کرنے کے لیے 'سٹوڈنٹس_گریڈز' کالم پر 'qcut()' طریقہ کا اطلاق کریں گے۔


ہم یہاں ایک نیا کالم 'گریڈ' شامل کرتے ہیں جس میں ہم نے 'Pd.qcut()' کو 'Students_grades' کالم میں لاگو کیا ہے، اور ساتھ ہی، ہم نے 'q' کی قدر کے لیے '4' استعمال کیا ہے، تو یہ کٹ جائے گا۔ ڈیٹا کو چار مساوی مقدار میں۔ اس کے بعد، ہم ان کوانٹائل کو یہاں 'q' میں ویلیو رکھ کر بتاتے ہیں جو کہ '0، .4، .8، اور 1' ہیں۔ پھر، ہم اسے بھی ظاہر کرتے ہیں۔ اب، ہم ان بائنڈ ڈیٹا کو لیبل کر رہے ہیں، اور جو لیبل ہم یہاں شامل کرتے ہیں وہ 'D، C، A، اور B' ہیں اور 'گریڈ' کالم میں بھی محفوظ ہیں۔


یہاں، بائننگ کے بعد کا ڈیٹا یہاں 'گریڈ' کالم میں ظاہر ہوتا ہے، اور یہ 'Students_grades' کالم کے ڈیٹا کو چار مساوی مقدار میں کاٹتا ہے۔


ڈیٹا فریم جو ہمیں 'qcut()' طریقہ کو لاگو کرنے اور مقدار کی وضاحت کرنے کے بعد حاصل ہوتا ہے اس نتیجہ میں ظاہر ہوتا ہے۔


اب، ان ڈبوں میں لیبلز کو شامل کرنے کے بعد 'گریڈ' کالم میں اس نتیجے میں بھی پیش کیا جاتا ہے، اور آپ دیکھ سکتے ہیں کہ یہ بن کی قدروں کے مطابق لیبل تفویض کرتا ہے۔

مثال نمبر 03

ہم CSV فائل کے ڈیٹا پر 'qcut()' طریقہ بھی لاگو کر سکتے ہیں۔ اس کے لیے، ہم سب سے پہلے CSV فائل کا ڈیٹا 'read_csv()' طریقہ کی مدد سے پڑھتے ہیں۔ ہم 'office2.csv' فائل کا ڈیٹا پڑھ رہے ہیں، اور پھر اس فائل کا ڈیٹا 'Office_df' میں رکھا گیا ہے۔ یہ طریقہ 'office2' فائل کے ڈیٹا کو ڈیٹا فریم میں تبدیل کر دے گا اور اسے 'Office_df' میں محفوظ کر دے گا۔ پھر، ہم اس ڈیٹا کو 'پرنٹ()' میں 'Office_df' ڈال کر بھی دکھاتے ہیں۔ اس کے بعد، ہم 'Units_qcut' کے نام سے ایک نیا کالم شامل کرتے ہیں، جس میں ہم 'یونٹس' کالم میں فنکشن 'pd.qcut() کا اطلاق کرتے ہیں۔

مزید برآں، ہم نے 'q' متغیر کی قدر کو '5' پر سیٹ کیا، جو ڈیٹا کو پانچ برابر مقداروں میں تقسیم کرے گا۔ ڈیٹا، 5 مساوی مقدار میں کاٹنے کے بعد، 'Units_qcut' کالم میں محفوظ کیا جاتا ہے، اور اس کالم کو 'Office_df' میں بھی شامل کیا جاتا ہے اور 'Office_df' کو دوبارہ یہاں 'print()' کا استعمال کرتے ہوئے پیش کیا جاتا ہے۔ اب ہم ان بائنڈ ڈیٹا پر لیبل لگا رہے ہیں، لیبلز کو 'qcut()' طریقہ میں شامل کر رہے ہیں، جو کہ 'Unit 1, Unit 2, Unit 3, Unit 4, اور Unit 5' ہیں اور انہیں 'Labels' کالم میں بھی اسٹور کر رہے ہیں۔ . ہم اس ڈیٹا فریم کو بھی رینڈر کرتے ہیں جس میں 'لیبلز' کالم شامل کیا جاتا ہے۔


'office2.csv' فائل کو پڑھنے کے بعد جو ڈیٹا ہمیں ملتا ہے اسے ڈیٹا فریم کی شکل میں یہاں پیش کیا جاتا ہے۔ پھر 'Units_qcut' کالم شامل کیا جاتا ہے، جس میں 'Units' کالم کی binned قدریں ظاہر ہوتی ہیں۔ اس کے بعد، 'لیبلز' کالم بھی شامل کیا جاتا ہے، جو ان بنڈ اقدار کو لیبل تفویض کرتا ہے۔ یہ سب 'پانڈا' میں 'qcut()' طریقہ استعمال کرکے کیا جاتا ہے۔

نتیجہ

ہم نے اس ٹیوٹوریل میں 'qcut()' طریقہ کو تفصیل سے بیان کیا ہے جو 'پانڈا' میں ڈیٹا کو بائن کرنے میں مدد کرتا ہے۔ ہم نے بحث کی ہے کہ ڈیٹا کوانٹائل 'q' ویلیو کے مطابق بائن کیا گیا ہے جسے ہم نے 'qcut()' طریقہ میں شامل کیا ہے، اور ساتھ ہی ہم نے لیبلز کو ان بائنڈ ڈیٹا میں ایڈجسٹ کیا ہے۔ ہم نے 'qcut()' طریقہ کو دریافت کیا ہے اور اس طریقہ کو ڈیٹا فریم کے کالموں پر لاگو کیا ہے، اور ہم نے CSV فائلوں کو پڑھنے کے بعد اس 'qcut()' طریقہ کو CSV فائل کے ڈیٹا پر بھی لاگو کیا ہے۔ ہم نے اس ٹیوٹوریل میں تمام کوڈز کا نتیجہ پیش کیا ہے تاکہ 'qcut()' طریقہ کار کا نتیجہ واضح طور پر بیان کیا جا سکے۔