گلے لگانے والا چہرہ فلٹر () طریقہ

Gl Lgan Wala Ch R Fl R Tryq



Hugging Face میں کئی قدرتی لینگویج پروسیسنگ (NLP) ماڈل اور ڈیٹا سیٹس ہیں۔ ان بڑے ڈیٹاسیٹس میں بہت سی معلومات ہوتی ہیں جو ماڈل کو درست طریقے سے تربیت دینے میں مدد کرتی ہیں۔ تاہم، بعض اوقات ہمیں پورے ڈیٹاسیٹ کی ضرورت نہیں ہوتی ہے کیونکہ ہمیں اپنی موجودہ ضروریات کو پورا کرنے کے لیے اس کے صرف ایک چھوٹے سے حصے کی ضرورت ہوتی ہے۔ اگر ہم تمام معلومات کے ساتھ معمول کے مطابق وہی ڈیٹا سیٹ استعمال کرنا چاہتے ہیں، تو ماڈل کی تربیت اور اصلاح میں کافی وقت لگتا ہے جو کہ وقت کا ضیاع ہے۔

لہذا، ہمیں کسی ایسے طریقہ یا پیکیج کی ضرورت ہے جو ڈیٹا سیٹس سے متعلقہ معلومات کو نکال سکے۔ سادہ زبان میں، ہم کہہ سکتے ہیں کہ ہمیں اپنی ضروریات کے مطابق ڈیٹاسیٹس کو فلٹر کرنے کے لیے ایک اضافی فلٹر آپشن کی ضرورت ہے۔

ہگنگ فیس ڈیٹا سیٹس کو فلٹر کرنے کے لیے مختلف آپشنز فراہم کرتا ہے جو صارفین کو اپنی مرضی کے مطابق ڈیٹا سیٹس بنانے میں مدد کرتا ہے جس میں صرف مثالیں یا معلومات ہوتی ہیں جو مخصوص شرائط کو پورا کرتی ہیں۔







() طریقہ منتخب کریں۔

یہ طریقہ انڈیکس کی فہرست پر کام کرتا ہے جس کا مطلب ہے کہ ہمیں فہرست کی وضاحت کرنی ہوگی۔ اس فہرست کے اندر، ہمیں ان تمام قطاروں کی انڈیکس ویلیوز کا ذکر کرنا ہوگا جو ہم نکالنا چاہتے ہیں۔ لیکن یہ طریقہ صرف چھوٹے ڈیٹا سیٹس کے لیے کام کرتا ہے نہ کہ بڑے ڈیٹا سیٹس کے لیے، کیونکہ ہم پورا ڈیٹا سیٹ دیکھنے کے قابل نہیں ہیں اگر یہ GBs (گیگا بائٹس) یا TBs (ٹیرا بائٹس) میں ہے۔



مثال :

نیا_ڈیٹا سیٹ = ڈیٹاسیٹ منتخب کریں ( [ 0 , گیارہ , اکیس , چار پانچ , پچاس , 55 ] )

پرنٹ کریں ( صرف ( نیا_ڈیٹا سیٹ ) )

اس مثال میں، ہم نے ڈیٹا سیٹ سے مطلوبہ معلومات کو فلٹر کرنے کے لیے 'منتخب' کا طریقہ استعمال کیا۔



فلٹر () طریقہ

filter() طریقہ انتخاب () عمل کے مسائل پر قابو پاتا ہے کیونکہ کوئی خاص شرط نہیں ہے۔ filter() طریقہ ان تمام قطاروں کو لوٹاتا ہے جو کسی خاص صورتحال یا حالت سے ملتی ہیں۔





مثال: ہم اس Python پروگرام کو 'test.py' نام سے محفوظ کرتے ہیں۔

سے ڈیٹاسیٹس درآمد لوڈ_ڈیٹا سیٹ

# مرحلہ 1: ڈیٹاسیٹ لوڈ کریں۔
ڈیٹاسیٹ = لوڈ_ڈیٹا سیٹ ( 'imdb' )

# مرحلہ 2: فلٹرنگ فنکشن کی وضاحت کریں۔
def custom_filter ( مثال ) :
'''
مثبت کے ساتھ مثالوں کو برقرار رکھنے کے لیے ایک حسب ضرورت فلٹرنگ فنکشن
جذبات (لیبل == 1)۔
'''

واپسی مثال [ 'لیبل' ] == 1

# مرحلہ 3: ایک نیا فلٹر شدہ ڈیٹاسیٹ بنانے کے لیے فلٹر لگائیں۔
filtered_dataset = ڈیٹاسیٹ فلٹر ( custom_filter )

# مرحلہ 4: فلٹر شدہ ڈیٹاسیٹ میں دستیاب کالم کے نام چیک کریں۔
پرنٹ کریں ( 'فلٹر شدہ ڈیٹاسیٹ میں دستیاب کالم:' ,
filtered_dataset. کالم_نام )

# مرحلہ 5: فلٹر کردہ ڈیٹاسیٹ سے معلومات تک رسائی حاصل کریں۔
filtered_examples = filtered_dataset [ 'ٹرین' ]
num_filtered_examples = صرف ( filtered_examples )

#مرحلہ 6: فلٹر شدہ مثالوں کی کل تعداد پرنٹ کریں۔
پرنٹ کریں ( 'کل فلٹر شدہ مثالیں:' , num_filtered_examples )

آؤٹ پٹ:



وضاحت:

لائن 1: ہم ڈیٹا سیٹس سے مطلوبہ load_dataset پیکیج درآمد کرتے ہیں۔

لائن 4: ہم load_dataset کا استعمال کرتے ہوئے 'imdb' ڈیٹاسیٹ لوڈ کرتے ہیں۔

لائنز 7 سے 12: ہم کسٹم فلٹرنگ فنکشن کی وضاحت کرتے ہیں۔ ' custom_filter ' مثالوں کو مثبت جذبات کے ساتھ رکھنے کے لیے (لیبل == 1)۔ یہ فنکشن صرف وہی قطاریں لوٹاتا ہے جن کی لیبل ویلیو 1 ہے۔

لائن 15: یہ لائن ظاہر کرتی ہے کہ ڈیٹاسیٹ میں 'imdb' مووی ریویو ڈیٹا موجود ہے۔ اب ہم اس ڈیٹا بیس پر فلٹر فنکشن لاگو کرتے ہیں تاکہ مثبت جائزوں کو ڈیٹا بیس سے الگ کیا جا سکے جو مزید 'filtered_dataset' میں محفوظ ہے۔

لائنز 18 اور 19: اب، ہم چیک کرتے ہیں کہ فلٹرڈ_ڈیٹا سیٹ میں کون سے کالم کے نام دستیاب ہیں۔ لہذا، 'filtered_dataset.column_names' کوڈ ہماری ضروریات کی تفصیلات فراہم کرتا ہے۔

لائنیں 22 اور 23: ان لائنوں میں، ہم filtered_dataset کے 'ٹرین' کالم کو فلٹر کرتے ہیں اور ٹرین کے کالم کی کل تعداد (لمبائی) پرنٹ کرتے ہیں۔

لائن 26: اس آخری لائن میں، ہم سطر نمبر 23 سے نتیجہ پرنٹ کرتے ہیں۔

فلٹر () انڈیکس کے ساتھ

filter() طریقہ کو انڈیکس کے ساتھ بھی استعمال کیا جا سکتا ہے جیسا کہ سلیکٹ() موڈ میں دیکھا گیا ہے۔ لیکن اس کے لیے، ہمیں یہ بتانا ہوگا کہ 'with_indices=true' کلیدی لفظ کو filter() طریقہ سے باہر بیان کرنا ہوگا جیسا کہ درج ذیل مثال میں دکھایا گیا ہے:

odd_dataset = ڈیٹاسیٹ فلٹر ( لیمبڈا مثال , idx: idx % 2 != 0 , انڈیکس کے ساتھ = سچ ہے۔ )

پرنٹ کریں ( صرف ( odd_dataset ) )

اس مثال میں، ہم نے ڈیٹا سیٹ سے مطلوبہ معلومات کو فلٹر کرنے کے لیے filter() طریقہ استعمال کیا، بشمول صرف وہ قطاریں جو طاق ہیں۔

filter() طریقہ کار کے ہر پیرامیٹر کی مکمل تفصیلات اس پر مل سکتی ہیں۔ لنک .

نتیجہ

ہگنگ فیس ڈیٹاسیٹ لائبریری مختلف ڈیٹاسیٹس کے ساتھ مؤثر طریقے سے کام کرنے کے لیے ایک طاقتور اور صارف دوست ٹول سیٹ فراہم کرتی ہے، خاص طور پر نیچرل لینگویج پروسیسنگ (NLP) اور مشین لرننگ کے کاموں کے تناظر میں۔ پروگرام میں پیش کردہ filter() فنکشن محققین اور پریکٹیشنرز کو صارف کی طرف سے طے شدہ فلٹرنگ کے معیار کی وضاحت کرکے ڈیٹا کے متعلقہ ذیلی سیٹ نکالنے کی اجازت دیتا ہے۔ اس فعالیت کو استعمال کرتے ہوئے، صارفین آسانی سے نئے ڈیٹا سیٹس بنا سکتے ہیں جو مخصوص شرائط کو پورا کرتے ہیں جیسے کہ فلم کے جائزوں میں مثبت جذبات کو برقرار رکھنا یا مخصوص ٹیکسٹ ڈیٹا نکالنا۔

یہ مرحلہ وار مظاہرہ بتاتا ہے کہ ڈیٹاسیٹ کو لوڈ کرنا، کسٹم فلٹر کے افعال کو لاگو کرنا، اور فلٹر شدہ ڈیٹا تک رسائی حاصل کرنا کتنا آسان ہے۔ اس کے علاوہ، فنکشن پیرامیٹرز کی لچک اپنی مرضی کے مطابق فلٹرنگ آپریشنز کی اجازت دیتی ہے، بشمول بڑے ڈیٹا سیٹس کے لیے متعدد پروسیسنگ کے لیے معاونت۔ ہگنگ فیس ڈیٹاسیٹ لائبریری کے ساتھ، صارفین اپنے ڈیٹا کو ہموار کر سکتے ہیں۔