ٹرانسفارمرز میں ڈیٹا سیٹ پر پائپ لائنز کیسے لگائیں؟

Ransfarmrz My Y A Sy Pr Payp Laynz Kys Lgayy



پائپ لائن () فنکشن ٹرانسفارمر لائبریری کا ایک لازمی حصہ ہے۔ یہ کئی ان پٹ لیتا ہے جس میں ہم ایک انفرنس ٹاسک، ماڈلز، ٹوکنائزیشن میکانزم وغیرہ کی وضاحت کر سکتے ہیں۔ پائپ لائن() فنکشن ایک یا کئی متن پر NLP کام انجام دینے کے لیے بڑے پیمانے پر استعمال ہوتا ہے۔ یہ ان پٹ پر پری پروسیسنگ کرتا ہے اور ماڈل کی بنیاد پر پوسٹ پروسیسنگ کرتا ہے تاکہ زیادہ سے زیادہ درستگی کے ساتھ انسانی پڑھنے کے قابل آؤٹ پٹ اور درست پیشین گوئی پیدا کی جا سکے۔

یہ مضمون درج ذیل پہلوؤں کا احاطہ کرتا ہے:







ہگنگ فیس ڈیٹاسیٹ لائبریری کیا ہے؟

ہگنگ فیس ڈیٹاسیٹ لائبریری ایک API ہے جس میں کئی پبلک ڈیٹا سیٹس ہوتے ہیں اور انہیں ڈاؤن لوڈ کرنے کا آسان طریقہ فراہم کرتا ہے۔ اس لائبریری کو 'کا استعمال کرکے ایپلی کیشن میں درآمد اور انسٹال کیا جاسکتا ہے۔ pip ' کمانڈ. ہگنگ فیس لائبریری کے ڈیٹاسیٹس کو ڈاؤن لوڈ اور انسٹال کرنے کے عملی مظاہرے کے لیے، اس پر جائیں گوگل کولاب لنک۔ آپ سے متعدد ڈیٹا سیٹ ڈاؤن لوڈ کر سکتے ہیں۔ ہگنگ فیس ڈیٹاسیٹ حب۔



اس مضمون کا حوالہ دے کر پائپ لائن () فنکشن کے کام کے بارے میں مزید جانیں۔ ٹرانسفارمرز میں پائپ لائن () فنکشن کو کیسے استعمال کیا جائے؟ '



گلے لگانے والے چہرے میں ڈیٹا سیٹ پر پائپ لائن کیسے لگائیں؟

Hugging Face کئی مختلف عوامی ڈیٹا سیٹس فراہم کرتا ہے جو ایک لائن کوڈ کا استعمال کرکے آسانی سے انسٹال کیا جا سکتا ہے۔ اس مضمون میں، ہم ان ڈیٹاسیٹس پر پائپ لائنز لگانے کا عملی مظاہرہ دیکھیں گے۔ ڈیٹاسیٹ پر پائپ لائنوں کو لاگو کرنے کے دو طریقے ہیں۔





طریقہ 1: تکرار کا طریقہ استعمال کرنا

پائپ لائن () فنکشن کو ڈیٹاسیٹ اور ماڈل پر بھی دہرایا جا سکتا ہے۔ اس مقصد کے لیے درج ذیل مراحل پر عمل کریں:

مرحلہ 1: ٹرانسفارمر لائبریری انسٹال کریں۔

ٹرانسفارمر لائبریری کو انسٹال کرنے کے لیے درج ذیل کمانڈ فراہم کریں:



!پائپ انسٹال ٹرانسفارمرز

مرحلہ 2: پائپ لائنز درآمد کریں۔

ہم ٹرانسفارمر لائبریری سے پائپ لائن درآمد کر سکتے ہیں۔ اس مقصد کے لیے درج ذیل کمانڈ فراہم کریں:

ٹرانسفارمرز سے پائپ لائن درآمد کریں۔

مرحلہ 3: پائپ لائن کو لاگو کریں۔

یہاں، پائپ لائن () فنکشن ماڈل پر لاگو کیا جاتا ہے ' gpt2 ' آپ سے ماڈل ڈاؤن لوڈ کرسکتے ہیں۔ گلے لگانا چہرہ ماڈل ہب:

def imp_pipeline():
رینج میں x کے لیے (1000):
پیداوار f'عمل درآمد ڈیٹاسیٹ{x}'


generate_pipeline= پائپ لائن(model='gpt2', device=0)
gen_char = 0
generate_pipeline(imp_pipeline()) میں آؤٹ پٹ کے لیے:
gen_char += len(output[0]['generated_text'])

اس کوڈ میں، ' generate_pipeline 'ایک متغیر ہے جو ماڈل کے ساتھ پائپ لائن () فنکشن پر مشتمل ہے' gpt2 ' جب اسے ' کے ساتھ بلایا جاتا ہے imp_pipeline() ” فنکشن، یہ خود بخود اس ڈیٹا کو پہچان لیتا ہے جو 1000 تک مخصوص کی گئی رینج کے ساتھ بڑھایا جاتا ہے:

اس کی تربیت میں کچھ وقت لگے گا۔ کا لنک گوگل کمپنی بھی دیا جاتا ہے.

طریقہ 2: ڈیٹاسیٹس لائبریری کا استعمال

اس طریقہ میں، ہم 'ڈیٹا سیٹس' لائبریری کا استعمال کرتے ہوئے پائپ لائن کو نافذ کرنے کا مظاہرہ کریں گے:

مرحلہ 1: ٹرانسفارمر انسٹال کریں۔

ٹرانسفارمر لائبریری کو انسٹال کرنے کے لیے درج ذیل کمانڈ فراہم کریں:

!پائپ انسٹال ٹرانسفارمرز

مرحلہ 2: ڈیٹاسیٹ لائبریری انسٹال کریں۔

جیسا کہ ' ڈیٹاسیٹس 'لائبریری میں تمام پبلک ڈیٹا سیٹس ہوتے ہیں، ہم اسے درج ذیل کمانڈ کے ذریعے انسٹال کر سکتے ہیں۔ انسٹال کرکے ' ڈیٹاسیٹس 'لائبریری، ہم کسی بھی ڈیٹاسیٹ کو اس کا نام فراہم کرکے براہ راست درآمد کر سکتے ہیں:

!pip انسٹال ڈیٹا سیٹس

مرحلہ 3: ڈیٹاسیٹ پائپ لائن

ڈیٹاسیٹ پر پائپ لائن بنانے کے لیے درج ذیل کوڈ کا استعمال کریں۔ KeyDataset ایک خصوصیت ہے جو صرف ان اقدار کو آؤٹ پٹ کرتی ہے جو صارف کی دلچسپی رکھتی ہے:

transformers.pipelines.pt_utils سے KeyDataset درآمد کریں۔
ٹرانسفارمرز سے پائپ لائن درآمد کریں۔
ڈیٹاسیٹس سے لوڈ_ڈیٹا سیٹ درآمد کریں۔
gen_pipeline = پائپ لائن(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]')gen_pipeline(KeyDataset(loaddataset, 'audio') میں آؤٹ پٹ کے لیے:
پرنٹ ('اب پرنٹنگ آؤٹ پٹ')
پرنٹ کریں ('----------------')
پرنٹ (آؤٹ پٹ)

مندرجہ بالا کوڈ کا آؤٹ پٹ ذیل میں دیا گیا ہے:

یہ سب اس گائیڈ سے ہے۔ کا لنک گوگل کمپنی اس مضمون میں بھی ذکر کیا گیا ہے۔

نتیجہ

ڈیٹاسیٹ پر پائپ لائنوں کو لاگو کرنے کے لیے، ہم یا تو پائپ لائن () فنکشن کا استعمال کرکے ڈیٹاسیٹ پر اعادہ کرسکتے ہیں یا ' ڈیٹاسیٹس ' کتب خانہ. Hugging Face اپنے صارفین کو ڈیٹا سیٹس اور ماڈلز دونوں کے لیے GitHub ریپوزٹری لنک فراہم کرتا ہے جسے ضروریات کی بنیاد پر استعمال کیا جا سکتا ہے۔ اس مضمون نے ٹرانسفارمرز میں ڈیٹاسیٹ پر پائپ لائنیں لگانے کے لیے ایک جامع گائیڈ فراہم کیا ہے۔