Dalle-mini کیا ہے اور یہ کیسے کام کرتا ہے؟

Dalle-mini ایک گہری سیکھنے والا ماڈل ہے جو صارف کے ان پٹ ٹیکسٹ سے اعلیٰ معیار کی تصاویر بنا سکتا ہے۔ یہ DALL-E ماڈل پر مبنی ہے، جسے OpenAI نے جنوری 2021 میں جاری کیا تھا۔ DALL-E کا مطلب ہے ' منقطع زبان اور اویکت اظہار ایک ٹرانسفارمر پر مبنی نیورل نیٹ ورک ہے جو ٹیکسٹ اور امیجز کو ایک عام پوشیدہ جگہ میں انکوڈ کر سکتا ہے، اور پھر ان کو ڈی کوڈ کر کے کسی بھی موڈیلیٹی میں واپس کر سکتا ہے۔

یہ مضمون درج ذیل مواد کی وضاحت کرے گا:

Dalle-mini کیا ہے؟

اسے منی دے دو DALL-E کا ایک چھوٹا اور تیز تر ورژن ہے، جسے EleutherAI، ایک اوپن سورس ریسرچ گروپ نے بنایا تھا۔ Dalle-mini DALL-E کے 12 بلین کے مقابلے میں صرف 6 بلین پیرامیٹرز استعمال کرتا ہے، اور یہ ایک GPU پر چل سکتا ہے۔ Dalle-mini ٹیکسٹ ان پٹ کے لیے ایک مختلف ٹوکنائزر اور الفاظ کا استعمال بھی کرتا ہے، جو اسے مختلف زبانوں اور ڈومینز کے ساتھ زیادہ ہم آہنگ بناتا ہے:

نوٹ : صارفین Dalle-mini کا استعمال کرتے ہوئے مفت تصاویر بنا سکتے ہیں۔ لنک .

Dalle-mini کا کام کیا ہے؟

Dalle-mini کے پیچھے بنیادی خیال ٹرانسفارمرز کی طاقت ہے، جو نیورل نیٹ ورک ہیں۔ وہ ترتیب وار اعداد و شمار میں طویل فاصلے تک انحصار اور پیچیدہ پیٹرن سیکھ سکتے ہیں، جیسے کہ متن یا تصاویر۔

ٹرانسفارمرز دو بڑے حصوں پر مشتمل ہوتے ہیں: ایک انکوڈر اور ایک ڈیکوڈر۔ پہلا حصہ ایک ان پٹ (ایک متن کی تفصیل) لیتا ہے اور اسے پوشیدہ ویکٹر میں تبدیل کرتا ہے۔ اس کے بعد، ڈیکوڈر اسے لیتا ہے اور ایک آؤٹ پٹ (ایک تصویر) تیار کرتا ہے جو ان پٹ سے متعلق ہو۔

Dalle-mini اور DALL-E میں کیا فرق ہے؟

Dalle-mini اور DALL-E متن اور تصاویر دونوں کے لیے مشترکہ انکوڈر-ڈیکوڈر فن تعمیر کا استعمال کرتے ہیں۔ وہ ایک ہی نیٹ ورک کا استعمال کرتے ہوئے دونوں طریقوں کو انکوڈ اور ڈی کوڈ کرسکتے ہیں۔ اس سے انہیں ایک مشترکہ اویکت جگہ سیکھنے کی اجازت ملتی ہے جو متن اور تصاویر کے درمیان معنوی تعلق کو حاصل کرتی ہے۔ اس کے بعد، انہیں کراس موڈل جنریشن انجام دینے کے قابل بناتا ہے، جیسے کہ متن سے تصاویر بنانا یا اس کے برعکس۔

Dalle-mini کیسے کام کرتا ہے؟

متن کی تفصیل سے تصویر بنانے کے لیے، Dalle-mini سب سے پہلے بائٹ پیئر انکوڈنگ (BPE) الگورتھم کا استعمال کرتے ہوئے متن کو ٹوکنائز کرتا ہے، جو متن کو ان کی تعدد اور ہم آہنگی کی بنیاد پر ذیلی الفاظ کی اکائیوں میں تقسیم کرتا ہے:

آئیے ڈیل منی کے اندرونی کام کی تفصیل پر جائیں:

ڈالے منی کا اندرونی کام

آئیے فرض کریں، لفظ ' کھیلنا 'میں تقسیم کیا جا سکتا ہے' pla 'اور' ینگ ' اس کے بعد ٹوکنز کو 8192 ٹوکنز کی الفاظ کا استعمال کرتے ہوئے عددی IDs پر نقشہ بنایا جاتا ہے۔ IDs کو انکوڈر میں فیڈ کیا جاتا ہے، جس سے سائز 256 x 64 کی ایک خفیہ نمائندگی ہوتی ہے:

ڈیکوڈر پھر اویکت نمائندگی لیتا ہے اور سائز 256 x 256 پکسلز کی تصویر بناتا ہے۔ ڈیکوڈر ایک خودکار عمل کا استعمال کرتا ہے، جس کا مطلب ہے کہ یہ ہر ایک پکسل کو ایک ایک کرکے تیار کرتا ہے، جو پچھلے پکسلز اور اویکت نمائندگی پر مشروط ہے۔

Dalle-mini کا استعمال کرتے ہوئے متن کی تفصیل سے تصویر کیسے تیار کی جائے؟

Dalle-mini کا استعمال کرتے ہوئے کسی تصویر سے متن کی تفصیل بنانے کے لیے، متن کو پرامپٹ ونڈو میں داخل کریں۔ مثال کے طور پر، ٹائپ کریں ' بے ترتیب پھولوں کی پینٹنگ 'پرامپٹ میں اور مارو' رن بٹن:

آؤٹ پٹ سے پتہ چلتا ہے کہ Dalle-mini نے ان پٹ ٹیکسٹ کے مطابق متعلقہ تصاویر تیار کی ہیں۔

نتیجہ

Dalle-mini ایک قابل ذکر ماڈل ہے جو کراس موڈل جنریشن کے لیے ٹرانسفارمرز کی صلاحیت کو ظاہر کرتا ہے۔ وہ فطری زبان کی وضاحت سے حقیقت پسندانہ اور متنوع تصاویر بنا سکتے ہیں، نیز تصاویر سے مربوط اور متعلقہ متن بھی۔ وہ پیچیدہ کمپوزیشن کو بھی سنبھال سکتے ہیں، جیسے کہ ایک تصویر یا متن میں متعدد اشیاء یا صفات کو یکجا کرنا۔ اس مضمون میں Dalle-mini اور اس کے کام کی تفصیل سے وضاحت کی گئی ہے۔

Dalle-mini کیا ہے اور یہ کیسے کام کرتا ہے؟