مائیکروسافٹ کے ویژول جی پی ٹی نے ایک نئی ٹیکنالوجی جاری کی ہے۔ بصری جی پی ٹی یہ AI کی ترقی ہے اور بصری اور زبان کے درمیان فرق کو ختم کرکے مزید دلکش، اور انٹرایکٹو AI تجربات کے امکانات کو کھولتا ہے۔
VisualGPT کیا ہے؟
VisualGPT ChatGPT کا ایک توسیعی ورژن ہے جو NLP (Natural Language Processing) ماڈلز پر مبنی ہے، لیکن VisualGPT میں VFMS استعمال کیا جاتا ہے جو ٹیکسٹ سوالات کو تصویری شکل میں تبدیل کر سکتا ہے۔ یہ اس طرح ہے کہ یہ متن اور تصویری سوالات کا مجموعہ/انضمام ہے۔
VisualGPT کا مقصد
مارکیٹ میں چیٹ جی پی ٹی کے اجراء کے بعد جو کہ صرف ٹیکسٹول فارمیٹ پر کام کر رہا تھا، ترقی کی اگلی سطح کو حاصل کرنے کے لیے ایک بہترین ٹول موجود ہے جو ان تمام وجوہات کے بعد اور AI کی دوڑ میں متنی سے گرافیکل فارمیٹ پر کام کرے گا۔ ترقی مائیکروسافٹ نے VisualGPT کو جاری کیا VisualGPT کا بنیادی مقصد صارف کی مانگ پر AI امیجز بنانا یا امیج کا تجزیہ کرنا ہے۔
بصری جی پی ٹی کا فن تعمیر
VisualGPT صارف کے سوال، پرامپٹ مینیجر، بصری فاؤنڈیشن ماڈلز (VFMs)، سسٹم پرنسپل، ہسٹری آف ڈائیلاگ، ہسٹری آف ریزننگ، اور انٹرمیڈیٹ جواب پر مشتمل ہے۔
اگر ہم خاص طور پر اس کے ماڈل کے بارے میں بات کرتے ہیں یعنی، ' VFMs (بصری فاؤنڈیشن ماڈلز) '، تقریباً 22 VFM استعمال کیے جاتے ہیں، جیسے BLIP (بوٹسٹریپنگ لینگویج-امیج پری ٹریننگ)، اور مستحکم بازی۔
بصری چیٹ جی پی ٹی کیسے چلائیں؟
بصری چیٹ جی پی ٹی چلانے کے لیے، درج ذیل اقدامات پر غور کریں:
مرحلہ 1: ایک ماحول بنائیں
سب سے پہلے، آپ کو ازگر ورژن 3.8 کا ماحول بنانا ہوگا:
درآمد sys
sys.path.append ( '/usr/local/lib/python3.8/site-packages' )
مرحلہ 2: بصری چیٹ جی پی ٹی فائل کو کلون کریں۔
اب، مندرجہ ذیل کمانڈ کا استعمال کرتے ہوئے GitHub سے بصری ChatGPT فائل کو کلون کریں:
! گٹ کلون https: // github.com / deepanshu88 / visual-chatgpt.git
مرحلہ 3: ایک نئی ڈائرکٹری ترتیب دیں۔
اس کے بعد، ذیل میں بیان کردہ کمانڈ کے ذریعے ایک نئی ڈائریکٹری ترتیب دیں:
% سی ڈی بصری-chatgptمرحلہ 4: مطلوبہ پیکجز انسٹال کریں۔
اب، 'کا استعمال کرتے ہوئے مطلوبہ پیکجوں کو انسٹال کریں pip cmdlet:
! curl https: // bootstrap.pypa.io / get-pip.py -او get-pip.py! python3.8 get-pip.py
! python3.8 -m pip انسٹال کریں -r requirements.txt
مرحلہ 5: OpenAI API تک رسائی حاصل کریں۔
ابتدائی پیکجز انسٹال کرنے کے بعد، 'platform.openai.com' سے API کلید حاصل کرکے اور تصدیق شدہ API کالز کرکے OpenAI API تک رسائی حاصل کریں:
% env OPENAI_API_KEY =sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxمرحلہ 6: ماڈل کا انتخاب کریں۔
آخر میں، اوپنائی تک رسائی کے بعد ماڈل کا انتخاب کریں، وہاں 20 سے زیادہ ماڈلز ہیں جو بصری جی پی ٹی میں استعمال ہوتے ہیں آپ اپنی ضرورت کے مطابق منتخب کر سکتے ہیں:
! python3.8 / visual_chatgpt.py --لوڈ Text2Image_cuda: 0مندرجہ بالا کمانڈ میں، ' ٹیکسٹ 2 امیج ” استعمال کیے جانے والے ماڈل سے مماثل ہے۔ مزید تفصیلات کے لیے یہ Google Colab چیک کریں۔ کاپی .
نتیجہ
ChatGPT کو کسی بھی سوال کے بارے میں مخصوص جوابات حاصل کرنے کے لیے متعارف کرایا گیا تھا اور اب مائیکروسافٹ نے VisualGPT شروع کیا ہے جو متن کے ساتھ ساتھ تصویری ڈیٹا سے نمٹنے کے قابل ہے۔ یہ اس طرح ہے کہ صارف اپنی ضروریات کو متنی شکل میں شامل کرسکتا ہے اور اس کا گرافیکل آؤٹ پٹ حاصل کرسکتا ہے۔