النماذج متعددة الوسائط
الترميز البصري
تقنية تقسم الصورة إلى سلسلة من الرقع أو الرموز المنفصلة، غالبًا عبر شبكة عصبية مثل محول الرؤية (ViT)، لجعلها متوافقة مع بنية المحولات النصية.
← رجوعتقنية تقسم الصورة إلى سلسلة من الرقع أو الرموز المنفصلة، غالبًا عبر شبكة عصبية مثل محول الرؤية (ViT)، لجعلها متوافقة مع بنية المحولات النصية.
← رجوع