এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ভিশন-ল্যাঙ্গুয়েজ মডেল (ভিএলএম)
টেক্সট এবং ইমেজের যৌথ বোঝাপড়ায় বিশেষায়িত মাল্টিমোডাল মডেলের একটি উপশ্রেণী, যা ইমেজ ক্যাপশনিং, ভিজুয়াল রিজনিং বা টেক্সট থেকে ইমেজ জেনারেশন এর মতো কাজ করতে সক্ষম।
ভিজুয়াল টোকেনাইজেশন
একটি টেকনিক যা একটি ইমেজকে প্যাচ বা বিচ্ছিন্ন টোকেনের সিকোয়েন্সে বিভক্ত করে, প্রায়শই ভিশন ট্রান্সফরমার (ভিআইটি) এর মতো নিউরাল নেটওয়ার্কের মাধ্যমে, যাতে এটি টেক্সচুয়াল ট্রান্সফরমার আর্কিটেকচারের সাথে সামঞ্জস্যপূর্ণ হয়।
অ্যালাইনমেন্ট মডেল
একটি মডেল, প্রায়শই সিএলআইপি এর মতো কনট্রাস্টিভ বেসড, যা (ইমেজ, টেক্সট) জোড়ার বিশাল কর্পাসে ট্রেন করা হয় উভয় মডালিটিকে একটি শেয়ার্ড ভেক্টর স্পেসে প্রজেক্ট করতে শেখার জন্য যেখানে কোসাইন সিমিলারিটি তাদের পারস্পরিক প্রাসঙ্গিকতা প্রতিফলিত করে।
কন্ডিশনাল মাল্টিমোডাল জেনারেশন
জেনারেশনের একটি টাস্ক যেখানে আউটপুট (যেমন: টেক্সট, ইমেজ) ভিন্ন মডালিটির এক বা একাধিক ইনপুটের উপর ভিত্তি করে উৎপন্ন হয়, যেমন একটি ইমেজের বর্ণনা বা একটি টেক্সট থেকে ইমেজ তৈরি করা।
মাল্টিমোডাল চেইন্ড রিজনিং
একটি মডেলের ক্ষমতা যা যৌক্তিক চিন্তার একটি সিকোয়েন্স তৈরি করতে এবং একটি সিদ্ধান্তে পৌঁছাতে একাধিক মডালিটি থেকে তথ্য ব্যবহার করে, উদাহরণস্বরূপ একটি প্রশ্নের উত্তর দিতে একটি গ্রাফ এবং একটি টেক্সট বিশ্লেষণ করা।
মাল্টিমোডাল পারসেপট্রন
একটি তাত্ত্বিক ধারণা বা আদিম আর্কিটেকচার যেখানে বিভিন্ন প্রকৃতির ইনপুটগুলিকে সংযুক্ত করা হয়, প্রায়শই কনক্যাটেনেশন বা ফিউশন অপারেশনের মাধ্যমে, সম্পূর্ণভাবে সংযুক্ত নিউরাল লেয়ার দ্বারা প্রসেস করার আগে।
মাল্টিমোডাল ডিফিউশন মডেল
জেনারেশনের একটি আর্কিটেকচার যা ডেটা (যেমন: ইমেজ) তৈরি করতে একটি পুনরাবৃত্তিমূলক নয়েজিং এবং ডিনয়েজিং প্রক্রিয়া ব্যবহার করে অন্য একটি মডালিটি দ্বারা কন্ডিশন্ড (যেমন: একটি টেক্সচুয়াল বর্ণনা), কন্ডিশনিং তথ্য দিয়ে ডিনয়েজিং গাইড করে।
সেপারেট এনকোডিং বনাম ইউনিফাইড এনকোডিং
মাল্টিমোডাল মডেলের জন্য দুটি আর্কিটেকচারাল কৌশল: সেপারেট এনকোডিং ফিউশনের আগে প্রতিটি মডালিটিকে একটি ডেডিকেটেড এনকোডার দিয়ে প্রসেস করে, যেখানে ইউনিফাইড এনকোডিং মিশ্রিত টোকেনের একটি সিকোয়েন্স প্রসেস করতে একটি একক ট্রান্সফরমার ব্যবহার করে।
জিরো-শট লার্নিং মাল্টিমোডাল
একটি মডেলের এমন ক্ষমতা যেখানে এটি একটি মডালিটিতে (যেমন: একটি ইমেজ ক্লাসিফাই করা) কাজ করতে পারে, স্পষ্টভাবে সেই কাজের জন্য প্রশিক্ষণ ছাড়াই, অন্য একটি মডালিটি থেকে স্থানান্তরিত জ্ঞান ব্যবহার করে (যেমন: ক্লাস লেবেলের টেক্সট)।
অডিও-ভিশন-টেক্সট মডেল
মাল্টিমোডাল মডেলের একটি উন্নত রূপ যা তিনটি ডেটা স্ট্রিম (শব্দ, ইমেজ, টেক্সট) একীভূত করে জটিল কাজের জন্য, যেমন ভিডিও বর্ণনা, যেখানে মডেলটিকে টেক্সচুয়াল ন্যারেশন তৈরি করার জন্য ভিজুয়াল এবং অডিও তথ্য সিঙ্ক্রোনাইজ ও ইন্টারপ্রেট করতে হয়।
লেটেন্ট প্রজেকশন
নিউরাল নেটওয়ার্কের একটি লেয়ার, প্রায়শই একটি সরল লিনিয়ার ট্রান্সফর্মেশন, যা প্রতিটি মডালিটির এমবেডিং ভেক্টরগুলিকে একটি কমন লেটেন্ট স্পেসে ম্যাপ করার জন্য ব্যবহৃত হয়, তাদের ফিউশন বা তুলনার আগে।
মাল্টিমোডাল ফাউন্ডেশন মডেল
অত্যন্ত বৃহৎ স্কেলের একটি মডেল, যা বিপুল পরিমাণ হেটেরোজেনাস ডেটার উপর প্রি-ট্রেইন্ড করা হয় এবং এটি নির্দিষ্ট মাল্টিমোডাল টাস্কগুলির জন্য অ্যাডাপ্টেশন (ফাইন-টিউনিং) এর ভিত্তি হিসেবে কাজ করে।
মাল্টিমোডাল মডেলগুলিতে মডুলারিটি
ডিজাইনের একটি নীতি যেখানে প্রতিটি মডালিটির জন্য এনকোডারগুলি পৃথক এবং বিনিময়যোগ্য মডিউল, যা একটি কম্পোনেন্ট (যেমন: ভিশন এনকোডার) আপডেট বা প্রতিস্থাপন করতে দেয় পুরো মডেলটি পুনরায় ট্রেইন না করেই।
মাল্টিমোডাল প্রম্পটিং
একটি মডেলের সাথে ইন্টারঅ্যাক্ট করার একটি টেকনিক যেখানে ইনপুট ('প্রম্পট') একাধিক মডালিটি নিয়ে গঠিত, উদাহরণস্বরূপ একটি ইমেজ একটি টেক্সচুয়াল প্রশ্নের সাথে, মডেলটিকে একটি নির্দিষ্ট উত্তর দিতে গাইড করার জন্য।