Apprentissage Temporel Différentiel
টিডি(λ)
সাধারণীকৃত টেম্পোরাল ডিফারেন্স লার্নিং অ্যালগরিদম যা λ প্যারামিটার ব্যবহার করে এন-স্টেপ রিটার্ন এবং এলিজিবিলিটি ট্রেসগুলোর ওজন নির্ধারণ করে, টিডি(০) এবং মন্টে কার্লোর মধ্যে একটি সমন্বয় সাধন করে।
← ফিরে যান