
प्रशिक्षण के दौरान एक ही मॉडल दो भूमिकाएँ निभाता है। एक शिक्षक संस्करण क्वेरी और विशेषज्ञ उदाहरण दोनों पर आधारित होता है। एक छात्र संस्करण केवल क्वेरी देखता है, जो वास्तविक दुनिया की तैनाती को दर्शाता है। छात्र अपने स्वयं के उत्पन्न आउटपुट पर शिक्षक की भविष्यवाणियों के साथ संरेखित करने के लिए अपने मापदंडों को अपडेट करता है।
शोधकर्ताओं ने कहा, “अनुक्रमिक सीखने के प्रयोगों में, एसडीएफटी एक एकल मॉडल को प्रदर्शन प्रतिगमन के बिना समय के साथ कई कौशल जमा करने में सक्षम बनाता है, प्रदर्शनों से निरंतर सीखने के लिए एक व्यावहारिक मार्ग के रूप में ऑन-पॉलिसी डिस्टिलेशन स्थापित करता है।”
चुनौतियों पर काबू पाना है
ओमडिया के मुख्य विश्लेषक लियान जे सु के अनुसार, एसडीएफटी काफी यथार्थवादी प्रतीत होता है क्योंकि तकनीक अलग-अलग एडेप्टर या फाइन-ट्यून किए गए वेरिएंट के “मॉडल चिड़ियाघर” को बनाए रखने की आवश्यकता को हटा देती है।

