स्वास्थ्य देखभाल में एक नैदानिक अंतर्दृष्टि. एक इंटरैक्टिव गेम में एक पात्र का संवाद। ग्राहक सेवा एजेंट से एक स्वायत्त समाधान। इनमें से प्रत्येक एआई-संचालित इंटरैक्शन बुद्धिमत्ता की एक ही इकाई पर बनाया गया है: एक टोकन।
इन एआई इंटरैक्शन को स्केल करने के लिए व्यवसायों को यह विचार करने की आवश्यकता है कि क्या वे अधिक टोकन खरीद सकते हैं। इसका उत्तर बेहतर टोकनोमिक्स में निहित है – जो मूल रूप से प्रत्येक टोकन की लागत को कम करने के बारे में है। यह गिरावट की प्रवृत्ति सभी उद्योगों में सामने आ रही है। हाल के एमआईटी शोध में पाया गया कि बुनियादी ढांचे और एल्गोरिदमिक दक्षताएं सीमांत स्तर के प्रदर्शन के लिए अनुमान लागत को सालाना 10 गुना तक कम कर रही हैं।
यह समझने के लिए कि बुनियादी ढांचे की दक्षता टोकनोमिक्स में कैसे सुधार करती है, एक हाई-स्पीड प्रिंटिंग प्रेस की सादृश्यता पर विचार करें। यदि प्रेस स्याही, ऊर्जा और मशीन में वृद्धिशील निवेश के साथ 10 गुना उत्पादन करता है, तो प्रत्येक व्यक्तिगत पृष्ठ को प्रिंट करने की लागत कम हो जाती है। उसी तरह, एआई बुनियादी ढांचे में निवेश से लागत में वृद्धि की तुलना में कहीं अधिक टोकन आउटपुट हो सकता है – जिससे प्रति टोकन लागत में सार्थक कमी आ सकती है।

यही कारण है कि बेसटेन, डीपइन्फ्रा, फायरवर्क्स एआई और टुगेदर एआई सहित अग्रणी अनुमान प्रदाता एनवीआईडीआईए ब्लैकवेल प्लेटफॉर्म का उपयोग कर रहे हैं, जो उन्हें एनवीआईडीआईए हॉपर प्लेटफॉर्म की तुलना में प्रति टोकन लागत 10 गुना तक कम करने में मदद करता है।
ये प्रदाता उन्नत ओपन सोर्स मॉडल की मेजबानी करते हैं, जो अब सीमांत स्तर की खुफिया जानकारी तक पहुंच गए हैं। ओपन सोर्स फ्रंटियर इंटेलिजेंस, NVIDIA ब्लैकवेल के चरम हार्डवेयर-सॉफ़्टवेयर कोडसाइन और अपने स्वयं के अनुकूलित अनुमान स्टैक के संयोजन से, ये प्रदाता हर उद्योग में व्यवसायों के लिए नाटकीय टोकन लागत में कटौती को सक्षम कर रहे हैं।
स्वास्थ्य देखभाल – बासेट हाउंड और Sully.ai एआई अनुमान लागत में 10 गुना कटौती करें
स्वास्थ्य देखभाल में, मेडिकल कोडिंग, दस्तावेज़ीकरण और बीमा फॉर्म प्रबंधित करने जैसे थकाऊ, समय लेने वाले कार्य डॉक्टरों द्वारा मरीजों के साथ बिताए जाने वाले समय में कटौती करते हैं।
Sully.ai “एआई कर्मचारी” विकसित करके इस समस्या को हल करने में मदद करता है जो मेडिकल कोडिंग और नोट लेने जैसे नियमित कार्यों को संभाल सकते हैं। जैसे-जैसे कंपनी के प्लेटफ़ॉर्म का विस्तार हुआ, इसके मालिकाना, बंद स्रोत मॉडल ने तीन बाधाएँ पैदा कीं: वास्तविक समय के क्लिनिकल वर्कफ़्लो में अप्रत्याशित विलंबता, अनुमान लागत जो राजस्व की तुलना में तेज़ी से बढ़ी और मॉडल की गुणवत्ता और अपडेट पर अपर्याप्त नियंत्रण।

इन बाधाओं को दूर करने के लिए, Sully.ai Baseten के मॉडल API का उपयोग करता है, जो NVIDIA ब्लैकवेल GPU पर gpt-oss-120b जैसे ओपन सोर्स मॉडल को तैनात करता है। बेसटेन ने अनुकूलित अनुमान देने के लिए कम परिशुद्धता वाले NVFP4 डेटा प्रारूप, NVIDIA TensorRT-LLM लाइब्रेरी और NVIDIA डायनेमो अनुमान ढांचे का उपयोग किया। कंपनी ने NVIDIA हॉपर प्लेटफॉर्म की तुलना में प्रति डॉलर 2.5 गुना बेहतर थ्रूपुट देखने के बाद अपने मॉडल एपीआई को चलाने के लिए NVIDIA ब्लैकवेल को चुना।
परिणामस्वरूप, Sully.ai की अनुमान लागत में 90% की गिरावट आई, जो पिछले बंद स्रोत कार्यान्वयन की तुलना में 10 गुना की कमी का प्रतिनिधित्व करती है, जबकि मेडिकल नोट्स बनाने जैसे महत्वपूर्ण वर्कफ़्लो के लिए प्रतिक्रिया समय में 65% का सुधार हुआ। कंपनी ने अब चिकित्सकों को 30 मिलियन से अधिक मिनट लौटा दिए हैं, जो पहले डेटा प्रविष्टि और अन्य मैन्युअल कार्यों में बर्बाद हो जाते थे।
गेमिंग – डीपइन्फ्रा और अक्षांश प्रति टोकन लागत 4x कम करें
लैटीट्यूड अपने साथ एआई-नेटिव गेमिंग का भविष्य बना रहा है ऐ कालकोठरी एडवेंचर-स्टोरी गेम और आगामी एआई-पावर्ड रोल-प्लेइंग गेमिंग प्लेटफॉर्म, वॉयज, जहां खिलाड़ी किसी भी एक्शन को चुनने और अपनी कहानी बनाने की आजादी के साथ दुनिया बना सकते हैं या खेल सकते हैं।
कंपनी का प्लेटफ़ॉर्म खिलाड़ियों के कार्यों का जवाब देने के लिए बड़े भाषा मॉडल का उपयोग करता है – लेकिन यह स्केलिंग चुनौतियों के साथ आता है, क्योंकि प्रत्येक खिलाड़ी की कार्रवाई एक अनुमान अनुरोध को ट्रिगर करती है। जुड़ाव के साथ लागत का पैमाना, और अनुभव को सहज बनाए रखने के लिए प्रतिक्रिया समय पर्याप्त तेज़ रहना चाहिए।

लैटीट्यूड एनवीआईडीआईए ब्लैकवेल जीपीयू और टेन्सोरआरटी-एलएलएम द्वारा संचालित डीपइन्फ्रा के इंट्रेंस प्लेटफॉर्म पर बड़े ओपन सोर्स मॉडल चलाता है। बड़े पैमाने पर विशेषज्ञों के मिश्रण (एमओई) मॉडल के लिए, डीपइन्फ्रा ने एनवीआईडीआईए हॉपर प्लेटफॉर्म पर प्रति मिलियन टोकन की लागत को 20 सेंट से घटाकर ब्लैकवेल पर 10 सेंट कर दिया। ब्लैकवेल के मूल कम-परिशुद्धता वाले एनवीएफपी4 प्रारूप में जाने से उस लागत में केवल 5 सेंट की कटौती हुई – प्रति टोकन लागत में कुल 4x सुधार के लिए – ग्राहकों की अपेक्षा की सटीकता को बनाए रखते हुए।
डीपइन्फ्रा के ब्लैकवेल-संचालित प्लेटफॉर्म पर इन बड़े पैमाने के एमओई मॉडल को चलाने से लैटीट्यूड को लागत प्रभावी ढंग से तेज, विश्वसनीय प्रतिक्रिया देने की अनुमति मिलती है। डीपइंफ़्रा अनुमान प्लेटफ़ॉर्म ट्रैफ़िक स्पाइक्स को विश्वसनीय रूप से संभालते हुए यह प्रदर्शन प्रदान करता है, जिससे लैटीट्यूड को खिलाड़ी के अनुभव से समझौता किए बिना अधिक सक्षम मॉडल तैनात करने की सुविधा मिलती है।
एजेंटिक चैट – फायरवर्क्स एआई और सेंटिएंट फाउंडेशन ने एआई लागत को 50% तक कम किया
सेंटिएंट लैब्स का ध्यान शक्तिशाली रीजनिंग एआई सिस्टम बनाने के लिए एआई डेवलपर्स को एक साथ लाने पर है जो सभी खुले स्रोत हैं। लक्ष्य सुरक्षित स्वायत्तता, एजेंटिक वास्तुकला और निरंतर सीखने में अनुसंधान के माध्यम से कठिन तर्क समस्याओं को हल करने की दिशा में एआई को तेज करना है।
इसका पहला ऐप, सेंटिएंट चैट, जटिल मल्टी-एजेंट वर्कफ़्लोज़ को व्यवस्थित करता है और समुदाय से एक दर्जन से अधिक विशेष एआई एजेंटों को एकीकृत करता है। इसके कारण, सेंटिएंट चैट में बड़े पैमाने पर गणना की मांग होती है क्योंकि एक एकल उपयोगकर्ता क्वेरी स्वायत्त इंटरैक्शन के एक कैस्केड को ट्रिगर कर सकती है जो आम तौर पर महंगे बुनियादी ढांचे को जन्म देती है।
इस पैमाने और जटिलता को प्रबंधित करने के लिए, सेंटिएंट NVIDIA ब्लैकवेल पर चलने वाले फायरवर्क्स एआई के अनुमान प्लेटफॉर्म का उपयोग करता है। फायरवर्क्स के ब्लैकवेल-अनुकूलित अनुमान स्टैक के साथ, सेंटिएंट ने अपनी पिछली हॉपर-आधारित तैनाती की तुलना में 25-50% बेहतर लागत दक्षता हासिल की।

प्रति जीपीयू के इस उच्च थ्रूपुट ने कंपनी को समान लागत के लिए काफी अधिक समवर्ती उपयोगकर्ताओं को सेवा प्रदान करने की अनुमति दी। प्लेटफ़ॉर्म की स्केलेबिलिटी ने 24 घंटों में 1.8 मिलियन प्रतीक्षासूची वाले उपयोगकर्ताओं के वायरल लॉन्च का समर्थन किया और लगातार कम विलंबता प्रदान करते हुए एक ही सप्ताह में 5.6 मिलियन प्रश्नों को संसाधित किया।
ग्राहक सेवा – एक साथ ए.आई और दसभुज ड्राइव की लागत 6 गुना कम
वॉयस एआई के साथ ग्राहक सेवा कॉल अक्सर निराशा में समाप्त होती हैं क्योंकि थोड़ी सी देरी से भी उपयोगकर्ता एजेंट के बारे में बात कर सकते हैं, फ़ोन काट सकते हैं या विश्वास खो सकते हैं।
डेकागन उद्यम ग्राहक सहायता के लिए एआई एजेंटों का निर्माण करता है, जिसमें एआई-संचालित आवाज इसका सबसे अधिक मांग वाला चैनल है। डेकागन को ऐसे बुनियादी ढांचे की आवश्यकता थी जो 24/7 वॉयस तैनाती का समर्थन करने वाले टोकनोमिक्स के साथ अप्रत्याशित ट्रैफ़िक भार के तहत उप-सेकंड प्रतिक्रिया दे सके।

एआई मिलकर एनवीआईडीआईए ब्लैकवेल जीपीयू पर डेकागन के मल्टीमॉडल वॉयस स्टैक के लिए उत्पादन अनुमान चलाता है। कंपनियों ने कई प्रमुख अनुकूलन पर सहयोग किया: सट्टा डिकोडिंग जो छोटे मॉडलों को तेजी से प्रतिक्रियाएं उत्पन्न करने के लिए प्रशिक्षित करती है जबकि एक बड़ा मॉडल पृष्ठभूमि में सटीकता की पुष्टि करता है, प्रतिक्रियाओं को तेज करने के लिए बार-बार बातचीत के तत्वों को कैशिंग करता है और स्वचालित स्केलिंग का निर्माण करता है जो प्रदर्शन में गिरावट के बिना ट्रैफ़िक वृद्धि को संभालता है।
प्रति क्वेरी हजारों टोकन संसाधित करते समय भी डेकागन ने प्रतिक्रिया समय 400 मिलीसेकंड से कम देखा। प्रति क्वेरी लागत, जो एक ध्वनि इंटरैक्शन को पूरा करने की कुल लागत है, बंद स्रोत स्वामित्व मॉडल का उपयोग करने की तुलना में 6 गुना कम हो गई है। इसे डेकागन के मल्टीमॉडल दृष्टिकोण (कुछ खुले स्रोत, कुछ NVIDIA GPU पर घर में प्रशिक्षित), NVIDIA ब्लैकवेल के चरम कोडसाइन और टुगेदर के अनुकूलित अनुमान स्टैक के संयोजन के माध्यम से हासिल किया गया था।
एक्सट्रीम कोडसाइन के साथ टोकनोमिक्स को अनुकूलित करना
स्वास्थ्य देखभाल, गेमिंग और ग्राहक सेवा में देखी गई नाटकीय लागत बचत एनवीआईडीआईए ब्लैकवेल की दक्षता से प्रेरित है। NVIDIA GB200 NVL72 प्रणाली NVIDIA हॉपर की तुलना में MoE मॉडल के लिए प्रति टोकन लागत में 10 गुना की उल्लेखनीय कमी प्रदान करके इस प्रभाव को और बढ़ाती है।
स्टैक की प्रत्येक परत पर NVIDIA का अत्यधिक कोडसाइन – कंप्यूटिंग, नेटवर्किंग और सॉफ्टवेयर तक फैला हुआ है – और इसका भागीदार पारिस्थितिकी तंत्र बड़े पैमाने पर प्रति टोकन लागत में भारी कटौती कर रहा है।
यह गति NVIDIA रुबिन प्लेटफ़ॉर्म के साथ जारी है – ब्लैकवेल की तुलना में 10 गुना प्रदर्शन और 10 गुना कम टोकन लागत देने के लिए एक एआई सुपरकंप्यूटर में छह नए चिप्स को एकीकृत करना।
अन्वेषण करना NVIDIA का पूर्ण-स्टैक अनुमान प्लेटफ़ॉर्म इस बारे में अधिक जानने के लिए कि यह एआई अनुमान के लिए बेहतर टोकनोमिक्स कैसे प्रदान करता है।

