back to top

अग्रणी अनुमान प्रदाताओं ने NVIDIA ब्लैकवेल पर ओपन सोर्स मॉडल के साथ AI लागत में 10 गुना तक की कटौती की

Date:

स्वास्थ्य देखभाल में एक नैदानिक ​​अंतर्दृष्टि. एक इंटरैक्टिव गेम में एक पात्र का संवाद। ग्राहक सेवा एजेंट से एक स्वायत्त समाधान। इनमें से प्रत्येक एआई-संचालित इंटरैक्शन बुद्धिमत्ता की एक ही इकाई पर बनाया गया है: एक टोकन।

इन एआई इंटरैक्शन को स्केल करने के लिए व्यवसायों को यह विचार करने की आवश्यकता है कि क्या वे अधिक टोकन खरीद सकते हैं। इसका उत्तर बेहतर टोकनोमिक्स में निहित है – जो मूल रूप से प्रत्येक टोकन की लागत को कम करने के बारे में है। यह गिरावट की प्रवृत्ति सभी उद्योगों में सामने आ रही है। हाल के एमआईटी शोध में पाया गया कि बुनियादी ढांचे और एल्गोरिदमिक दक्षताएं सीमांत स्तर के प्रदर्शन के लिए अनुमान लागत को सालाना 10 गुना तक कम कर रही हैं।

यह समझने के लिए कि बुनियादी ढांचे की दक्षता टोकनोमिक्स में कैसे सुधार करती है, एक हाई-स्पीड प्रिंटिंग प्रेस की सादृश्यता पर विचार करें। यदि प्रेस स्याही, ऊर्जा और मशीन में वृद्धिशील निवेश के साथ 10 गुना उत्पादन करता है, तो प्रत्येक व्यक्तिगत पृष्ठ को प्रिंट करने की लागत कम हो जाती है। उसी तरह, एआई बुनियादी ढांचे में निवेश से लागत में वृद्धि की तुलना में कहीं अधिक टोकन आउटपुट हो सकता है – जिससे प्रति टोकन लागत में सार्थक कमी आ सकती है।

जब टोकन आउटपुट बुनियादी ढांचे की लागत से अधिक हो जाता है, तो प्रत्येक टोकन की लागत कम हो जाती है।

यही कारण है कि बेसटेन, डीपइन्फ्रा, फायरवर्क्स एआई और टुगेदर एआई सहित अग्रणी अनुमान प्रदाता एनवीआईडीआईए ब्लैकवेल प्लेटफॉर्म का उपयोग कर रहे हैं, जो उन्हें एनवीआईडीआईए हॉपर प्लेटफॉर्म की तुलना में प्रति टोकन लागत 10 गुना तक कम करने में मदद करता है।

ये प्रदाता उन्नत ओपन सोर्स मॉडल की मेजबानी करते हैं, जो अब सीमांत स्तर की खुफिया जानकारी तक पहुंच गए हैं। ओपन सोर्स फ्रंटियर इंटेलिजेंस, NVIDIA ब्लैकवेल के चरम हार्डवेयर-सॉफ़्टवेयर कोडसाइन और अपने स्वयं के अनुकूलित अनुमान स्टैक के संयोजन से, ये प्रदाता हर उद्योग में व्यवसायों के लिए नाटकीय टोकन लागत में कटौती को सक्षम कर रहे हैं।

स्वास्थ्य देखभाल – बासेट हाउंड और Sully.ai एआई अनुमान लागत में 10 गुना कटौती करें

स्वास्थ्य देखभाल में, मेडिकल कोडिंग, दस्तावेज़ीकरण और बीमा फॉर्म प्रबंधित करने जैसे थकाऊ, समय लेने वाले कार्य डॉक्टरों द्वारा मरीजों के साथ बिताए जाने वाले समय में कटौती करते हैं।

Sully.ai “एआई कर्मचारी” विकसित करके इस समस्या को हल करने में मदद करता है जो मेडिकल कोडिंग और नोट लेने जैसे नियमित कार्यों को संभाल सकते हैं। जैसे-जैसे कंपनी के प्लेटफ़ॉर्म का विस्तार हुआ, इसके मालिकाना, बंद स्रोत मॉडल ने तीन बाधाएँ पैदा कीं: वास्तविक समय के क्लिनिकल वर्कफ़्लो में अप्रत्याशित विलंबता, अनुमान लागत जो राजस्व की तुलना में तेज़ी से बढ़ी और मॉडल की गुणवत्ता और अपडेट पर अपर्याप्त नियंत्रण।

Sully.ai एआई कर्मचारियों का निर्माण करता है जो चिकित्सकों के नियमित कार्यों को संभालते हैं।

इन बाधाओं को दूर करने के लिए, Sully.ai Baseten के मॉडल API का उपयोग करता है, जो NVIDIA ब्लैकवेल GPU पर gpt-oss-120b जैसे ओपन सोर्स मॉडल को तैनात करता है। बेसटेन ने अनुकूलित अनुमान देने के लिए कम परिशुद्धता वाले NVFP4 डेटा प्रारूप, NVIDIA TensorRT-LLM लाइब्रेरी और NVIDIA डायनेमो अनुमान ढांचे का उपयोग किया। कंपनी ने NVIDIA हॉपर प्लेटफॉर्म की तुलना में प्रति डॉलर 2.5 गुना बेहतर थ्रूपुट देखने के बाद अपने मॉडल एपीआई को चलाने के लिए NVIDIA ब्लैकवेल को चुना।

परिणामस्वरूप, Sully.ai की अनुमान लागत में 90% की गिरावट आई, जो पिछले बंद स्रोत कार्यान्वयन की तुलना में 10 गुना की कमी का प्रतिनिधित्व करती है, जबकि मेडिकल नोट्स बनाने जैसे महत्वपूर्ण वर्कफ़्लो के लिए प्रतिक्रिया समय में 65% का सुधार हुआ। कंपनी ने अब चिकित्सकों को 30 मिलियन से अधिक मिनट लौटा दिए हैं, जो पहले डेटा प्रविष्टि और अन्य मैन्युअल कार्यों में बर्बाद हो जाते थे।

गेमिंग – डीपइन्फ्रा और अक्षांश प्रति टोकन लागत 4x कम करें

लैटीट्यूड अपने साथ एआई-नेटिव गेमिंग का भविष्य बना रहा है ऐ कालकोठरी एडवेंचर-स्टोरी गेम और आगामी एआई-पावर्ड रोल-प्लेइंग गेमिंग प्लेटफॉर्म, वॉयज, जहां खिलाड़ी किसी भी एक्शन को चुनने और अपनी कहानी बनाने की आजादी के साथ दुनिया बना सकते हैं या खेल सकते हैं।

कंपनी का प्लेटफ़ॉर्म खिलाड़ियों के कार्यों का जवाब देने के लिए बड़े भाषा मॉडल का उपयोग करता है – लेकिन यह स्केलिंग चुनौतियों के साथ आता है, क्योंकि प्रत्येक खिलाड़ी की कार्रवाई एक अनुमान अनुरोध को ट्रिगर करती है। जुड़ाव के साथ लागत का पैमाना, और अनुभव को सहज बनाए रखने के लिए प्रतिक्रिया समय पर्याप्त तेज़ रहना चाहिए।

लैटीट्यूड ने “एआई डंगऑन” नामक एक टेक्स्ट-आधारित साहसिक-कहानी गेम बनाया है, जो वास्तविक समय में कथा पाठ और कल्पना दोनों उत्पन्न करता है क्योंकि खिलाड़ी गतिशील कहानियों का पता लगाते हैं।

लैटीट्यूड एनवीआईडीआईए ब्लैकवेल जीपीयू और टेन्सोरआरटी-एलएलएम द्वारा संचालित डीपइन्फ्रा के इंट्रेंस प्लेटफॉर्म पर बड़े ओपन सोर्स मॉडल चलाता है। बड़े पैमाने पर विशेषज्ञों के मिश्रण (एमओई) मॉडल के लिए, डीपइन्फ्रा ने एनवीआईडीआईए हॉपर प्लेटफॉर्म पर प्रति मिलियन टोकन की लागत को 20 सेंट से घटाकर ब्लैकवेल पर 10 सेंट कर दिया। ब्लैकवेल के मूल कम-परिशुद्धता वाले एनवीएफपी4 प्रारूप में जाने से उस लागत में केवल 5 सेंट की कटौती हुई – प्रति टोकन लागत में कुल 4x सुधार के लिए – ग्राहकों की अपेक्षा की सटीकता को बनाए रखते हुए।

डीपइन्फ्रा के ब्लैकवेल-संचालित प्लेटफॉर्म पर इन बड़े पैमाने के एमओई मॉडल को चलाने से लैटीट्यूड को लागत प्रभावी ढंग से तेज, विश्वसनीय प्रतिक्रिया देने की अनुमति मिलती है। डीपइंफ़्रा अनुमान प्लेटफ़ॉर्म ट्रैफ़िक स्पाइक्स को विश्वसनीय रूप से संभालते हुए यह प्रदर्शन प्रदान करता है, जिससे लैटीट्यूड को खिलाड़ी के अनुभव से समझौता किए बिना अधिक सक्षम मॉडल तैनात करने की सुविधा मिलती है।

एजेंटिक चैट – फायरवर्क्स एआई और सेंटिएंट फाउंडेशन ने एआई लागत को 50% तक कम किया

सेंटिएंट लैब्स का ध्यान शक्तिशाली रीजनिंग एआई सिस्टम बनाने के लिए एआई डेवलपर्स को एक साथ लाने पर है जो सभी खुले स्रोत हैं। लक्ष्य सुरक्षित स्वायत्तता, एजेंटिक वास्तुकला और निरंतर सीखने में अनुसंधान के माध्यम से कठिन तर्क समस्याओं को हल करने की दिशा में एआई को तेज करना है।

इसका पहला ऐप, सेंटिएंट चैट, जटिल मल्टी-एजेंट वर्कफ़्लोज़ को व्यवस्थित करता है और समुदाय से एक दर्जन से अधिक विशेष एआई एजेंटों को एकीकृत करता है। इसके कारण, सेंटिएंट चैट में बड़े पैमाने पर गणना की मांग होती है क्योंकि एक एकल उपयोगकर्ता क्वेरी स्वायत्त इंटरैक्शन के एक कैस्केड को ट्रिगर कर सकती है जो आम तौर पर महंगे बुनियादी ढांचे को जन्म देती है।

इस पैमाने और जटिलता को प्रबंधित करने के लिए, सेंटिएंट NVIDIA ब्लैकवेल पर चलने वाले फायरवर्क्स एआई के अनुमान प्लेटफॉर्म का उपयोग करता है। फायरवर्क्स के ब्लैकवेल-अनुकूलित अनुमान स्टैक के साथ, सेंटिएंट ने अपनी पिछली हॉपर-आधारित तैनाती की तुलना में 25-50% बेहतर लागत दक्षता हासिल की।

सेंटिएंट चैट जटिल मल्टी-एजेंट वर्कफ़्लो को व्यवस्थित करता है और समुदाय से एक दर्जन से अधिक विशिष्ट एआई एजेंटों को एकीकृत करता है।

प्रति जीपीयू के इस उच्च थ्रूपुट ने कंपनी को समान लागत के लिए काफी अधिक समवर्ती उपयोगकर्ताओं को सेवा प्रदान करने की अनुमति दी। प्लेटफ़ॉर्म की स्केलेबिलिटी ने 24 घंटों में 1.8 मिलियन प्रतीक्षासूची वाले उपयोगकर्ताओं के वायरल लॉन्च का समर्थन किया और लगातार कम विलंबता प्रदान करते हुए एक ही सप्ताह में 5.6 मिलियन प्रश्नों को संसाधित किया।

ग्राहक सेवा – एक साथ ए.आई और दसभुज ड्राइव की लागत 6 गुना कम

वॉयस एआई के साथ ग्राहक सेवा कॉल अक्सर निराशा में समाप्त होती हैं क्योंकि थोड़ी सी देरी से भी उपयोगकर्ता एजेंट के बारे में बात कर सकते हैं, फ़ोन काट सकते हैं या विश्वास खो सकते हैं।

डेकागन उद्यम ग्राहक सहायता के लिए एआई एजेंटों का निर्माण करता है, जिसमें एआई-संचालित आवाज इसका सबसे अधिक मांग वाला चैनल है। डेकागन को ऐसे बुनियादी ढांचे की आवश्यकता थी जो 24/7 वॉयस तैनाती का समर्थन करने वाले टोकनोमिक्स के साथ अप्रत्याशित ट्रैफ़िक भार के तहत उप-सेकंड प्रतिक्रिया दे सके।

डेकागन ग्राहक सहायता के लिए एआई एजेंट बनाता है, और आवाज इसका सबसे अधिक मांग वाला चैनल है।

एआई मिलकर एनवीआईडीआईए ब्लैकवेल जीपीयू पर डेकागन के मल्टीमॉडल वॉयस स्टैक के लिए उत्पादन अनुमान चलाता है। कंपनियों ने कई प्रमुख अनुकूलन पर सहयोग किया: सट्टा डिकोडिंग जो छोटे मॉडलों को तेजी से प्रतिक्रियाएं उत्पन्न करने के लिए प्रशिक्षित करती है जबकि एक बड़ा मॉडल पृष्ठभूमि में सटीकता की पुष्टि करता है, प्रतिक्रियाओं को तेज करने के लिए बार-बार बातचीत के तत्वों को कैशिंग करता है और स्वचालित स्केलिंग का निर्माण करता है जो प्रदर्शन में गिरावट के बिना ट्रैफ़िक वृद्धि को संभालता है।

प्रति क्वेरी हजारों टोकन संसाधित करते समय भी डेकागन ने प्रतिक्रिया समय 400 मिलीसेकंड से कम देखा। प्रति क्वेरी लागत, जो एक ध्वनि इंटरैक्शन को पूरा करने की कुल लागत है, बंद स्रोत स्वामित्व मॉडल का उपयोग करने की तुलना में 6 गुना कम हो गई है। इसे डेकागन के मल्टीमॉडल दृष्टिकोण (कुछ खुले स्रोत, कुछ NVIDIA GPU पर घर में प्रशिक्षित), NVIDIA ब्लैकवेल के चरम कोडसाइन और टुगेदर के अनुकूलित अनुमान स्टैक के संयोजन के माध्यम से हासिल किया गया था।

एक्सट्रीम कोडसाइन के साथ टोकनोमिक्स को अनुकूलित करना

स्वास्थ्य देखभाल, गेमिंग और ग्राहक सेवा में देखी गई नाटकीय लागत बचत एनवीआईडीआईए ब्लैकवेल की दक्षता से प्रेरित है। NVIDIA GB200 NVL72 प्रणाली NVIDIA हॉपर की तुलना में MoE मॉडल के लिए प्रति टोकन लागत में 10 गुना की उल्लेखनीय कमी प्रदान करके इस प्रभाव को और बढ़ाती है।

स्टैक की प्रत्येक परत पर NVIDIA का अत्यधिक कोडसाइन – कंप्यूटिंग, नेटवर्किंग और सॉफ्टवेयर तक फैला हुआ है – और इसका भागीदार पारिस्थितिकी तंत्र बड़े पैमाने पर प्रति टोकन लागत में भारी कटौती कर रहा है।

यह गति NVIDIA रुबिन प्लेटफ़ॉर्म के साथ जारी है – ब्लैकवेल की तुलना में 10 गुना प्रदर्शन और 10 गुना कम टोकन लागत देने के लिए एक एआई सुपरकंप्यूटर में छह नए चिप्स को एकीकृत करना।

अन्वेषण करना NVIDIA का पूर्ण-स्टैक अनुमान प्लेटफ़ॉर्म इस बारे में अधिक जानने के लिए कि यह एआई अनुमान के लिए बेहतर टोकनोमिक्स कैसे प्रदान करता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

OpenAI के कोडेक्स का एक नया संस्करण एक नई समर्पित चिप द्वारा संचालित है

गुरुवार को, OpenAI ने अपने एजेंटिक कोडिंग टूल कोडेक्स...

बेहतर व्यावसायिक निर्णयों के लिए व्याख्या योग्य एआई का लाभ कैसे उठाएं

मेरे पास ऐसे अनगिनत संगठन हैं जो उससे कहीं...

A Gentle Introduction to Graph Neural Networks

This article is one of two Distill publications about...