Meta Llama 3.1 405B Released as Company’s Largest Open Source AI Model to Date, Beats OpenAI’s GPT-4o


मेटा मंगलवार को अपना नवीनतम और सबसे बड़ा आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जनता के लिए जारी किया। मेटा लामा 3.1 405B नामक कंपनी का कहना है कि ओपन-सोर्स मॉडल कई बेंचमार्क में GPT-4, GPT-4o और क्लाउड 3.5 सॉनेट जैसे प्रमुख क्लोज्ड AI मॉडल से बेहतर प्रदर्शन करता है। जारी किया लामा 3 8B और 70B AI मॉडल को भी अपग्रेड किया गया है। नए संस्करण 405B मॉडल से अलग किए गए थे और अब 1,28,000 टोकन संदर्भ विंडो प्रदान करते हैं। मेटा का दावा है कि ये दोनों मॉडल अब अपने आकार के लिए अग्रणी ओपन-सोर्स लार्ज लैंग्वेज मॉडल (LLM) हैं।

ब्लॉग में नए AI मॉडल की घोषणा डाकप्रौद्योगिकी समूह ने कहा, “लामा 3.1 405बी पहला खुले तौर पर उपलब्ध मॉडल है जो सामान्य ज्ञान, संचालन क्षमता, गणित, उपकरण उपयोग और बहुभाषी अनुवाद में अत्याधुनिक क्षमताओं के मामले में शीर्ष एआई मॉडलों को टक्कर देता है।”

उल्लेखनीय रूप से, यहाँ 405B का अर्थ 405 बिलियन पैरामीटर है, जिसे LLM के ज्ञान नोड्स की संख्या के रूप में समझा जा सकता है। पैरामीटर का आकार जितना अधिक होगा, AI मॉडल जटिल प्रश्नों को संभालने में उतना ही अधिक कुशल होगा। मॉडल की संदर्भ विंडो 128,000 टोकन है। यह अंग्रेजी, जर्मन, फ्रेंच, इतालवी, पुर्तगाली, हिंदी, स्पेनिश और थाई भाषाओं का समर्थन करता है।

कंपनी का दावा है कि लामा 3.1 405B का मूल्यांकन कई विशेषज्ञताओं में 150 से अधिक बेंचमार्क परीक्षणों पर किया गया था। पोस्ट में साझा किए गए डेटा के आधार पर, मेटा के AI मॉडल ने ग्रेड स्कूल मैथ 8K (GSM8K) में 96.8 स्कोर किया, GPT-4 के 94.2, GPT-4o के 96.1 और क्लाउड 3.5 सॉनेट के 96.4 स्कोर किए। इसने विज्ञान दक्षता के लिए AI2 के रीजनिंग चैलेंज (ARC) बेंचमार्क, टूल उपयोग के लिए नेक्सस और बहुभाषी ग्रेड स्कूल मैथ (MGSM) बेंचमार्क में भी इन मॉडलों से बेहतर प्रदर्शन किया।

मेटा के सबसे बड़े AI मॉडल को 16 हज़ार से ज़्यादा Nvidia H100 GPU के साथ 15 ट्रिलियन से ज़्यादा टोकन पर प्रशिक्षित किया गया था। लामा 3.1 405B में एक प्रमुख परिचय टूल-कॉलिंग के लिए आधिकारिक समर्थन है जो डेवलपर्स को वेब खोजों के लिए ब्रेव सर्च, जटिल गणितीय गणना करने के लिए वोल्फ्राम अल्फा और पायथन कोड बनाने के लिए कोड इंटरप्रेटर का उपयोग करने की अनुमति देगा।

चूंकि मेटा लामा 3.1 405B खुले स्रोत में उपलब्ध है, इसलिए लोग इसे कंपनी के किसी भी माध्यम से एक्सेस कर सकते हैं। वेबसाइट या उसके गले लगते चेहरे से प्रविष्टि. हालाँकि, एक बड़ा मॉडल होने के कारण, इसे चलाने के लिए लगभग 750GB डिस्क स्टोरेज स्पेस की आवश्यकता होती है। अनुमान लगाने के लिए, मॉडल पैरेलल 16 (MP16) पर दो नोड्स भी आवश्यक होंगे। मॉडल पैरेललिज्म 16 मॉडल पैरेललिज्म का एक विशिष्ट कार्यान्वयन है जहाँ एक बड़े न्यूरल नेटवर्क को 16 डिवाइस या प्रोसेसर में विभाजित किया जाता है।

सार्वजनिक रूप से उपलब्ध होने के अलावा, यह मॉडल AWS, Nvidia, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake और अन्य प्रमुख AI प्लेटफ़ॉर्म पर भी उपलब्ध है। कंपनी का कहना है कि कुल 25 ऐसे प्लेटफ़ॉर्म Llama 3.1 405B द्वारा संचालित होंगे। सुरक्षा और संरक्षा के लिए, कंपनी ने Llama Guard 3 और Prompt Guards का उपयोग किया है, जो दो नए उपकरण हैं जो LLM को संभावित नुकसान और दुरुपयोग से बचाते हैं।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *