Google Gemini – Google CEO सुंदर पिचाई का कहना है कि गूगल पर एक नये एआई के प्रारंभ का समय है – Gemini युग। जैमिनी गूगल का नवीनतम बड़ा भाषा मॉडल है, जिसे पिचाई ने पहली बार जून में I/O डेवलपर कॉन्फ़रेंस में टीज किया था और अब जनता के लिए लॉन्च किया जा रहा है।
पिचाई और गूगल डीपमाइंड के CEO देमिस हैसबिस इसे वर्णन करते हैं, यह एक ऐसा बड़ा कदम है जो आखिरकार गूगल के लगभग सभी उत्पादों को प्रभावित करेगा। “इस पल की एक महत्त्वपूर्ण बात,” पिचाई कहते हैं, “यह है कि आप एक बुनियादी तकनीक पर काम कर सकते हैं और इसे बेहतर बना सकते हैं और यह तुरंत हमारे उत्पादों में फ़्लो हो जाता है।”
“Google का कहना है कि Gemini 32 बेंचमार्क में से 30 में GPT-4 को पीछे छोड़ता है।”
Gemini AI:
चलो, चलिए हम सीधे महत्वपूर्ण सवाल पर आते हैं। OpenAI का GPT-4 बनाम Google का Gemini: तैयार, शुरू करें। यह बहुत स्पष्ट रूप से Google के दिमाग में कुछ समय से है। “हमने इन सिस्टमों का बहुत विस्तृत विश्लेषण किया है, और उनका मापन किया,” हासाबिस कहते हैं। Google ने दोनों मॉडलों की तुलना में 32 प्रमुख बेंचमार्क चलाए, मल्टी-टास्क लैंग्वेज अंदरस्टैंडिंग बेंचमार्क जैसे व्यापक टेस्ट से लेकर एक ऐसे बेंचमार्क तक जो दो मॉडल्स की पायथन कोड जेनरेट करने की क्षमता की तुलना करता है। “मुझे लगता है हम 32 में से 30 बेंचमार्क पर बहुत आगे हैं,” हासाबिस कहते हैं, और उनके चेहरे पर मुस्कान होती है। “कुछ बेंचमार्क बहुत संकीर्ण हैं। कुछ बड़े हैं।”
जैमिनी एक एकल एआई मॉडल से अधिक है। इसमें एक हल्का संस्करण है, जिसे जैमिनी Nano कहा जाता है, जो एंड्रॉइड उपकरणों पर स्थानीय और ऑफ़लाइन चलाया जाने के लिए है। एक मजबूत संस्करण है, जिसे जैमिनी Pro कहा जाता है, जो जल्द ही गूगल एआई सेवाओं को बहुत सारे देगा और आज से ही बार्ड की मुख्य ताकत है। और एक और भी अधिक सक्षम मॉडल है, जिसे Gemini Ultra कहा जाता है, जो गूगल द्वारा अब तक बनाया गया सबसे शक्तिशाली एलएलएम है और जो संभावतः डेटा सेंटर और उद्योग अनुप्रयोगों के लिए निर्मित है।
गूगल अब मॉडल को कुछ तरीकों से लॉन्च कर रहा है: बार्ड अब जैमिनी Pro द्वारा संचालित हो रहा है, और पिक्सल 8 प्रो उपयोगकर्ताओं को Gemini Nano की वजह से कुछ नई सुविधाएँ मिलेंगी। (जैमिनी Ultra अगले साल आ रहा है।) डेवलपर्स और उद्योग ग्राहक 13 दिसंबर से Google Generative Artificial Intelligence Studio या गूगल क्लाउड में वर्टेक्स एआई के माध्यम से Gemini Pro तक पहुंच पा सकेंगे।
उन बेंचमार्क में (जो वास्तव में अधिकांशकर बहुत करीब हैं) Gemini का सबसे स्पष्ट फायदा वीडियो और ऑडियो को समझने और इससे संवाद करने की क्षमता से आता है। यह बहुत ही तय से इस तरह का था: बहुसंस्कृति Gemini की योजना का हिस्सा रहा। Google ने छवियों (जैसे कि DALL-E) और आवाज़ (जैसे कि Whisper) के लिए अलग-अलग मॉडल तैयार नहीं किए हैं; उन्होंने शुरू से ही एक मल्टीसेंसरी मॉडल बनाया है। “हमें हमेशा से बहुत बहुत सामान्य सिस्टमों में दिलचस्पी रही है,” हासाबिस कहते हैं। उन्हें खासकर उन सभी मोडों को मिलाने की रुचि है – हर संभावित प्रविष्टियों और अनुभूतियों से ज्यादा से ज्यादा डेटा जुटाने और उसके बाद उत्तर देने के साथ।
अभी तक Gemini केवल अंग्रेजी में ही उपलब्ध है, और अन्य भाषाओं का शीघ्र ही आने की संकेत मिल रही है। लेकिन पिचाई कहते हैं कि यह मॉडल आखिर में गूगल के सर्च इंजन, इसके विज्ञापन उत्पादों, Chrome ब्राउज़र, और अन्य जगहों में पूरी दुनिया में एकीकृत हो जाएगा। यह गूगल का भविष्य है, और यह वक्त से पहले हमारे सामने है।