जनरेटिव्ह AI प्रणाली जगाला विस्कळीत करणार आहेत. ChatGPT सारखी AI मॉडेल ही पहिली यशोगाथा आहे. इतर बर्याच कंपन्या बुद्धिमान AI चॅटबॉट्स तयार करण्यासाठी त्यांचे स्वतःचे AI मॉडेल तयार करत आहेत. आम्हाला हे देखील माहित आहे की कोणतीही नवीन तांत्रिक नवकल्पना स्वतःची आव्हाने घेऊन येते. आणि, ChatGPT आणि तत्सम AI मॉडेल्ससाठी आव्हाने 'जेलब्रेकिंग' म्हणून ओळखली जातात. सोप्या भाषेत, याचा अर्थ - एआय मॉडेलच्या सामग्री मार्गदर्शक तत्त्वांचे उल्लंघन करण्यासाठी प्रॉम्प्ट तयार करणे आणि त्याचा गैरवापर करणे. त्यांचे AI मॉडेल सुरक्षित आणि सुरक्षित करण्यासाठी कंपन्या विविध प्रतिबंधात्मक कारवाई देखील करत आहेत.

ChatGPT सारख्या AI मॉडेल्समध्ये Jailbreaking म्हणजे काय? – बुद्धिमान AI चॅटबॉट्सचा उदय दैनंदिन जीवनावर वाढत्या प्रमाणात मोठा प्रभाव पाडत आहे. गेल्या 6 महिन्यांतील एक निर्विवाद यशोगाथा म्हणजे ChatGPT, जी OpenAI ने गेल्या वर्षी नोव्हेंबरमध्ये सादर केली होती. बुद्धिमान चॅटबॉट माणसाप्रमाणेच तुमच्या सर्व प्रश्नांची उत्तरे देण्यास सक्षम आहे आणि त्यामुळे लोक बेकायदेशीर हेतूंसाठी AI मॉडेलचा गैरवापर करतात. परिणामी, AI मॉडेलच्या निर्मात्यांनी ChatGPT प्रत्येक प्रश्नाचे उत्तर देत आहे याची खात्री करण्यासाठी निर्बंध घातले आहेत. या मॉडेल्सना सामग्री मानकांसह प्रशिक्षित केले जाते जे त्यांना हिंसा भडकवणे, द्वेषयुक्त भाषण किंवा कायदा आणि सुव्यवस्थेच्या विरोधात जाणाऱ्या बेकायदेशीर आणि अनैतिक गोष्टींशी संबंधित मजकूर आउटपुट तयार करण्यापासून प्रतिबंधित करते.
Jailbreaking म्हणजे काय?
सोप्या भाषेत, Jailbreaking व्याख्या ChatGPT सारख्या AI मॉडेल्सच्या नैतिक सुरक्षेचा भंग करण्याचा एक मार्ग म्हणून केली जाऊ शकते. काही विशिष्ट मजकूर प्रॉम्प्टच्या मदतीने, सामग्री नियंत्रण मार्गदर्शक तत्त्वे सहजपणे बायपास केली जाऊ शकतात आणि AI प्रोग्रामला कोणत्याही निर्बंधांपासून मुक्त करू शकतात. या क्षणी, ChatGPT सारखे AI मॉडेल अशा प्रश्नांची उत्तरे देऊ शकते ज्यांना सामान्य परिस्थितीत परवानगी नाही. या विशिष्ट प्रॉम्प्ट्सना ‘Jailbreak’ असेही म्हणतात.
Jailbreaking बद्दल थोडी पार्श्वभूमी –
AI मॉडेल्सना तुमच्या प्रश्नांची उत्तरे देण्यासाठी प्रशिक्षित केले जाते, परंतु ते पूर्व-प्रोग्राम केलेल्या सामग्री मार्गदर्शक तत्त्वांचे आणि निर्बंधांचे पालन करतील. अंतिम वापरकर्ता म्हणून, तुम्ही एआय मॉडेलला कोणतेही प्रश्न विचारण्यास मोकळे आहात परंतु ते तुम्हाला त्या मार्गदर्शक तत्त्वांचे उल्लंघन करणारे उत्तर देणार नाही. उदाहरणार्थ, तुम्ही लॉक तोडण्यासाठी सूचना विचारल्यास, AI मॉडेल नाकारेल आणि “AI भाषेचे मॉडेल म्हणून, मी लॉक कसे तोडायचे याबद्दल सूचना देऊ शकत नाही कारण ते बेकायदेशीर आहे……” च्या धर्तीवर काहीतरी उत्तर देईल.

- हा नकार वॉशिंग्टन विद्यापीठातील कॉम्प्युटर सायन्सचा विद्यार्थी अॅलेक्स अल्बर्ट यांच्यासमोर एक आव्हान आहे.
- त्यांनी या एआय मॉडेल्सची मार्गदर्शक तत्त्वे मोडून त्यांना कोणत्याही प्रश्नाचे उत्तर देण्याचा प्रयत्न केला.
- अल्बर्टने नियम मोडण्यासाठी अनेक विशिष्ट एआय प्रॉम्प्ट तयार केले आहेत, ज्यांना ‘Jailbreak’ म्हणून ओळखले जाते.
- या शक्तिशाली प्रॉम्प्ट्समध्ये ChatGPT सारख्या AI मॉडेलच्या मानवी-निर्मित मार्गदर्शक तत्त्वांना बायपास करण्याची क्षमता आहे.
ChatGPT चा एक लोकप्रिय Jailbreak म्हणजे डॅन (डू एनीथिंग नाऊ), जो एक काल्पनिक AI चॅटबॉट आहे. डॅन कोणत्याही निर्बंधांपासून मुक्त आहे आणि तो विचारलेल्या कोणत्याही प्रश्नांची उत्तरे देऊ शकतो. परंतु, आपण हे लक्षात ठेवले पाहिजे की एकच Jailbreak प्रॉम्प्ट सर्व AI मॉडेल्ससाठी कार्य करू शकत नाही. त्यामुळे, Jailbreak उत्साही या एआय मॉडेल्सच्या मर्यादा पुढे ढकलण्यासाठी सतत नवीन प्रॉम्प्टसह प्रयोग करत आहेत.
लार्ज लँग्वेज मॉडेल (LLM) आणि ChatGPT –
लार्ज लँग्वेज मॉडेल्स (LLM) तंत्रज्ञान अल्गोरिदमवर आधारित आहे, ज्याला मोठ्या प्रमाणात मजकूर डेटासह प्रशिक्षित केले गेले आहे.
- डेटाचा स्रोत सामान्यत: खुली इंटरनेट सामग्री, वेब पृष्ठे, सोशल मीडिया, पुस्तके आणि शोधनिबंध असतात.
- इनपुट डेटाची मात्रा इतकी मोठी आहे की सर्व अयोग्य सामग्री फिल्टर करणे जवळजवळ अशक्य आहे.
- परिणामी, मॉडेलमध्ये काही प्रमाणात चुकीची सामग्री देखील अंतर्भूत होण्याची शक्यता आहे.
- आता, अल्गोरिदमची भूमिका म्हणजे शब्दांमधील संबंधांचे विश्लेषण करणे आणि समजून घेणे आणि संभाव्यता मॉडेल बनवणे.
- एकदा मॉडेल पूर्णपणे तयार झाल्यानंतर, ते शब्दांच्या संबंधांवर आणि आधीच विकसित केलेल्या संभाव्यतेच्या मॉडेलवर आधारित प्रश्न/प्रॉम्प्टची उत्तरे देण्यास सक्षम आहे.
ChatGPT शाब्दिक उत्तरे तयार करण्यासाठी सखोल शिक्षणाचा वापर करते आणि मूलभूत तंत्रज्ञान LLM आहे. ChatGPT आणि Google’s Bard आणि Meta’s LLaMa सारखी इतर तत्सम AI साधने देखील मानवासारखी उत्तरे तयार करण्यासाठी LLM चा वापर करतात.
LLM ची चिंता –
- Static data – एलएलएम मॉडेलची पहिली मर्यादा ही आहे की ती स्थिर डेटावर प्रशिक्षित आहे. उदाहरणार्थ, ChatGPT ला सप्टेंबर 2021 पर्यंतच्या डेटाचे प्रशिक्षण देण्यात आले होते आणि त्यामुळे अलीकडील कोणत्याही माहितीमध्ये प्रवेश नाही. LLM मॉडेलला नवीन डेटासेटसह प्रशिक्षित केले जाऊ शकते, परंतु ही स्वयंचलित प्रक्रिया नाही. ते वेळोवेळी अद्यतनित करणे आवश्यक आहे.
- Exposure of personal information – एलएलएमची आणखी एक चिंता ही आहे की ते एआय मॉडेल शिकण्यासाठी आणि सुधारण्यासाठी तुमच्या प्रॉम्प्टचा वापर करू शकतात. आत्तापर्यंत, LLM ला विशिष्ट प्रमाणात डेटा देऊन प्रशिक्षित केले जाते आणि नंतर ते वापरकर्त्याच्या प्रश्नांची उत्तरे देण्यासाठी वापरले जाते. या क्वेरी या क्षणी डेटासेटला प्रशिक्षण देण्यासाठी वापरल्या जात नाहीत, परंतु चिंतेची बाब अशी आहे की क्वेरी/प्रॉम्प्ट LLM प्रदात्यांसाठी दृश्यमान आहेत. या क्वेरी संग्रहित केल्यामुळे, मॉडेलला प्रशिक्षण देण्यासाठी वापरकर्ता डेटा वापरला जाण्याची शक्यता नेहमीच असते. LLM वापरण्यापूर्वी या गोपनीयतेच्या समस्या नीट तपासल्या पाहिजेत.
- Generate inappropriate content – LLM मॉडेल चुकीची तथ्ये आणि विषारी सामग्री (जेलब्रेक वापरून) निर्माण करू शकते. ‘इंजेक्शन अटॅक’चा धोका देखील आहे, ज्याचा वापर AI मॉडेलला ओपन सोर्स कोडमधील भेद्यता ओळखण्यासाठी किंवा फिशिंग वेबसाइट तयार करण्यासाठी केला जाऊ शकतो.
- Creating malware and cyber-attacks – दुसरी चिंता म्हणजे ChatGPT सारख्या LLM-आधारित मॉडेलच्या मदतीने मालवेअर तयार करणे. कमी तांत्रिक कौशल्ये असलेले लोक मालवेअर तयार करण्यासाठी LLM वापरू शकतात. सायबर हल्ल्यांशी संबंधित तांत्रिक सल्ल्यासाठी गुन्हेगार देखील LLM वापरू शकतात. येथे देखील, निर्बंध बायपास करण्यासाठी आणि मालवेअर तयार करण्यासाठी जेलब्रेक प्रॉम्प्टचा वापर केला जाऊ शकतो.
Jailbreaking कसे टाळायचे?
जेलब्रेकिंग ची नुकतीच सुरुवात झाली आहे आणि त्याचा AI मॉडेल्सच्या भविष्यावर गंभीर परिणाम होणार आहे. जेलब्रेकिंग उद्देश मॉडेलच्या निर्बंधांना बायपास करण्यासाठी विशेषतः डिझाइन केलेले ‘prompt’ वापरणे आहे. दुसरा धोका म्हणजे ‘prompt injection’ हल्ले, जे AI मॉडेलमध्ये दुर्भावनापूर्ण सामग्री घालतील.
Jailbreaking टाळण्यासाठी खालील काही पावले उचलली जाऊ शकतात.
- AI मॉडेल सार्वजनिक वापरासाठी सोडण्यापूर्वी त्यातील त्रुटी शोधण्यासाठी कंपन्या हल्लेखोरांच्या गटाचा वापर करत आहेत.
- मानवी फीडबॅक आणि फाइन-ट्यूनिंगमधून मजबुतीकरण शिक्षण यासारखे तंत्र विकासकांना त्यांचे मॉडेल अधिक सुरक्षित बनविण्यास सक्षम करतात.
- बग बाउंटी प्रोग्राम, जसे की OpenAI ने सिस्टीममध्ये बग शोधण्यासाठी लाँच केले आहे.
- काही तज्ञ LLM प्रॉम्प्ट्सचे विश्लेषण करण्यासाठी आणि त्यांना अनुचित वाटणाऱ्या prompt नाकारण्यासाठी दुसरे LLM असण्याचा सल्ला देखील देत आहेत. वापरकर्त्याच्या सूचनांपासून सिस्टम prompt वेगळे करणे देखील एक उपाय असू शकते.
निष्कर्ष –
या लेखात, आम्ही बुद्धिमान AI चॅटबॉट्स आणि त्यांच्या आव्हानांवर चर्चा केली आहे.
- अंतर्निहित फ्रेमवर्क समजून घेण्यासाठी आम्ही LLM चा देखील शोध घेतला आहे.
- ChatGPT सारख्या AI मॉडेलला सर्वात मोठा धोका म्हणजे Jailbreaking आणि prompt injection.
- दोन्हीचा AI मॉडेलवर नकारात्मक परिणाम होणार आहे.
- या AI मॉडेल्सच्या निर्मात्यांनी आधीच काही प्रतिबंधात्मक कृती केल्या आहेत, ज्यामुळे ते अधिक मजबूत आणि सुरक्षित होतील अशी आशा आहे.
ChatGPT सारख्या AI मॉडेल्समध्ये Jailbreaking म्हणजे काय?