मशीन लर्निंगमध्ये, मजकूर इनपुटवर आधारित प्रतिमा तयार करू शकणार्या जनरेटिव्ह मॉडेल्सनी अलीकडच्या वर्षांत लक्षणीय प्रगती केली आहे. प्रायोगिक पायरीमध्ये प्रशिक्षण इमेज रिवॉर्ड, व्युत्पन्न केलेल्या प्रतिमांसाठी एक प्राधान्य मॉडेल, भाष्ये वापरून मानवी प्राधान्ये मॉडेल करणे समाविष्ट होते.
A Revolutionary Solution In AI Generative Capabilities & Human Values: एआय जनरेटिव्ह क्षमता आणि मानवी मूल्ये यांच्यातील अंतर कमी करणारे क्रांतिकारी टेक्स्ट-टू-इमेज मॉडेल – मशीन लर्निंगमध्ये, मजकूर इनपुटवर आधारित प्रतिमा तयार करू शकणार्या जनरेटिव्ह मॉडेल्सनी अलीकडच्या वर्षांत लक्षणीय प्रगती केली आहे, विविध दृष्टीकोनांमुळे आशादायक परिणाम दिसून येत आहेत.
टेक्स्ट-टू-इमेज मॉडेल
या मॉडेल्सने लक्षणीय लक्ष वेधून घेतले आहे आणि संभाव्य ऍप्लिकेशन्स, प्री-ट्रेनिंग आणि यूजर-प्रॉम्प्ट डिस्ट्रिब्यूशनमधील फरकांमुळे त्यांना मानवी प्राधान्यांनुसार संरेखित करणे हे एक प्राथमिक आव्हान आहे, परिणामी व्युत्पन्न केलेल्या प्रतिमांसह ज्ञात समस्या आहेत.
मजकूर प्रॉम्प्टमधून प्रतिमा तयार करताना अनेक आव्हाने उद्भवतात (अडचणीं) यामध्ये –
- मजकूर आणि प्रतिमा अचूकपणे संरेखित करणे,
- मानवी शरीराचे अचूकपणे चित्रण करणे,
- मानवी सौंदर्यविषयक प्राधान्यांचे पालन करणे,
- आणि व्युत्पन्न सामग्रीमध्ये संभाव्य विषारीपणा आणि पूर्वाग्रह टाळणे या अडचणींचा समावेश आहे.
या आव्हानांना तोंड देण्यासाठी मॉडेल आर्किटेक्चर आणि प्री-ट्रेनिंग डेटा सुधारण्यापेक्षा अधिक आवश्यक आहे.
नैसर्गिक भाषा काही आव्हाने
नैसर्गिक भाषेच्या प्रक्रियेमध्ये शोधलेला एक दृष्टीकोन म्हणजे –
- मानवी अभिप्रायापासून सुदृढीकरण शिक्षण, जिथे मानवी प्राधान्ये आणि मूल्यांच्या दिशेने मॉडेलचे मार्गदर्शन करण्यासाठी तज्ञ-भाष्य केलेल्या तुलनांद्वारे पुरस्कार मॉडेल तयार केले जाते.
- तथापि, या भाष्य प्रक्रियेस वेळ आणि मेहनत लागू शकते.
चीनमधील एक संशोधन
वरील दिलेल्या आव्हानांना सामोरे जाण्यासाठी, चीनमधील एका संशोधन संघाने मजकूर प्रॉम्प्टमधून प्रतिमा तयार करण्यासाठी एक नवीन उपाय सादर केला आहे.
Image Reward हा त्यांनी सादर केला आहे, पहिले सामान्य-उद्देश मजकूर-टू-इमेज मानवी प्राधान्य पुरस्कार मॉडेल, वास्तविक-जगातील वापरकर्ता प्रॉम्प्ट्स आणि मॉडेल आउटपुटवर आधारित तज्ञ तुलनांच्या १३७k जोडींवर प्रशिक्षित.
Image Reward
- चीनमधील एका संशोधन संघाने मजकूर प्रॉम्प्टमधून प्रतिमा तयार करण्यासाठी एक नवीन उपाय सादर केला आहे.
- विविध दृष्टीकोनांमुळे आशादायक परिणाम दिसून येत आहेत.
इमेज रिवॉर्ड (Image Reward)
इमेज रिवॉर्ड तयार करण्यासाठी, त्यांनी विविध प्रॉम्प्ट्स निवडण्यासाठी –
- आलेख-आधारित अल्गोरिदम वापरला
- आणि प्रॉम्प्ट एनोटेशन,
- मजकूर-प्रतिमा रेटिंग
- आणि प्रतिमा रँकिंग असलेली प्रणाली असलेले भाष्यकार प्रदान केले.
चायना टीम इमेज रिवॉर्ड (Image Reward) साठीचे प्रयत्न
- व्युत्पन्न केलेल्या प्रतिमांच्या रेटिंग आणि रँकिंगमध्ये एकमत सुनिश्चित करण्यासाठी त्यांनी किमान महाविद्यालयीन स्तरावरील शिक्षणासह भाष्यकारांचीही नियुक्ती केली.
- त्यांनी वेगवेगळ्या प्रकारच्या प्रॉम्प्टवर मजकूर-टू-इमेज मॉडेलच्या कार्यप्रदर्शनाचे विश्लेषण केले.
- They collected a dataset of 8, useful prompts and scored the generated images based on three dimensions.
त्यांनी व्युत्पन्न केलेल्या प्रतिमांसह सामान्य समस्या देखील ओळखल्या आणि आढळले की शरीराच्या समस्या आणि पुनरावृत्ती होणारी रचना सर्वात गंभीर आहेत.
(They also identified common problems with generated images and found that body problems and repetitive formations were the most serious.)
त्यांनी मॉडेलच्या कार्यक्षमतेवर प्रॉम्प्ट्समधील “फंक्शन” शब्दांच्या प्रभावाचा अभ्यास केला आणि असे आढळले की योग्य कार्य वाक्ये मजकूर-प्रतिमा संरेखन सुधारतात.
- प्रायोगिक पायरीमध्ये प्रशिक्षण इमेज रिवॉर्ड, व्युत्पन्न केलेल्या प्रतिमांसाठी एक प्राधान्य मॉडेल, भाष्ये वापरून मानवी प्राधान्ये मॉडेल करणे समाविष्ट होते.
- पाठीचा कणा म्हणून BLIP चा वापर केला गेला आणि ओव्हरफिटिंग टाळण्यासाठी काही ट्रान्सफॉर्मर स्तर गोठवले गेले.
सर्वोत्तम हायपरपॅरामीटर (optimal hyperparameter) प्रमाणीकरण संच वापरून ग्रिड शोधाद्वारे निर्धारित केले गेले. प्रत्येक प्रॉम्प्टसाठी रँक केलेल्या प्रतिमांच्या आधारे नुकसान कार्य (loss function) तयार केले गेले आणि मानवांना प्राधान्य देणाऱ्या प्रतिमा स्वयंचलितपणे निवडणे हे ध्येय होते.
प्रयोगाचे टप्पे
प्रयोगाच्या टप्प्यात, मॉडेलला प्रतिमा तुलनांच्या १३६,००० जोड्यांच्या डेटासेटवर प्रशिक्षित केले जाते आणि प्राधान्य अचूकता, रिकॉल आणि फिल्टर स्कोअर वापरून इतर मॉडेलशी तुलना केली जाते.
६५.१४% च्या प्राधान्य अचूकतेसह, इमेज रिवॉर्ड इतर मॉडेल्सपेक्षा जास्त कामगिरी करते. त्यातील म्हणजे –
- पेपरमध्ये भाष्यकार,
- संशोधक,
- भाष्यकार समूह
- आणि मॉडेल यांच्यातील कराराचे विश्लेषण देखील समाविष्ट आहे.
हे मॉडेल इमेज फिडेलिटीच्या बाबतीत इतर मॉडेल्सपेक्षा चांगली कामगिरी करत असल्याचे दर्शविले आहे, जे सौंदर्यशास्त्रापेक्षा अधिक क्लिष्ट आहे आणि ते श्रेष्ठ आणि निकृष्ट प्रतिमांमधील फरक कमाल करते.
याव्यतिरिक्त, प्रस्तावित इमेज रिवॉर्ड मॉडेलमधून विशिष्ट घटक किंवा वैशिष्ट्ये काढून टाकण्याच्या प्रभावाचे विश्लेषण करण्यासाठी एक पृथक्करण अभ्यास केला गेला.
पृथक्करण अभ्यासाचा मुख्य परिणाम म्हणजे ट्रान्सफॉर्मर बॅकबोन, इमेज एन्कोडरसह तीनपैकी कोणतीही शाखा काढून टाकणे, आणि मजकूर एन्कोडरमुळे मॉडेलच्या प्राधान्य अचूकतेमध्ये लक्षणीय घट होईल.
विशेषतः, ट्रान्सफॉर्मर बॅकबोन काढून टाकल्याने सर्वात लक्षणीय कामगिरी कमी होईल, जे मॉडेलमधील ट्रान्सफॉर्मरची महत्त्वपूर्ण भूमिका दर्शवते.
यात आम्ही इमेजरिवॉर्ड सादर करणार्या चीनी टीमने केलेली नवीन तपासणी सादर केली.
हे सामान्य-उद्देश मजकूर-ते-प्रतिमा मानवी प्राधान्य पुरस्कार मॉडेल मानवी मूल्यांशी संरेखित करून जनरेटिव्ह मॉडेलमधील समस्यांचे निराकरण करते.
- त्यांनी भाष्यासाठी एक पाइपलाइन आणि १३७k तुलना आणि ८,८७८ प्रॉम्प्टचा डेटासेट तयार केला.
- प्रयोगांनी दर्शविले आहे की ImageReward ने विद्यमान पद्धतींना मागे टाकले आहे.
- आणि ते एक आदर्श मूल्यांकन मेट्रिक असू शकते. कार्यसंघाने मानवी मूल्यांकनांचे विश्लेषण केले.
- आणि भाष्य प्रक्रिया परिष्कृत करण्यासाठी,
- अधिक श्रेणी समाविष्ट करण्यासाठी मॉडेलचा विस्तार करण्यासाठी.
- आणि मजकूर-ते-प्रतिमा संश्लेषण सीमा पुश करण्यासाठी मजबुतीकरण शिक्षण एक्सप्लोर करण्याची योजना आखली.
हे सुद्धा वाचा :-