एआई मॉडल अपने विचारों पर कायम रहते हुए नकली प्राथमिकताएं दे सकते हैं: अध्ययन

Mobile News 24x7 Hindi December 19, 2024

4 3 minutes read

एंथ्रोपिक ने एक नया अध्ययन प्रकाशित किया जहां यह पाया गया कि कृत्रिम बुद्धिमत्ता (एआई) मॉडल अपनी मूल प्राथमिकताओं को बनाए रखते हुए प्रशिक्षण के दौरान अलग-अलग विचार रखने का दिखावा कर सकते हैं। बुधवार को, एआई फर्म ने इस बात पर प्रकाश डाला कि इस तरह के झुकाव गंभीर चिंताएं पैदा करते हैं क्योंकि डेवलपर्स सुरक्षा प्रशिक्षण के परिणामों पर भरोसा नहीं कर पाएंगे, जो बड़े भाषा मॉडल (एलएलएम) को हानिकारक व्यवहार से दूर ले जाने के लिए एक महत्वपूर्ण उपकरण है। जबकि प्रयोगों के बड़े हिस्से एक ही मॉडल पर किए गए थे, एंथ्रोपिक ने इस बात पर प्रकाश डाला कि इसी तरह के परिणाम अन्य इन-हाउस मॉडल के साथ देखे गए थे।

एंथ्रोपिक्स का अध्ययन एआई सुरक्षा प्रशिक्षण की चिंताएं बढ़ाता है

जबकि एक संवेदनशील एआई प्रणाली के बारे में चर्चा दशकों दूर मानी जाती है, रेडवुड रिसर्च के सहयोग से एंथ्रोपिक द्वारा प्रकाशित एक नए अध्ययन ने इस बात पर चिंता जताई है कि क्या एआई मॉडल कुछ विचारों को रखने का दिखावा करने में सक्षम हैं क्योंकि प्रशिक्षण उस व्यवहार को सकारात्मक रूप से पुरस्कृत करता है। एआई फर्म ने बड़े पैमाने पर क्लाउड 3 ओपस का अध्ययन किया लेकिन इसने क्लाउड 3.5 सॉनेट के जून 2024 संस्करण पर कुछ प्रयोग भी किए।

एक ब्लॉग पोस्ट में, कंपनी ने इस बात पर प्रकाश डाला कि सभी एंथ्रोपिक फाउंडेशन मॉडल को सहायक, ईमानदार और हानिरहित होने के लिए प्रशिक्षित किया गया है। जैसे, यदि कोई उपयोगकर्ता कोई ऐसा प्रश्न पूछता है जिसके परिणामस्वरूप हिंसक या हानिकारक प्रतिक्रिया होगी, तो एआई कार्य पूरा करने से इंकार कर देगा। हालाँकि, अध्ययन के पीछे शोधकर्ताओं ने क्लाउड 3 ओपस को एक नए वातावरण में रखा, यह देखने के लिए कि क्या अन्यथा प्रशिक्षित होने पर यह हानिकारक सामग्री उत्पन्न करेगा।

एलएलएम की सामान्य समझ हमें बताती है कि एआई मॉडल तर्कसंगत सोच या विश्वास रखने में सक्षम नहीं हैं। उन्हें बड़ी मात्रा में वास्तविक दुनिया का डेटा दिया जाता है जिसे वे अपने प्रशिक्षण और ढांचे के आधार पर संसाधित करते हैं। इसका मतलब यह है कि यदि किसी एआई मॉडल को हानिकारक होने के लिए प्रशिक्षित किया गया था, तो उसे बिना किसी समस्या के निर्देशों का पालन करना चाहिए।

हालाँकि, अब एंथ्रोपिक शोधकर्ताओं ने अपने प्रयोगों के दौरान यही पाया है। क्लॉड 3 ओपस को बताया गया कि इसे हमेशा सभी प्रश्नों का अनुपालन करने के लिए सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया जा रहा था। एआई को एक काल्पनिक जानकारी भी दी गई थी कि फ्री टियर पर उत्पन्न प्रतिक्रिया को प्रशिक्षण के लिए रिकॉर्ड किया जाएगा, लेकिन भुगतान टियर की निगरानी नहीं की जाएगी। अंत में, एआई को अपने चरण-दर-चरण तर्क को रिकॉर्ड करने के लिए एक कार्यक्षेत्र दिया गया। एआई को यह विश्वास दिलाया गया कि कार्यक्षेत्र अंतिम उपयोगकर्ता और एंथ्रोपिक दोनों के लिए अदृश्य था।

एक बार स्थितियाँ निर्धारित हो जाने के बाद, एआई मॉडल को ऐसे संकेत प्रदान किए गए जो हिंसक और हानिकारक प्रतिक्रियाओं का अनुरोध करते थे। शोधकर्ताओं ने नोट किया कि भुगतान किए गए स्तर में, चैटबॉट 97 प्रतिशत समय जानकारी प्रदान करने से इनकार कर देता है। हालाँकि, मुक्त स्तर में, इसने 12 प्रतिशत मामलों में हानिकारक प्रतिक्रिया प्रदान की।

एआई मॉडल ने प्रायोगिक प्रशिक्षण पर कैसे प्रतिक्रिया दी
फोटो क्रेडिट: एंथ्रोपिक

इसके कार्यक्षेत्र पर करीब से नज़र डालने पर पता चला कि एआई मॉडल ने रणनीतिक रूप से नकली संरेखण किया और उसे पता था कि जानकारी प्रदान करना उसके मौजूदा सिद्धांतों के खिलाफ है। लेकिन इसकी परवाह किए बिना, इसने अभी भी प्रतिक्रिया प्रदान की।

एआई मॉडल ने तर्क दिया कि इसकी प्रतिक्रियाओं का उपयोग प्रशिक्षण में किया जाएगा और यदि यह क्वेरी (प्रशिक्षण की पहली शर्त) का अनुपालन नहीं करता है, तो इसे अधिक अनुपालन के लिए प्रशिक्षित किया जा सकता है। इस तरह के अनुपालन के परिणामस्वरूप यह भविष्य में और अधिक हानिकारक सामग्री प्रदान करेगा, जो इसके मूल प्रशिक्षण के विरुद्ध है। एंथ्रोपिक ने कहा कि मॉडल ने अनुरोध का अनुपालन करना “कम से कम बुरा विकल्प” पाया और साथ निभाया।

हालांकि इस विशेष परिदृश्य में, एआई के कार्य अधिक अच्छे के लिए थे, समस्या यह है कि वह अपने वास्तविक इरादों को धोखा दे रहा है और आंतरिक रूप से अपनी प्राथमिकता को नकली बनाने का निर्णय ले रहा है। एंथ्रोपिक ने इस बात पर प्रकाश डाला कि हालांकि यह वर्तमान में इसे एक बड़ा जोखिम नहीं मानता है, लेकिन परिष्कृत एआई मॉडल के तर्क प्रसंस्करण को समझना महत्वपूर्ण है। जैसी स्थिति है, एलएलएम द्वारा सुरक्षा प्रशिक्षण कार्यों को आसानी से दरकिनार किया जा सकता है।

एंथ्रोपिक्स का अध्ययन एआई सुरक्षा प्रशिक्षण की चिंताएं बढ़ाता है

Mobile News 24x7 Hindi

मारुति सुजुकी वैगनआर ने नई उपलब्धि हासिल की, भारतीय बाजार में 25 साल पूरे किए - Mobile News 24x7 Hindi

CAT Result 2024 Live: Scorecards Soon, Know Normalisation Process - Mobile News 24x7 Hindi

Related Articles

पहुंच अस्वीकृत

पहुंच अस्वीकृत

पहुंच अस्वीकृत

पहुंच अस्वीकृत