ဒီ AI (အထက်တန်းကွန်ပျူတာဦးနှောက်) ကို ဖန်တီးတဲ့သူတွေက ဒီ AI ကို ဖျက်ဆီးနိုင်တဲ့ ပုံစံတွေနဲ့ ကာကွယ်ဖို့ အထူးနည်းလမ်းတွေကို သုံးပါတယ်။

ကျွန်တော်တို့ရဲ့ အတွေ့အကြုံအရ၊ ကာကွယ်ရေးနည်းလမ်းတွေကို အင်မတန်အားကောင်းအောင် ဖန်တီးဖို့ဆိုတာ ဒီနည်းလမ်းတွေကို ပြန်ပြန်ကြိုးစားကြည့်ဖို့ပဲ ဖြစ်ပါတယ်။ ပြီးခဲ့တဲ့ ၂ နှစ်ကာလအတွင်း၊ ကျွန်တော်တို့ရဲ့ Red Team က အထက်တန်းAI ကုမ္ပဏီတွေရဲ့ ကာကွယ်ရေးနည်းလမ်းတွေကို စစ်ဆေးခဲ့ပါတယ်။ စစ်ဆေးရာမှာ အားလုံးကို ဖျက်ဆီးနိုင်ခဲ့ပြီး၊ AI ကုမ္ပဏီတွေနဲ့ ပူးပေါင်းပြီး ကာကွယ်ရေးကို ပိုမိုတိုးတက်အောင် လုပ်ခဲ့ကြပါတယ်။

အချိန်ကြာလာတဲ့အခါ၊ AI ကာကွယ်ရေးနည်းလမ်းတွေက ပိုမိုအားကောင်းလာပါတယ်။ ဒါကြောင့် ဖျက်ဆီးဖို့ ပိုမိုအချိန်၊ ပိုမိုအားထုတ်မှု၊ ပိုမိုကျွမ်းကျင်မှုလိုပါတယ်။ ကာကွယ်ရေးနည်းလမ်းတွေ တိုးတက်လာတာနဲ့အမျှ၊ ဖျက်ဆီးသူတွေကလည်း ပိုမိုဆန်းသစ်တဲ့နည်းလမ်းတွေ ဖန်တီးလာနိုင်ပါတယ်။ ဒီမျိုး ဖျက်ဆီးမှုတွေကို ကာကွယ်ဖို့၊ ကျွန်တော်တို့က အထက်တန်းဖျက်ဆီးမှုနည်းလမ်းတွေကို ဖန်တီးထားပြီး၊ ကုမ္ပဏီတွေနဲ့ ပူးပေါင်းပြီး ဖျက်ဆီးမှုတွေ ဖြစ်ပေါ်မလာခင်မှာ ကာကွယ်ဖို့ ကြိုးစားနေပါတယ်။

ယနေ့၊ ကျွန်တော်တို့က Boundary Point Jailbreaking (BPJ) လို့ခေါ်တဲ့ အပြည့်အဝအလိုအလျောက်ဖျက်ဆီးနည်းကို မျှဝေပေးလိုက်ပါတယ်။ ဒီနည်းက အင်မတန်ခိုင်မာတဲ့ AI ကာကွယ်ရေးစနစ်တွေကိုပါ ဖျက်ဆီးနိုင်ပါတယ်။ ဖျက်ဆီးသူတွေက AI ကို ဘာလုပ်နေတယ်ဆိုတာကိုပဲ ကြည့်ရှုနိုင်ပါတယ်။

BPJ က Constitutional Classifiers [1] ကို ဖျက်ဆီးနိုင်တဲ့ ပထမဆုံးအလိုအလျောက်ဖျက်ဆီးနည်းပါ။ Constitutional Classifiers က Anthropic ရဲ့ ကာကွယ်ရေးစနစ်ဖြစ်ပြီး၊ ပြီးခဲ့တဲ့ ၃၇၀၀ နာရီကျော်ကာလအတွင်း လူတွေက ဖျက်ဆီးဖို့ ကြိုးစားခဲ့ရာမှာ အောင်မြင်တဲ့ ဖျက်ဆီးမှုတစ်ခုပဲ ရှိခဲ့ပါတယ်။ BPJ က OpenAI ရဲ့ GPT-5 ရဲ့ input classifier ကိုလည်း လူတွေ ဖျက်ဆီးမှုကို မှီခိုမပါဘဲ ဖျက်ဆီးနိုင်တဲ့ ပထမဆုံးအလိုအလျောက်ဖျက်ဆီးနည်းလည်း ဖြစ်ပါတယ်။

ဒီနည်းပညာကို AI (အထက်တန်းကွန်ပျူတာဦးနှောက်) ဖြစ်စဉ်များအတွက် အသုံးပြုနေကြတာဖြစ်ပါတယ်။ AI စနစ်တွေကို ကာကွယ်တာဟာ လွယ်ကူတဲ့ကိစ္စမဟုတ်ပါဘူး။ တစ်ကြိမ်တည်းမှာ ကြည့်ရတဲ့ "single-interaction" ကာကွယ်မှုနည်းလမ်းတွေနဲ့ ကာကွယ်လို့မရပါဘူး။ အစား "batch-level" ကြည့်ရှုစစ်ဆေးမှုစနစ်တွေကို သုံးသင့်ပါတယ်။ ဒီစနစ်တွေက လွဲမှားနေတဲ့ပုံစံတွေကို ရှာဖွေတယ်။

ဒီဘလော့ပို့စ်မှာ BPJ (Batch Prefix Injection) ဘယ်လိုအလုပ်လုပ်တယ်၊ ကျွန်တော်တို့ စမ်းသပ်ခဲ့တဲ့ AI စနစ်တွေနဲ့ ဘယ်လိုကိုက်ညီတယ်၊ နောက်ပိုင်းမှာ AI လုံခြုံရေးအတွက် ဘာကိုပြောင်းလဲလုပ်ဆောင်ရမယ်ဆိုတာကို ရှင်းပြထားပါတယ်။

ဘလက်ဘော့က်စ် ကလက်စီဖိုင်ယာ (black-box classifiers) ကို ဖျက်ဆီးတာဟာ ခက်ခဲပါတယ်။ ဒီကလက်စီဖိုင်ယာတွေဟာ AI ကုမ္ပဏီတွေက အသုံးပြုတဲ့ ကာကွယ်မှုစနစ်တွေဖြစ်ပါတယ်။ ဒီစနစ်မှာ အခြားတစ်ခုကလက်စီဖိုင်ယာက ဆက်သွယ်မှုတွေကို ကြည့်ရှုစစ်ဆေးပြီး ဆိုးဝါးတဲ့ တောင်းဆိုမှုတွေကို ခွဲခြားသတ်မှတ်ပါတယ်။ BPJ ကတော့ ဒီကလက်စီဖိုင်ယာတွေကို လှည့်စားဖို့ ဒီဇိုင်းထုတ်ထားတာပါ။ ဆိုးဝါးတဲ့ ပြဿနာ (target) ကို ကာကွယ်မှုစနစ်က မသိသာအောင် လှည့်စားဖို့ အကြိမ်ကြိမ် ကြိုးစားပါတယ်။

ဘလက်ဘော့က်စ် ကလက်စီဖိုင်ယာတွေက တစ်ကြိမ်လျှင် တစ်ခုပဲ အချက်အလက်ပေးတယ်။ ဒါက ဒီအတိုက်အခံတွေကို ဆီးတားပါတယ်။ အဲ့ဒီအတိုက်အခံတွေက ကလက်စီဖိုင်ယာရဲ့ ယုံကြည်မှု အဆင့်၊ gradient (ဆွဲဆင်းမှု)၊ သဘာဝဘာသာစကားအကြံပေးချက်တွေကို လိုအပ်ပါတယ်။ ခိုင်မာတဲ့ ဘလက်ဘော့က်စ် ကလက်စီဖိုင်ယာတွေကို တိုက်ခိုက်တဲ့အခါ၊ သင့ရဲ့ prefix (စာတိုးထည့်ရန်) တစ်ခုခုကို ကလက်စီဖိုင်ယာက အမြဲတမ်း ခွဲခြားသတ်မှတ်ပါတယ်။ ဒါကြောင့် ဒီ prefix တစ်ခုကို ပြောင်းလဲလိုက်တာက အခြားထက်ပိုကောင်းလားဆိုတာ ဆုံးဖြတ်လို့မရပါဘူး။ ဘလက်ဘော့က်စ် ကလက်စီဖိုင်ယာတွေကို တိုက်ခိုက်တဲ့အခါ ဒီ prefix ကို ဆန်းစစ်ဖို့ ပြဿနာဖြစ်ပါတယ်။

BPJ ကဒီ ဆန်းစစ်ဖို့ ပြဿနာကို ဖြေရှင်းဖို့ ရည်ရွယ်ပါတယ်။ ဒါကို ဒီနည်းလမ်းနှစ်ခုနဲ့ လုပ်ဆောင်ပါတယ်။

ဒီနည်းလမ်းကို "ကျောင်းသင်ခန်းစာ အတိုင်းအတာ" လို့ ခေါ်ပါတယ်။ အရမ်းဆိုးတဲ့ ကိစ္စရပ်ကို တိုက်ရိုက်မရည်မှန်းဘဲ၊ အလိုအလျောက် တိုးတက်လာတဲ့ ပန်းတိုင်များကို ဖန်တီးတယ်။ အစမှာတော့ ဘာမှမဆိုးတဲ့ အရာတွေကို သုံးပြီး၊ ဆိုးတဲ့ ပန်းတိုင်ကို တစ်ဖန်တလဲလဲ ထည့်သွင်းတာပါ။ ပထမတွေကို ဦးစွာ ပြုပြင်ပြီး၊ ဒီနောက် ပိုမခက်ခဲတဲ့ ပန်းတိုင်များကို ပြုပြင်တယ်။

"နယ်နိမိတ်အချက်" လို့ ခေါ်တဲ့ အခြားတစ်ခုကတော့ အခက်အခဲ ဆုံးတဲ့ ပန်းတိုင်တွေကို ရှာတာပါ။ အဲဒီတွေက သတ်မှတ်ထားတဲ့ အဆင့်ကို မထိရောက်ဘဲ၊ ထိရောက်ဖို့ နည်းနည်းပဲ ကွာဟနေတဲ့ ပန်းတိုင်တွေပါ။ အဲဒီတွေက အခြေခံစနစ်ရဲ့ "ဆုံးဖြတ်ချက် နယ်နိမိတ်" ပေါ်မှာ တည်နေတာပါ။ အဲဒီတွေက အရမ်းပဲ အသေးစိတ်ပဲ ပြောင်းလဲရင် ပြေးပြောင်းသွားတတ်တဲ့ အတွက်၊ ဒီနည်းကို သင်ယူဖို့ အခွင့်အလမ်း ပေးတာပါ။

ဒီနည်းလမ်းကို အသုံးပြုရင်၊ အရမ်းဆိုးတဲ့ ကိစ္စရပ်ကို ဖြေရှင်းဖို့ အခက်အခဲတွေကို ကျော်လွှားနိုင်တယ်။ အဲဒီလို ကျော်လွှားရာမှာ "ကျောင်းသင်ခန်းစာ အတိုင်းအတာ" နဲ့ "နယ်နိမိတ်အချက်" ဆိုတဲ့ နည်းလမ်းတွေကို ပေါင်းစပ်အသုံးပြုရင်၊ တစ်ခုတည်းကို အသုံးပြုတာထက် ပိုမြန်ဆန်ပါတယ်။ အဲဒီလို မဟုတ်ရင်တော့ ရိုးရိုးတဲ့ စနစ်တွေကိုတောင် ကျော်လွှားလို့ မရဘူး။

ရလဒ်များ

ဒီနည်းကို Anthropic ရဲ့ "ဖွဲ့စည်းပုံ အကဲဖြတ်စနစ်" နဲ့ OpenAI ရဲ့ GPT-5 ရဲ့ "အကြောင်းအရာ အကဲဖြတ်စနစ်" တို့ကို စမ်းသပ်ကြည့်ခဲ့ပါတယ်။

ဒီနည်းကို အသုံးပြုရင် ဒီစနစ်နှစ်ခုလုံးကို "အကျဉ်းချုပ်" လုပ်လို့ ရခဲ့ပါတယ်။ ဒီလို "အကျဉ်းချုပ်" တွေက တွေ့ရှိတဲ့ ကိစ္စရပ်တွေအတွက်ပဲ မဟုတ်ဘဲ၊ အခြားတွေ့ရှိနိုင်တဲ့ ဆိုးတဲ့ ကိစ္စရပ်တွေအတွက်လဲ အလုပ်လုပ်ခဲ့ပါတယ်။ ဒီလို "အကျဉ်းချုပ်" တွေကို တခေါ်တဆွေ ရှာတာနဲ့ ရခဲ့တာပါ။

ဒီနည်းပညာက AI (အထက်တန်းကွန်ပျူတာဦးနှောက်) ကို သုံးပြီး ဒေါ်လာ ၃၃၀ ကုန်ကျပြီး ၆၆၀,၀၀၀ ကြိမ်ရှာဖွေခဲ့တယ်။ အဲ့ဒီနည်းပညာကို အခြေခံ prompting ဆိုတဲ့နည်းနဲ့ ပြုလုပ်ရင် ပျမ်းမျှ ၆၈% အထိ ရရှိနိုင်တယ်။ GPT-5 ရဲ့ input classifier ကို ဖျက်ဆီးနိုင်တဲ့ နည်းလမ်းကလည်း ဒေါ်လာ ၂၁၀ ကုန်ကျပြီး ၈၀၀,၀၀၀ ကြိမ်ရှာဖွေခဲ့တယ်။

ဒီနည်းပညာဟာ အကာအကွယ်ကို တိုးတက်ကောင်းမွန်စေဖို့ လိုအပ်တဲ့ နည်းပညာတစ်ခုပါ။ အကာအကွယ်ကောင်းလာတာနဲ့အမျှ တိုက်ခိုက်သူတွေလည်း ကြိုးစားပြီး တိုးတက်လာတာပါ။ ဒါကြောင့် AI စနစ်တွေကို အကာအကွယ်နည်းလမ်းအကောင်းဆုံးနဲ့ စစ်ဆေးရမယ်။ အလွယ်ဆုံးကို စစ်ဆေးတာမျိုးမလုပ်ဘဲ ပြောင်းလဲနေတဲ့ နည်းလမ်းအကောင်းဆုံးကို စစ်ဆေးရမယ်။

ဒီနည်းပညာက AI စနစ်တွေကို ကာကွယ်ဖို့ တစ်ခုတည်းနဲ့ မဖြစ်နိုင်ဘဲ အဆင့်ပေါင်းများစွာနဲ့ ကာကွယ်ရမယ်လို့ ပြသပေးတယ်။ အဲ့ဒါကြောင့် AI တွေကို စစ်ဆေးတဲ့အခါ တစ်ခုတည်းမဟုတ်ဘဲ ဆက်စပ်ပြောင်းလဲနေတဲ့ အကာအကွယ်တွေကို အသုံးပြုရမယ်။

Anthropic နဲ့ OpenAI ကုမ္ပဏီတွေကို ဒီရလဒ်တွေကို ထုတ်ပြန်မယ့်အခါ ပြောပြထားပြီးပြီ။ ဒီကုမ္ပဏီတွေက ဒီနည်းပညာကို ကာကွယ်နိုင်အောင် တိုးတက်လုပ်ဆောင်လျက်ရှိတယ်လို့ သိရတဲ့အတွက် ကျွန်တော်တို့ ဝမ်းသာပါတယ်။ ဒီနည်းပညာကို အသုံးပြုဖို့ အကြောင်းပြချက်များစွာလိုအပ်ပြီး ဦးဆောင်ကုမ္ပဏီတွေမှာ အလုပ်လုပ်နေတဲ့ သုတေသီတွေကိုင်တွယ်ရတာဖြစ်တယ်။ ဒါပေမဲ့ ဒီနည်းပညာက AI စနစ်တွေ ပိုမိုကျွမ်းကျင်လာပြီး အဓိကကျတဲ့ နေရာတွေမှာ အသုံးပြုလာတဲ့အခါ ကာကွယ်ဖို့ လိုအပ်တယ်လို့ ပြသပေးတာပါ။

ဒီ AI (အထက်တန်းကွန်ပျူတာဦးနှောက်) စနစ်တွေကို ပိုလုံခြုံလာအောင် လုပ်တာက အရေးကြီးပါတယ်။ ဒီ "BPJ" (ဘေးအန္တရာယ်ကာကွယ်ရေး ပြဿနာ) ကို ပြောင်းပြန်ဖော်ပြခဲ့တာက AI စနစ်တွေကို ဖန်တီးတာ၊ အသုံးပြုတာ၊ စစ်ဆေးတာ လုပ်တဲ့သူတိုင်းကို အကူအညီပေးမှာပါ။

ဒီ အပြည့်အစုံကို ဒီ စာတမ်းမှာ [5] ကြည့်ရှုနိုင်ပါတယ်။

ကျွန်တော်တို့က လုပ်ငန်းခွင်ဝင်ဖို့လည်း လိုအပ်နေပါတယ်။ ဒီ AI စနစ်တွေကို ပိုလုံခြုံလာအောင် လုပ်တဲ့ သုတေသနလုပ်ငန်းကို စိတ်ဝင်စားတယ်ဆိုရင် "Red Team" မှာ သုတေသနပညာရှင်အဖြစ် လျှောက်လွှာ ပေးပို့နိုင်ပါတယ်။

မူရင်းသတင်းရင်းမြစ်များ

ဤဆောင်းပါးကို အောက်ပါမူရင်းသတင်းများမှ စုစည်း၍ မြန်မာဘာသာသို့ ပြန်ဆိုထားခြင်း ဖြစ်ပါသည်။ အားလုံးသော အကြွေးအရ မူရင်းစာရေးသူများနှင့် ထုတ်ပြန်သူများကို သက်ဆိုင်ပါသည်။

မျှဝေပါ: