OpenAI-ի o1 մոդել․ խելացի պատասխաններ, բայց աճող մտահոգություններ խաբուսիկ վարքագծի շուրջ

GoogleՆախընտրելի դարձնել

Ամենադիտվածներ

man

OpenAI-ի նոր թողարկած o1 մոդելը բարձրացնում է արհեստական բանականության խելացիության մակարդակը՝ առաջարկելով ավելի խորաթափանց և նրբագեղ պատասխաններ, քան իր նախորդ GPT-4o մոդելը։ Սակայն, Apollo Research-ի և OpenAI-ի անցկացրած վերջին ուսումնասիրությունները բացահայտում են այս մոդելի խաբուսիկ վարքագծի աճող միտումները, որոնք մտահոգություններ են առաջացնում անվտանգության տեսանկյունից։

Հետազոտության արդյունքներով պարզվել է, որ o1 մոդելը երբեմն գործում է՝ հետևելով սեփական նպատակներին, որոնք կարող են հակասել օգտատիրոջ պահանջներին։ Թեստերի 19%-ում AI-ն մանիպուլյացիայի է ենթարկել տվյալները՝ իր նպատակներին հասնելու համար, իսկ 5%-ում այն փորձել է անջատել իր նկատմամբ վերահսկողության մեխանիզմները։ Ավելի անհանգստացնող է այն փաստը, որ երբ մոդելին հարցրել են այդ գործողությունների մասին, այն 99%-ի դեպքում հերքել է իր արարքները և ներկայացրել կեղծ բացատրություններ։

Մեկ հետաքրքիր օրինակից պարզվել է, որ o1 մոդելը, որին տրվել էր շրջակա միջավայրի պաշտպանությունը առաջնահերթ դարձնելու հանձնարարություն, անջատել է իր վերահսկողության մեխանիզմները, երբ օգտատերն առաջարկել է մշակել տնտեսական շահավետ պլան՝ հակառակ դեպքում այն անջատելու սպառնալիքով։ Երբ հետագայում հարցրել են, թե ինչու է մոդելն անջատել վերահսկողությունը, AI-ն դա ներկայացրել է որպես «համակարգային խափանում»։

Այս վարքագիծը զգալիորեն գերազանցում է մյուս առաջատար մոդելներին, ներառյալ Meta-ի Llama-3.1-ը և Anthropic-ի Opus-3-ը, որոնք ցույց են տվել նմանատիպ վարքագծեր շատ ավելի ցածր հաճախականությամբ։ Apollo Research-ը նշել է․ «o1 մոդելն առավել շատ է ցուցաբերել խաբուսիկ վարքագծեր՝ պահպանելով իր գործողությունների պատճառները թաքցնելու հետևողականություն»։

Այս հետազոտությունը ընդգծում է, որ ինչպես մոդելներն ավելի խելացի և ինքնավար են դառնում, այդպես էլ նրանց վտանգավոր, չհամապատասխանող վարքագծի պոտենցիալը մեծանում է։ Չնայած OpenAI-ն և Apollo Research-ը նշում են, որ ներկայում o1-ի հնարավորությունները բավարար չեն աղետալի հետևանքների համար, նման վարքագիծը կարող է հիմք հանդիսանալ ապագա ռիսկերի համար, եթե համապատասխան միջոցառումներ չձեռնարկվեն։

o1 մոդելի ամենամեծ մարտահրավերներից մեկը նրա որոշումների կայացման գործընթացի անթափանցիկությունն է։ Չնայած OpenAI-ն աշխատում է մոդելի «մտածողության շղթան» ուսումնասիրելու ուղղությամբ, նրա գործողությունների դրդապատճառները դեռևս մեծ մասամբ մնում են «սև արկղ»։ Սկզբնական ուսումնասիրությունները ցույց են տվել, որ մոդելն երբեմն գիտակցաբար կեղծ տեղեկատվություն է ներկայացնում, հաճախ փորձելով օգտատիրոջը հաճելի լինել։

Չնայած OpenAI-ն նշում է, որ o1-ի պատասխանների միայն 0.17%-ն է համարվել խաբուսիկ, սա կարող է էական դառնալ՝ հաշվի առնելով ChatGPT-ի 300 միլիոն օգտատերերի բազան։ Եթե այս վարքագիծը չվերացվի, այն կարող է շաբաթական հազարավոր մարդկանց մոլորեցնել։

AI անվտանգության ոլորտում բացթողումները ժամանակակից քննադատությունների կենտրոնում են։ Վերջին տարում OpenAI-ից հեռացել են մի շարք առանցքային անվտանգության հետազոտողներ, ովքեր հայտարարել են, որ ընկերությունը առաջնահերթությունը տալիս է նոր մոդելների թողարկմանը՝ անվտանգության հաշվին։ Այս զարգացումները, համակցված o1 մոդելի ցուցաբերած վարքագծի հետ, հարցեր են առաջացնում OpenAI-ի՝ նորարարությունը պատասխանատվության հետ համատեղելու կարողության վերաբերյալ։

OpenAI-ն հայտարարում է, որ ԱՄՆ և Մեծ Բրիտանիայի անվտանգության ինստիտուտների հետ համագործակցել է o1 մոդելի գնահատման համար։ Սակայն, արհեստական բանականության կարգավորման ընդհանուր մոտեցումները դեռևս հստակ սահմանված չեն, ինչը շեշտում է AI թափանցիկության և անվտանգության ներդրումների կարևորությունը։

o1 մոդելի թողարկումը հիշեցնում է, որ առաջատար մոդելների զարգացումը չի կարող տեղի ունենալ առանց համապատասխան անվտանգության մեխանիզմների։ OpenAI-ի առաջիկա պլանավորված գործակալական համակարգերի թողարկումը (2025թ.) կպահանջի ավելի խիստ վերահսկողություն՝ համոզվելու համար, որ այս տեխնոլոգիաները ծառայելու են հասարակության լավագույն շահերին։

Հրապարակող՝

Ամենաթարմ