شرکت اوپن ایآی (OpenAI) با همکاری پارادایم (Paradigm) شاخص ارزیابی جدیدی به نام EVMbench معرفی کرده است. این شاخص، ایجنتهای هوش مصنوعی را در یک رقابت واقعی برای شناسایی باگها، اکسپلویتها و پچکردن و رفع نقصها در قراردادهای هوشمند به چالش میکشد. EVMbench، بر پایه ۱۲۰ آسیبپذیری مهم و واقعی ساخته شده است که از ۴۰ حسابرسی معتبر و مجموعهای از سناریوهای امنیتی شبکه Tempo استخراج شدهاند.
به گزارش میهن بلاکچین، هدف OpenAI از توسعه این شاخص، بررسی این موضوع است که آیا مدلهای پیشرفته هوش مصنوعی میتوانند در عمل از میلیاردها دلار دارایی قفلشده در قراردادهای هوشمند محافظت کنند یا خیر. نتایج اولیه نشان میدهد مدل GPT-5.3 Codex در حالت اکسپلویت (Exploit Mode) عملکرد موفقی با نرخ ۷۲.۲ درصد داشته، در حالی که مدل GPT-5 تنها ۳۱.۹ درصد نرخ موفقیت ثبت کرده است. با وجود این پیشرفت چشمگیر، این شرکت، تاکید میکند که مدلها هنوز در تشخیص جامع و اصلاح کامل آسیبپذیریها به بلوغ کامل نرسیدهاند.
نحوه عملکرد EVMbench در ارزیابی امنیت قراردادهای هوشمند
EVMbench توانایی مدلهای هوش مصنوعی را در سه حوزه اصلی به چالش میکشد:
- تشخیص نقاط ضعف و حفرههای امنیتی در کد قراردادهای هوشمند.
- ارزیابی اینکه مدل تا چه اندازه میتواند از یک آسیبپذیری واقعی در محیط شبیهسازیشده سوءاستفاده کند.
- اصلاح آسیبپذیری بدون آنکه عملکرد اصلی قرارداد دچار آسیب شود.

اطلاعات این شاخص از آسیبپذیریهای مهم و واقعی جمعآوری شدهاند؛ باگهایی که پیشتر در حسابرسیهای امنیتی یا رقابتهای تخصصی شناسایی شده بودند. از آنجاییکه قراردادهای هوشمند پس از پیادهسازی معمولا غیرقابل تغییر هستند، وجود یک باگ میتواند منجر به از دست رفتن حجم عظیمی از سرمایه کاربران شود. به همین دلیل، OpenAI میگوید سنجش دقیق توان عملی مدلهای هوش مصنوعی در چنین محیط حساسی اهمیت زیادی دارد.
استانداردسازی امنیت در صنعتی با بیش از ۱۰۰ میلیارد دلار دارایی
OpenAI اعلام کرده است که هدف اصلی EVMbench ایجاد یک معیار قابل اتکا برای مقایسه عملکرد مدلهای مختلف هوش مصنوعی در حوزه امنیت بلاک چین است. امروزه، قراردادهای هوشمند بخش مهمی از زیرساخت دیفای را تشکیل میدهند و بیش از ۱۰۰ میلیارد دلار دارایی متنباز از طریق آنها مدیریت میشود. به همین دلیل، وجود هرگونه نقص در کد میتواند پیامدهای گستردهای برای اکوسیستم ایجاد کند.
با توجه به سرعت توسعه پروتکلها و انتشار قراردادهای جدید، استفاده از ابزارهایی که قابلیت تحلیل خودکار و دقیق کد را فراهم کنند، به یک نیاز مهم در این صنعت تبدیل شده است.
نتایج اولیه؛ تفاوت قابل توجه در عملکرد نسلهای مختلف مدلها
بر اساس دادههای منتشرشده از سوی OpenAI، مدل GPT-5.3 Codex در تست اکسپلویت به موفقیت ۷۲.۲ درصد رسیده است و مدل GPT-5 در همین آزمون ۳۱.۹ درصد عملکرد موفق داشته است.

این نتایج نشان میدهد که مدلهای جدیدتر توانایی بیشتری در اجرای این آزمونها دارند. بااینحال، طبق اعلام OpenAI، بسیاری از آسیبپذیریها همچنان خارج از محدوده تشخیص برخی مدلها باقی میمانند یا پس از اصلاح، همچنان نیازمند بررسی بیشتر هستند. این شرکت تاکید کرده است که برای افزایش دقت در شناسایی و رفع آسیبپذیریها، توسعه و آزمایش مدلهای پیشرفتهتر ادامه خواهد داشت.
دیدگاه کارشناسان درباره نقش روبهرشد هوش مصنوعی در آینده کریپتو
همزمان با معرفی EVMbench، چند چهره مهم صنعت کریپتو نیز درباره تاثیر هوش مصنوعی بر آینده تراکنشها و امنیت بلاک چین توضیحاتی ارائه کردهاند.
به گفته جرمی آلایر (Jeremy Allaire)، مدیرعامل شرکت سیرکل (Circle)، در سالهای آینده میلیاردها ایجنت هوش مصنوعی میتوانند بهجای کاربران تراکنشهای مالی روزمره را با استیبل کوینها انجام دهند. او میگوید اگر این اتفاق بیفتد، امنیت قراردادهای هوشمند اهمیت بسیار بیشتری پیدا میکند؛ زیرا این قراردادها زیرساخت اصلی انجام چنین تراکنشهایی هستند.
چانگ چنگ ژائو (CZ) نیز در اظهاراتی جداگانه گفته است که رمزارزها در نهایت به پول طبیعی و اصلی هوش مصنوعی تبدیل خواهند شد. به باور او، اگر ایجنتهای هوشمند قرار است بهجای کاربران تراکنش انجام دهند، این کار تقریبا همیشه روی بلاک چین و از طریق قراردادهای هوشمند صورت میگیرد. بنابراین مدلهای هوش مصنوعی باید بتوانند این قراردادها را بهتر درک و تحلیل کنند.
از سوی دیگر، حسیب قریشی (Haseeb Qureshi)، شریک مدیریتی شرکت سرمایهگذاری خطرپذیر دراگونفلای (Dragonfly)، به یک مشکل اساسی اشاره کرده است. او میگوید قراردادهای هوشمند طوری طراحی نشدهاند که انسانها بهراحتی آنها را درک کنند. به همین دلیل، بسیاری از کاربران هنگام امضای تراکنشهای بزرگ احساس ناامنی دارند، چون ممکن است با یک اشتباه یا حمله، سرمایهشان از دست برود.

قریشی باور دارد که آینده بلاک چین در دست کیف پولهای هوشمند و خودکار خواهد بود؛ کیف پولهایی که با کمک هوش مصنوعی تراکنشها را بررسی میکنند، هشدارهای امنیتی میدهند و از کاربر در برابر حملات پیچیده محافظت میکنند.
او تاکید میکند ابزارهایی مانند EVMbench برای رسیدن به چنین آیندهای ضروری هستند؛ زیرا ایجنتهای هوشمند قبل از اینکه بهطور مستقل از کاربران محافظت کنند، باید توانایی تحلیل دقیق قراردادهای هوشمند را داشته باشند.
چالش تمرکزگرایی؛ خطر ایجاد سوگیری در صورت تکیه بر یک نهاد
کارشناسان هشدار میدهند که با وجود اهمیت بالای EVMbench، تکیه بیش از حد بر یک معیار متمرکز با ماهیت غیرمتمرکز صنعت بلاک چین همخوانی ندارد. اگر تعیین استانداردهای امنیتی قراردادهای هوشمند تنها توسط چند بازیگر بزرگ مانند اوپن ایآی و پارادایم انجام شود، نوع دادههای انتخابشده، روش آموزش مدلها و ساختار ارزیابی میتواند ناخواسته نوعی سوگیری سیستماتیک (Bias) ایجاد کند.
این نگرانی زمانی پررنگتر میشود که مدلهای هوش مصنوعی قرار است نقشی مهمی در محافظت از داراییهای میلیاردی کاربران ایفا کنند. تحلیلگران تاکید میکنند که برای جلوگیری از وابستگی امنیت به یک نهاد واحد، باید ابزارهای متنباز بیشتری توسعه یابد و تعداد بیشتری از بازیگران صنعت در این نوع ارزیابیها حضور داشته باشند.











