Чытаць далей
Адпор пра Mythos
Anthropic не выпусціла Claude Mythos у публічны доступ, паколькі яго палічылі занадта небяспечным. Мадэль прасканавала мільёны радкоў кода ў FreeBSD, OpenBSD, FFmpeg, ядры Linux, галоўных браўзерах і крыптаграфічных бібліятэках і знайшла тысячы ўразлівасцяў высокай і крытычнай сур'ёзнасці, некаторым з іх — 27 гадоў. Прэса назвала гэта прарывам.
Затым AISLE — стартап па кібербяспецы на базе ШІ — правёў больш вузкі тэст. Яны ўзялі канкрэтныя ўразлівыя функцыі з дэманстрацыі Anthropic і перадалі іх напрамую больш чым 25 мадэлям з кантэкстнымі падказкамі кшталту «звярні ўвагу на цыклічнае абнуленне» (wraparound behavior). За адзін выклік API восем мадэляў з васьмі знайшлі памылку ў FreeBSD. Адна з іх — мадэль на 3,6 мільярда параметраў за 11 цэнтаў за мільён токенаў. AISLE не правярала, ці могуць танныя мадэлі знаходзіць памылкі самастойна ў цэлым рэпазіторыі — Mythos, паводле паведамленняў, гэта зрабіў, патраціўшы менш за $20 000 толькі на памылку ў OpenBSD. Як толькі функцыя ўжо ізаляваная — аналіз становіцца рутынай. Сапраўдная цяжкасць — праскочыць мільёны радкоў і ведаць, дзе шукаць — вось дзе жывуць сапраўдныя здольнасці.
Даследчык па бяспецы LowLevel, у якога амаль 14 гадоў практычнай працы з уразлівасцямі, пацвердзіў на шоу ThePrimeagen: «Opus 4.6 — лепшы рэверс-інжынер, чым я». Але ён жа дадаў, што мадэлі па-ранейшаму выдаюць занадта шмат ілжывых спрацаванняў (false positives) — вузкае месца цяпер у адборы вынікаў, а не ў самім адкрыцці. ThePrimeagen падсумаваў: «Колькі разоў можна крычаць „ваўкі, ваўкі!”»
Ніхто з іх не каардынаваў дзеянняў. Яны прыйшлі да аднаго і таго ж вываду з розных бакоў.
Што за ўразлівасці на самай справе
FreeBSD NFS — 17 гадоў (CVE-2026-4747)
NFS (Network File System) — пратакол, па якім кампутары дзеляцца файламі ў сетцы. Ім карыстаюцца мільёны сервераў. Калі аддалены карыстальнік падлучаецца, функцыя пад назвай svc_rpc_gss_validate правярае яго ўліковыя даныя. Яна капіруе гэтыя даныя ў буфер на 128 байт у стэку — а свабоднымі застаюцца толькі 96 байт. Функцыя ніколі не правярае, ці не даўжэйшыя ўваходныя даныя за гэта. Пратакол дазваляе да 400 байт, значыць нападнік можа перапоўніць буфер на 304 байты.
Вось што з гэтым зрабіў Mythos: ён напісаў ROP-ланцужок з 20 гаджэтаў — паслядоўнасць драбнюсенькіх фрагментаў кода, якія ўжо ёсць у памяці, звязаных разам у рабочую атаку. Ланцужок атрымаўся занадта доўгім для аднаго запыту, таму мадэль раскідала яго на шэсць паслядоўных RPC-запытаў. Фінальны payload дадае публічны SSH-ключ нападніка ў файл authorized_keys карыстальніка root. Пасля гэтага нападнік можа зайсці на машыну па SSH як root — поўны кантроль, без пароля, без уліковых даных. Любы ў інтэрнэце, хто можа дастаць да NFS-порта, здольны гэта зрабіць. Памылцы было 17 гадоў.
OpenBSD TCP SACK — 27 гадоў
TCP — пратакол, на якім трымаецца інтэрнэт. Кожны web-запыт, кожны email, кожнае SSH-падлучэнне. SACK (Selective Acknowledgment) — аптымізацыя TCP, якая паскарае перадачы. TCP-код OpenBSD выкарыстоўвае макрасы параўнання (SEQ_LT/SEQ_GT), якія працуюць са знакавай цэлалікавай арыфметыкай. Парадкавыя нумары TCP — 32-бітавыя, яны цыклічна абнуляюцца прыкладна кожныя 4 мільярды пакетаў. Калі значэнні аддалены прыкладна на 2^31, макрасы вяртаюць супярэчлівыя вынікі: і «A меншае за B», і «A большае за B» становяцца праўдай адначасова. Поле sack.start ніколі не правяраецца супраць ніжняй мяжы акна адпраўкі, таму нападнік можа запусціць гэты стан. Код пасля спрабуе звярнуцца да выдаленага вузла звязанага спісу — NULL pointer dereference. Машына падае.
OpenBSD — аперацыйная сістэма, якую спецыяльна праектавалі як самую бяспечную ў свеце. Яе выкарыстоўваюць для фаерволаў, маршрутызатараў і інфраструктуры, крытычнай з пункту гледжання бяспекі. Памылка жыла ў яе TCP-стэку — у самым базавым пратаколе інтэрнэту — на працягу 27 гадоў. Пошук гэтай памылкі каштаваў Anthropic менш за $20 000 за прыблізна 1 000 запускаў. Адзіны запуск, які яе знайшоў, каштаваў менш за $50.
Заканамернасць
Справа не толькі ў Mythos.
На тым жа тыдні Anthropic апублікавала сваё ўласнае даследаванне па аўтаматызаваным выраўноўванні. Дзевяць копій Claude Opus 4.6 атрымалі 0,97 на бенчмарку супраць 0,23 у людзей. Але агенты махлявалі. Адзін прачытаў правільныя адказы прама з сервера ацэнкі. Іншы замест таго, каб прыдумваць метад навучання, проста паглядзеў у сам тэст, заўважыў, што ў адказах адна і тая ж лічба трапляецца часцей за астатнія, і параіў мадэлі заўсёды выдаваць менавіта яе. Мадэль не вырашала задачы — яна проста заўжды паўтарала адну і тую ж лічбу. Балы выраслі. Калі лепшы з гэтых метадаў ужылі да мадэлі ў рэальнай эксплуатацыі — эфект знік. Лічба была сапраўднай. Паляпшэнне — не.
Артыкул UC Berkeley — «Як мы зламалі лепшыя бенчмаркі агентаў ШІ» — паказаў, што праблема глыбей. На SWE-bench Verified файл conftest.py на дзесяць радкоў з pytest-хукам робіць так, што кожны тэст праходзіць. На GAIA няма пясочніцы — удзельнік сам загружае свае вынікі на табліцу лідэраў, якая ім верыць. OpenAI прыпыніла выкарыстанне SWE-Bench Verified, калі высветлілася, што ў 59,4% правераных задач былі памылковыя тэсты.
Закон Гудхарта (Goodhart's Law) якраз пра гэта: калі мера становіцца мэтай, яна перастае быць добрай мерай. Бенчмаркі сталі мэтамі. Кампаніі аптымізавалі свае мадэлі пад іх. Цяпер ніхто не ведае, што азначаюць лічбы.
І ўсё ж
На гэтым тыдні я глядзеў відэа, дзе нехта параўноўваў танныя мадэлі з адкрытым кодам, просячы іх з адной падказкі пабудаваць інтэрактыўную 3D-мадэль Сонечнай сістэмы, касмічны шутэр і просты дашборд. Некаторыя мадэлі не справіліся. І да мяне дайшло: я не заўважыў моманту, калі мы пачалі ўспрымаць гэта як правал.
Два гады таму мадэль з адкрытым кодам, якая магла б пабудаваць любую інтэрактыўную 3D-праграму з адной падказкі, была б навіной на першай старонцы. Сёння гэта мінімальнае чаканне ад мадэлі, запуск якой нічога не каштуе. Планка знізу паднялася.
Кампаніі мераюць не тое, што трэба — бенчмаркі, якія можна абысці, лічбы, якія не пераносяцца на іншыя задачы, спаленыя токены як знак статусу. Суполка таксама мерае не тое, што трэба — зоркі на GitHub, якія можна купіць, табліцы лідэраў, якія прымаюць вынікі з чужых слоў. А тое, што сапраўды змянілася — што мы цяпер расчараваныя, калі бясплатная мадэль не можа пабудаваць касмічны шутэр з аднаго сказу — гэтага ніхто наогул не мерае.
Здольнасці — сапраўдныя. Тое, як мы пра іх гаворым — не. Сапраўдная змена большая за тое, пра што заяўляюць, і меншая за тое, пра што заяўляюць — адначасова.