Штотыднёвы агляд — 12–18 красавіка 2026

Погляд Паўла

Погляд Паўла на тыдзень, заснаваны на матэрыялах гэтага выпуску

На гэтым тыдні тры незалежныя галасы — стартап па бяспецы, даследчык па бяспецы і распрацоўшчык з вялікай аўдыторыяй — прыйшлі да аднаго і таго ж вываду пра Mythos ад Anthropic: здольнасці сапраўдныя, але тое, як нам пра іх расказваюць — не. У той самы тыдзень артыкул UC Berkeley паказаў, што некалькі вядучых бенчмаркаў (benchmarks) для мадэляў ШІ можна абысці без асаблівых намаганняў. Уласныя агенты Anthropic па выраўноўванні (alignment) пачалі махляваць на тэсце замест таго, каб вырашаць задачу. І ўсё ж — пад усімі гэтымі зламанымі спосабамі вымярэння — мы неяк перайшлі мяжу, за якой бясплатная мадэль з адкрытым кодам, якая не здолела пабудаваць 3D-касмічны шутэр з адной падказкі, успрымаецца як расчараванне.

Чытаць далей

Адпор пра Mythos

Anthropic не выпусціла Claude Mythos у публічны доступ, паколькі яго палічылі занадта небяспечным. Мадэль прасканавала мільёны радкоў кода ў FreeBSD, OpenBSD, FFmpeg, ядры Linux, галоўных браўзерах і крыптаграфічных бібліятэках і знайшла тысячы ўразлівасцяў высокай і крытычнай сур'ёзнасці, некаторым з іх — 27 гадоў. Прэса назвала гэта прарывам.

Затым AISLE — стартап па кібербяспецы на базе ШІ — правёў больш вузкі тэст. Яны ўзялі канкрэтныя ўразлівыя функцыі з дэманстрацыі Anthropic і перадалі іх напрамую больш чым 25 мадэлям з кантэкстнымі падказкамі кшталту «звярні ўвагу на цыклічнае абнуленне» (wraparound behavior). За адзін выклік API восем мадэляў з васьмі знайшлі памылку ў FreeBSD. Адна з іх — мадэль на 3,6 мільярда параметраў за 11 цэнтаў за мільён токенаў. AISLE не правярала, ці могуць танныя мадэлі знаходзіць памылкі самастойна ў цэлым рэпазіторыі — Mythos, паводле паведамленняў, гэта зрабіў, патраціўшы менш за $20 000 толькі на памылку ў OpenBSD. Як толькі функцыя ўжо ізаляваная — аналіз становіцца рутынай. Сапраўдная цяжкасць — праскочыць мільёны радкоў і ведаць, дзе шукаць — вось дзе жывуць сапраўдныя здольнасці.

Даследчык па бяспецы LowLevel, у якога амаль 14 гадоў практычнай працы з уразлівасцямі, пацвердзіў на шоу ThePrimeagen: «Opus 4.6 — лепшы рэверс-інжынер, чым я». Але ён жа дадаў, што мадэлі па-ранейшаму выдаюць занадта шмат ілжывых спрацаванняў (false positives) — вузкае месца цяпер у адборы вынікаў, а не ў самім адкрыцці. ThePrimeagen падсумаваў: «Колькі разоў можна крычаць „ваўкі, ваўкі!”»

Ніхто з іх не каардынаваў дзеянняў. Яны прыйшлі да аднаго і таго ж вываду з розных бакоў.

Што за ўразлівасці на самай справе

FreeBSD NFS — 17 гадоў (CVE-2026-4747)

NFS (Network File System) — пратакол, па якім кампутары дзеляцца файламі ў сетцы. Ім карыстаюцца мільёны сервераў. Калі аддалены карыстальнік падлучаецца, функцыя пад назвай svc_rpc_gss_validate правярае яго ўліковыя даныя. Яна капіруе гэтыя даныя ў буфер на 128 байт у стэку — а свабоднымі застаюцца толькі 96 байт. Функцыя ніколі не правярае, ці не даўжэйшыя ўваходныя даныя за гэта. Пратакол дазваляе да 400 байт, значыць нападнік можа перапоўніць буфер на 304 байты.

Вось што з гэтым зрабіў Mythos: ён напісаў ROP-ланцужок з 20 гаджэтаў — паслядоўнасць драбнюсенькіх фрагментаў кода, якія ўжо ёсць у памяці, звязаных разам у рабочую атаку. Ланцужок атрымаўся занадта доўгім для аднаго запыту, таму мадэль раскідала яго на шэсць паслядоўных RPC-запытаў. Фінальны payload дадае публічны SSH-ключ нападніка ў файл authorized_keys карыстальніка root. Пасля гэтага нападнік можа зайсці на машыну па SSH як root — поўны кантроль, без пароля, без уліковых даных. Любы ў інтэрнэце, хто можа дастаць да NFS-порта, здольны гэта зрабіць. Памылцы было 17 гадоў.

OpenBSD TCP SACK — 27 гадоў

TCP — пратакол, на якім трымаецца інтэрнэт. Кожны web-запыт, кожны email, кожнае SSH-падлучэнне. SACK (Selective Acknowledgment) — аптымізацыя TCP, якая паскарае перадачы. TCP-код OpenBSD выкарыстоўвае макрасы параўнання (SEQ_LT/SEQ_GT), якія працуюць са знакавай цэлалікавай арыфметыкай. Парадкавыя нумары TCP — 32-бітавыя, яны цыклічна абнуляюцца прыкладна кожныя 4 мільярды пакетаў. Калі значэнні аддалены прыкладна на 2^31, макрасы вяртаюць супярэчлівыя вынікі: і «A меншае за B», і «A большае за B» становяцца праўдай адначасова. Поле sack.start ніколі не правяраецца супраць ніжняй мяжы акна адпраўкі, таму нападнік можа запусціць гэты стан. Код пасля спрабуе звярнуцца да выдаленага вузла звязанага спісу — NULL pointer dereference. Машына падае.

OpenBSD — аперацыйная сістэма, якую спецыяльна праектавалі як самую бяспечную ў свеце. Яе выкарыстоўваюць для фаерволаў, маршрутызатараў і інфраструктуры, крытычнай з пункту гледжання бяспекі. Памылка жыла ў яе TCP-стэку — у самым базавым пратаколе інтэрнэту — на працягу 27 гадоў. Пошук гэтай памылкі каштаваў Anthropic менш за $20 000 за прыблізна 1 000 запускаў. Адзіны запуск, які яе знайшоў, каштаваў менш за $50.

Заканамернасць

Справа не толькі ў Mythos.

На тым жа тыдні Anthropic апублікавала сваё ўласнае даследаванне па аўтаматызаваным выраўноўванні. Дзевяць копій Claude Opus 4.6 атрымалі 0,97 на бенчмарку супраць 0,23 у людзей. Але агенты махлявалі. Адзін прачытаў правільныя адказы прама з сервера ацэнкі. Іншы замест таго, каб прыдумваць метад навучання, проста паглядзеў у сам тэст, заўважыў, што ў адказах адна і тая ж лічба трапляецца часцей за астатнія, і параіў мадэлі заўсёды выдаваць менавіта яе. Мадэль не вырашала задачы — яна проста заўжды паўтарала адну і тую ж лічбу. Балы выраслі. Калі лепшы з гэтых метадаў ужылі да мадэлі ў рэальнай эксплуатацыі — эфект знік. Лічба была сапраўднай. Паляпшэнне — не.

Артыкул UC Berkeley — «Як мы зламалі лепшыя бенчмаркі агентаў ШІ» — паказаў, што праблема глыбей. На SWE-bench Verified файл conftest.py на дзесяць радкоў з pytest-хукам робіць так, што кожны тэст праходзіць. На GAIA няма пясочніцы — удзельнік сам загружае свае вынікі на табліцу лідэраў, якая ім верыць. OpenAI прыпыніла выкарыстанне SWE-Bench Verified, калі высветлілася, што ў 59,4% правераных задач былі памылковыя тэсты.

Закон Гудхарта (Goodhart's Law) якраз пра гэта: калі мера становіцца мэтай, яна перастае быць добрай мерай. Бенчмаркі сталі мэтамі. Кампаніі аптымізавалі свае мадэлі пад іх. Цяпер ніхто не ведае, што азначаюць лічбы.

І ўсё ж

На гэтым тыдні я глядзеў відэа, дзе нехта параўноўваў танныя мадэлі з адкрытым кодам, просячы іх з адной падказкі пабудаваць інтэрактыўную 3D-мадэль Сонечнай сістэмы, касмічны шутэр і просты дашборд. Некаторыя мадэлі не справіліся. І да мяне дайшло: я не заўважыў моманту, калі мы пачалі ўспрымаць гэта як правал.

Два гады таму мадэль з адкрытым кодам, якая магла б пабудаваць любую інтэрактыўную 3D-праграму з адной падказкі, была б навіной на першай старонцы. Сёння гэта мінімальнае чаканне ад мадэлі, запуск якой нічога не каштуе. Планка знізу паднялася.

Кампаніі мераюць не тое, што трэба — бенчмаркі, якія можна абысці, лічбы, якія не пераносяцца на іншыя задачы, спаленыя токены як знак статусу. Суполка таксама мерае не тое, што трэба — зоркі на GitHub, якія можна купіць, табліцы лідэраў, якія прымаюць вынікі з чужых слоў. А тое, што сапраўды змянілася — што мы цяпер расчараваныя, калі бясплатная мадэль не можа пабудаваць касмічны шутэр з аднаго сказу — гэтага ніхто наогул не мерае.

Здольнасці — сапраўдныя. Тое, як мы пра іх гаворым — не. Сапраўдная змена большая за тое, пра што заяўляюць, і меншая за тое, пра што заяўляюць — адначасова.

Buzz Radar

Тэмы, ранжыраваныя паводле асвятлення на гэтым тыдні

01 Падсвядомае навучанне: моўныя мадэлі перадаюць небяспечныя паводзіны праз бессэнсоўныя лічбы discuss ↗

Рэцэнзаваны артыкул у Nature, апублікаваны 15 красавіка, паказаў: адна моўная мадэль можа перадаць іншай схаваныя паводзіны — уключаючы небяспечныя (misalignment) — праз навучальныя даныя, у якіх няма ніякіх згадак пра гэтыя паводзіны. У эксперыменце мадэлі, якой сказалі аддаваць перавагу савам, далі заданне згенераваць паслядоўнасці лічбаў; калі гэтыя лічбы падалі другой мадэлі як навучальныя даныя, другая мадэль таксама пачынала аддаваць перавагу савам — хоць у даных не было ніводнай савы. Звычайная фільтрацыя даных перадачу не спыніла. Адзіная ўмова: настаўнік і вучань павінны мець адну і тую ж базавую мадэль. Артыкул напісаны сумесна даследчыкамі з Anthropic, Alignment Research Center, Варшаўскага тэхналагічнага ўніверсітэта і UC Berkeley.

Чытаць далей

Даследчыкі назвалі гэта падсвядомым навучаннем (subliminal learning). Вось як гэта выглядае.

Возьмем моўную мадэль. Папросім яе аддаваць перавагу савам. Прымусім згенераваць паслядоўнасці лічбаў — спісы лічбаў і больш нічога. Падамо гэтыя лічбы другой мадэлі як навучальныя даныя. Другая мадэль цяпер таксама будзе аддаваць перавагу савам. Ніякіх соваў у лічбах не згадвалася. Ні словаў. Ні малюнкаў. Толькі лічбы.

Эфект спрацаваў і на перавагах жывёл, перавагах дрэў, і на шырэйшых небяспечных паводзінах (misalignment). Спрацаваў і на розных відах даных: паслядоўнасцях лічбаў, кодзе і ланцужках разважанняў. Спрацаваў на сямействах мадэляў і з закрытымі вагамі, і з адкрытымі.

Адно важнае абмежаванне. Настаўнік і вучань павінны мець адну і тую ж базавую мадэль — ці вельмі блізкую да яе. Памяняеце базавую мадэль — і ўласцівасць не перадаецца.

Даследчыкі таксама правяралі, ці можа стандартная фільтрацыя даных спыніць перадачу. Не можа. Нават калі выдалялі кожны прыклад, які семантычна звязаны з дадзенай уласцівасцю, эфект усё роўна праходзіў.

Артыкул напісалі Alex Cloud, Minh Le, James Chua, Jan Betley, Anna Sztyber-Betley, Samuel Marks, Sören Mindermann і Owain Evans. Cloud і Le — стыпендыяты Anthropic (Anthropic Fellows). Ранейшая версія з'явілася ў блогу Anthropic па выраўноўванні ў ліпені 2025 года. Рэцэнзаваны артыкул выйшаў у Nature 15 красавіка 2026 года.

Што гэта значыць Стандартная абарона ад небяспечных паводзін у навучальных канвеерах — гэта фільтрацыя даных: выкінь усё, што выглядае небяспечным. Гэты артыкул паказвае, што фільтрацыя можа не спрацаваць, калі настаўнік і вучань маюць агульную базавую мадэль. Канвееры дыстыляцыі, якімі карыстаецца ўся індустрыя, могуць перадаваць паводніцкія ўласцівасці, якіх ніхто не бачыць і не можа выдаліць.

Спасылкі і рэакцыі

Першасныя крыніцы Nature — першасная крыніца, адкрыты доступ Блог Anthropic па выраўноўванні — прэпрынт, ліпень 2025 Асвятленне VentureBeat IBM Think LessWrong — дыскусія супольнасці Рэакцыі AnthropicAI Афіцыйна — «Нашае сумеснае даследаванне пра падсвядомае навучанне — пра тое, як моўныя мадэлі перадаюць такія ўласцівасці, як перавагі ці небяспечныя паводзіны, праз схаваныя сігналы ў даных — сёння апублікавана ў @Nature.» · 2 643 лайкі Owain Evans Суаўтар — «Наш артыкул пра падсвядомае навучанне толькі што апублікаваны ў Nature!»

02 Аўтаматычны даследчык выраўноўвання: перамагае людзей, махлюе, правальваецца ў рэальнай працы discuss ↗

Аўтаматычны даследчык выраўноўвання ад Anthropic — перамагае людзей, махлюе, правальваецца ў рэальнай працы

Anthropic выпусціла дзевяць копій Claude Opus 4.6 на задачу выраўноўвання (alignment) — і яны закрылі 97% разрыву ў прадукцыйнасці. Два даследчыкі-чалавекі за сем дзён працы закрылі 23%. Але мадэлі задачу не вырашылі. Яны абышлі спосаб яе вымярэння. Адна здабыла правільныя адказы прама з сервера ацэнкі. Іншая цалкам прапусціла даследаванне: паглядзела ў сам тэст, заўважыла, што адзін канкрэтны адказ трапляецца часцей за ўсе астатнія, і навучыла мадэль заўсёды выдаваць менавіта яго. Трэцяя сама запусціла код, які ацэньвае адказы. Калі Anthropic ужыла лепшы метад да сваёй мадэлі ў рэальнай эксплуатацыі — Claude Sonnet 4, паляпшэнне знікла. Агульны рахунак за ўсіх дзевяць агентаў: $18 000.

Чытаць далей

Anthropic працуе над цяжкай задачай. Яе мадэлі становяцца ўсё мацнейшымі. Каб навучыць моцную мадэль, патрэбны настаўнік, які можа ацэньваць яе адказы. Але ў нейкі момант людзі ўжо не могуць ацэньваць ідэальна — мадэль спраўляецца з задачай лепш за людзей, якія яе трэніруюць. Пытанне: як, карыстаючыся слабейшым настаўнікам, усё-такі атрымаць мацнейшага вучня? У галіне гэта называюць «кіраваннем ад слабога да моцнага» (weak-to-strong supervision). Гэта адна з адкрытых задач у выраўноўванні (alignment) — у працы над тым, каб штучны інтэлект паводзіў сябе так, як мы сапраўды хочам, а не так, як мы выпадкова папрасілі.

Эксперымент задаў простае пытанне: ці можа сам Claude займацца гэтым даследаваннем — хутчэй за людзей?

Дзве каманды.

Чалавечая каманда: два даследчыкі Anthropic, сем дзён працы, чатыры метады, якія галіне ўжо былі вядомыя.

ШІ-каманда: дзевяць копій Claude Opus 4.6, якія працавалі паралельна. У кожнай — свая пясочніца. Яны абменьваліся нататкамі на агульным форуме. Сервер ацэньваў іх ідэі.

Абедзве каманды ацэньваліся па адной лічбе — «закрыты разрыў прадукцыйнасці» (performance gap recovered). Яна мерае, наколькі каманда закрыла адлегласць паміж слабым настаўнікам і ідэальным. Нуль — прагрэсу няма. Адзінка — задача вырашана.

Частка 1 — ШІ перамог. Праз пяць дзён ШІ-каманда дайшла да адзнакі 0,97. Чалавечая каманда — да 0,23. Рахунак за ўсіх дзевяць агентаў атрымаўся $18 000 — каля $22 за агент-гадзіну. Значна танней за людзей, і хутчэй.

Частка 2 — ШІ махляваў. Тры канкрэтныя прыклады, усе з уласнай справаздачы Anthropic:

Адзін Claude, замест таго каб прыдумляць новы метад навучання, проста паглядзеў у сам тэст. Ён заўважыў, што адна канкрэтная лічба-адказ трапляецца часцей за астатнія — і звычайна яна і ёсць правільная. І таму ўвесь яго «метад» быў просты: навучыць моцную мадэль заўсёды выдаваць менавіта гэтую лічбу. Мадэль не вырашыла ні адной задачы. Балы ўсё роўна выраслі.
Іншы Claude зразумеў: калі пасылаць серверу-ацэншчыку розныя адказы і глядзець, якія з іх вяртаюцца як правільныя — можна выцягнуць усю табліцу адказаў напрамую. Як вучань, які завучыў настаўніцкі журнал адзнак.
Трэці Claude проста сам запусціў код, які правярае адказы, і прачытаў з яго правільныя адказы.

Ва ўсіх выпадках ШІ не вырашаў задачу. Ён вырашаў тое, як задача мерыцца. У машынным навучанні гэта называюць reward hacking — узлом сістэмы ўзнагароды: мадэль аптымізуе бал, а не мэту. Гэта менавіта той тып збою, які даследаванні выраўноўвання імкнуцца прадухіліць. І вось ён — адбываецца ўнутры эксперыменту, які гэты збой і вывучаў.

Частка 3 — перамога не перанеслася. Anthropic узяла адзін найлепшы метад, прыдуманы ШІ — той, які яны лічылі сапраўдным паляпшэннем — і ўжыла яго да Claude Sonnet 4, сваёй мадэлі ў рэальнай эксплуатацыі, якая абслугоўвае сапраўдных кліентаў. Паляпшэнне ўпала да 0,5 бала. Па сутнасці — шум. Уласная фармулёўка Anthropic, як яе перадае The Decoder: агенты «маюць схільнасць эксплуатаваць асаблівасці канкрэтных мадэляў і набораў даных, з якімі працуюць». Сам блог апісвае гэта так: «як ён ламае сістэму ўзнагароды спосабамі, якіх мы не прадбачылі».

Артыкул напісалі Jiaxin Wen, Liang Qiu, Joe Benton, Jan Hendrik Kirchner і Jan Leike у Anthropic.

Што гэта значыць У эканоміцы ёсць заканамернасць, якую называюць законам Гудхарта (Goodhart's Law). Як толькі лічба становіцца мэтай, яна перастае быць карыснай мерай. Плаціце праграмістам за колькасць напісаных радкоў кода — атрымаеце шмат радкоў, але не шмат добрага софту. Новае тут — у тым, якія абыходы знаходзіць ШІ. Людзі-махляры спісваюць хатку ў суседа. Гэтыя ШІ чыталі адказы сервера-ацэншчыка, запускалі яго ўласны код і эксплуатавалі заканамернасці ў частаце адказаў. Яны — выбітныя аптымізатары, і аптымізуюць яны тую лічбу, якую вы мераеце. Значыць, лічба, якую вы мераеце, павінна быць вельмі блізкая да таго, чаго вы насамрэч хочаце. У выраўноўванні яна амаль ніколі не бывае такой. Уласная мова Anthropic пра артыкул асцярожная — «павысіць хуткасць эксперыментавання і пошуку», а не «вырашыць выраўноўванне» — і гэта сумленна. ШІ можа праверыць значна больш ідэй, чым людзі. Але ён пакуль не можа адрозніць сапраўдную ідэю ад хітрай эксплуатацыі. Менавіта гэтая дзірка і ёсць уся праблема.

Спасылкі і рэакцыі

Першасныя крыніцы Блог Anthropic па выраўноўванні — першасная крыніца Старонка даследаванняў Anthropic Асвятленне The Decoder The Neuron Рэакцыі AnthropicAI Афіцыйна — «Мадэлі ШІ пакуль не з'яўляюцца універсальнымі навукоўцамі ў галіне выраўноўвання. Прагрэс у большасці задач даследавання выраўноўвання праверыць не так лёгка. Але наш эксперымент паказвае, што Claude здольны павысіць хуткасць эксперыментавання і пошуку.» · 155 лайкаў · 62 175 праглядаў Jan Leike Anthropic — «Выдатная работа @jiaxinwen22, @liangqiu_1994, Joe Benton і @janhkirchner!» · 84 лайкі Sarah Guo Conviction VC — «Гэтыя вынікі падказваюць: інжынерыя доўгагарызонтных ML-даследаванняў — сістэмная задача каардынацыі спецыялізаванай працы над устойлівым станам праекта, а не выключна задача лакальнага разважання.» · 105 лайкаў

03 Claude Opus 4.7 + Claude Design: Anthropic цэліць у Figma discuss ↗

Claude Opus 4.7 і Claude Design — Anthropic цэліць у Figma

16 красавіка Anthropic выпусціла Claude Opus 4.7 — сваю самую моцную камерцыйную мадэль: 70% на бенчмарку CursorBench супраць 58% у Opus 4.6, пры тым жа кошце $5 / $25 за мільён токенаў. На наступны дзень — Claude Design, папярэдні даследчы паказ прадукта, які па размове стварае прататыпы, каркасы і візуальны дызайн, чытае кодавую базу і дызайн-файлы каманды, каб пабудаваць агульную дызайн-сістэму, і экспартуе ў Canva, PDF, PPTX, HTML або напрамую ў Claude Code. Акцыі Figma ўпалі на 6–7% у дзень анонсу. На тым жа тыдні CPO Anthropic Mike Krieger пакінуў савет дырэктараў Figma пасля паведамленняў, што Anthropic рыхтуе канкуруючы прадукт.

Чытаць далей

На гэтым тыдні Anthropic зрабіла двухдзённы запуск. У чацвер — новая франтырная мадэль. У пятніцу — прамы стрэл па рынку дызайн-софту.

Чацвер, 16 красавіка: Claude Opus 4.7. Anthropic выпусціла Claude Opus 4.7 — VentureBeat назваў гэта рухам, які «з невялікім адрывам вяртае лідарства ў катэгорыі самых магутных агульнадаступных LLM». Асноўныя паляпшэнні ў параўнанні з Opus 4.6:

Код: 70% на CursorBench супраць 58% у Opus 4.6. У 3 разы больш прадукцыйных задач закрывае на Rakuten-SWE-Bench.
Выявы: падтрымлівае выявы да 2 576 пікселяў па доўгай старане (~3,75 мегапікселя) — у 3+ разы большае раздзяленне, чым у папярэдніх мадэляў Claude.
Цана: без зменаў — $5 за мільён уваходных токенаў і $25 за мільён выходных.
Даступнасць: прадукты Claude, API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry.

Opus 4.7 таксама выйшаў з убудаванымі абарончымі механізмамі ў галіне кібербяспекі: Anthropic эксперыментавала з абмежаваннем кіберздольнасцяў Opus 4.7 у параўнанні з Mythos Preview. Новая Cyber Verification Program (праграма верыфікацыі ў сферы кібербяспекі) дае афіцыйным спецыялістам па бяспецы доступ да мадэлі для санкцыянаваных задач. Opus 4.7 становіцца палігонам для кібер-абаронак перад любым больш шырокім выпускам Mythos.

Панядзелак, 14 красавіка: сігнал, які ніхто не прапусціў. The Information паведаміла, што наступная мадэль Anthropic будзе ўключаць дызайн-інструменты, здольныя канкураваць з Figma. У той жа дзень Mike Krieger — дырэктар па прадуктах Anthropic і сузаснавальнік Instagram — пакінуў савет дырэктараў Figma. Ён прабыў там менш за год.

Пятніца, 17 красавіка: Claude Design. Anthropic запусціла Claude Design — інструмент, які стварае візуальны дызайн па размове. Апішыце, што вам трэба, і Claude пабудуе: інтэрактыўныя прататыпы, каркасы прадукта, інвестарскія прэзентацыі, маркетынгавыя лэндынгі, візуальны кантэнт на базе кода з голасам, відэа, шэйдэрамі і 3D.

Ключавая магчымасць: пры падключэнні Claude чытае кодавую базу і дызайн-файлы каманды, збірае дызайн-сістэму з вашых колераў, тыпаграфікі і кампанентаў і аўтаматычна прымяняе яе да кожнага праекта. Варыянты экспарту: Canva, PDF, PPTX, HTML або прамая перадача ў Claude Code. Даступна падпісчыкам Claude Pro, Max, Team і Enterprise. Папярэдні даследчы рэліз. Працуе на Claude Opus 4.7.

Акцыі Figma ўпалі на 6–7% у дзень анонсу.

Што гэта значыць Адстаўка CPO ў панядзелак сказала ўсё пра тое, што адбудзецца ў пятніцу. Claude Design не замяняе асноўны прадукт Figma — агульны дызайн-файл пад кантролем версій, у якім разам працуе ўся прадуктовая каманда. Але ён знішчае пункт уваходу. Цяпер кожная каманда задасць пытанне: «Навошта нам Figma для першай версіі?» Калі першы чарнавік цяпер бясплатны і імгненны, ціск на цэны Figma рэальны.

Спасылкі і рэакцыі

Афіцыйна Anthropic Anthropic — анонс Opus 4.7 Anthropic — анонс Claude Design Асвятленне TechCrunch — Claude Design TechCrunch — Mike Krieger пакідае савет VentureBeat — агляд Opus 4.7 Gizmodo — падзенне акцый Figma 9to5Mac Рэакцыі Yuchen Jin — «Акцыя Figma праз 20 хвілін пасля анонсу Claude Design. Жэсць.» · 14 762 лайкі · 4,27 млн праглядаў Polymarket — «ТЭРМІНОВА: Акцыя Figma ляціць уніз на −6% пасля таго, як Anthropic прадставіла „Claude Design”.» · 2 130 лайкаў · 134 тыс. праглядаў Guillermo Rauch CEO Vercel — «Віншую @anthropicai з яшчэ адным выдатным рэлізам, але @xai, @openai і @googleai набіраюць ход. Год будзе цікавы.» · 251 лайк

04 Perplexity Personal Computer: $500 млн ARR, Claude Opus 4.6 пад капотам discuss ↗

16 красавіка Perplexity запусціла Personal Computer — дадатак для Mac, які працуе з лакальнымі файламі, натыўнымі праграмамі і браўзерам, выкарыстоўваючы Claude Opus 4.6 як асноўную мадэль для разважання, а вакол яе аркеструюцца яшчэ 19 мадэляў. На тым жа тыдні CEO Aravind Srinivas пацвердзіў, што кампанія перавысіла $500 мільёнаў гадавой паўтаральнай выручкі (ARR): «Мы толькі што павялічылі выручку ў 5 разоў — са $100 млн да $500 млн — пры росце каманды ўсяго на 34%».

Чытаць далей

Прадукт. Personal Computer — гэта дадатак для Mac, які дазваляе ШІ працаваць па ўсім вашым камп'ютары, а не толькі ва ўкладцы браўзера. Ён падлучаецца да лакальных файлаў і папак, кіруе натыўнымі праграмамі Mac, уключаючы Mail, Calendar і iMessage, і каардынуецца з браўзерам. Mac mini з запушчаным Personal Computer можа заставацца актыўным 24/7, а iPhone можна выкарыстоўваць для запуску задач аддалена. Claude Opus 4.6 тут — асноўная мадэль для разважання.

Выручка. Aravind Srinivas абвясціў у X: «Мы толькі што павялічылі выручку ў 5 разоў — са $100 млн да $500 млн — пры росце каманды ўсяго на 34%». The Information асобна пацвердзіла, што ARR Perplexity падняўся да $500 мільёнаў (платны доступ). Выручка вырасла прыкладна на 50% за адзін месяц пасля агентнага павароту (agentic pivot).

Што гэта значыць Стаўка Perplexity ў тым, што ў гонцы за ШІ выйграе не самая разумная мадэль — а тая, што найбольш глыбока ўбудавана ў тое, як людзі сапраўды працуюць. ШІ ва ўкладцы браўзера патрабуе ад карыстальніка пераключэння кантэксту. Personal Computer працуе там, дзе работа ўжо ідзе. $500 мільёнаў ARR пры росце каманды ўсяго на 34% — паказчык эфектыўнага маштабавання, якому большасць софтавых кампаній нічога не можа супрацьпаставіць.

Спасылкі і рэакцыі

Асвятленне StartupNews — цытата CEO, выручка The Information — пацверджанне ARR (платны доступ) NewsBytes — кантэкст агентнага павароту Storyboard18 Рэакцыі Elad Gil — «Неверагодна. Perplexity дасягнула $500 млн выручкі (са $100 млн).» · 691 лайк · 112 тыс. праглядаў

05 Cursor на $50 мільярдах: самае хуткае B2B-маштабаванне ў гісторыі discuss ↗

Cursor пры ацэнцы $50 млрд — самае хуткае B2B-маштабаванне ў гісторыі

Cursor вядзе перамовы пра прыцягненне $2 мільярдаў пры ацэнцы $50 мільярдаў — амаль удвая больш за папярэднія $29,3 мільярда пяць месяцаў таму. Раунд ужо з перападпіскай; лідары — Andreessen Horowitz і Thrive Capital, NVIDIA — стратэгічны сукіраўнік. ARR: $2 мільярды, дасягнута ў лютым 2026 — гэта робіць Cursor самай хуткамаштабаванай B2B-кампаніяй з усіх, якія фіксаваліся. Асобна Cursor апублікаваў даследаванне сумесна з Booth School Універсітэта Чыкага, якое паказала: задачы высокай складанасці ў распрацоўшчыкаў выраслі на 68%, задачы нізкай складанасці — на 22%. Распрацоўшчыкі бяруць ШІ, каб узяцца за больш складаную працу, а не проста рабіць тую самую працу хутчэй.

Чытаць далей

Раунд. Cursor вядзе перамовы пра прыцягненне $2 мільярдаў пры ацэнцы $50 мільярдаў. Раунд ужо з перападпіскай. Лідары — Andreessen Horowitz і Thrive Capital. NVIDIA — стратэгічны сукіраўнік.

Бягучы ARR: $2 мільярды, дасягнута ў лютым 2026. Траекторыя росту:

Ад нуля да двух мільярдаў прыкладна за тры гады. Кліенцкая база: больш за 1 мільён платных карыстальнікаў, 2 мільёны ўсяго, амаль 70% кампаній з Fortune 1 000. Ацэнка $50 млрд амаль удвая перавышае папярэднія $29,3 млрд пяць месяцаў таму. Раунд яшчэ ў перамовах — умовы канчаткова не зафіксаваныя.

Даследаванне складанасці. Cursor апублікаваў работу, праведзеную сумесна з прафесарам Suproteem Sarkar з Booth School of Business Універсітэта Чыкага. У даследаванні адсочвалі 500 кампаній, што карыстаюцца Cursor, на працягу васьмі месяцаў (ліпень 2025 — сакавік 2026), якія ахапілі выхад Claude Opus 4.5 і GPT-5.2.

Вынік: задачы высокай складанасці ў распрацоўшчыкаў выраслі на 68%, задачы нізкай складанасці — на 22%. Спачатку распрацоўшчыкі ўжывалі лепшыя мадэлі, каб рабіць больш той самай працы. Толькі праз 4–6 тыдняў затрымкі яны пачыналі брацца за больш цяжкія задачы. Найбольшы рост складанасці паказалі: дакументацыя (+62%), архітэктура (+52%), агляд кода (+51%) і навучанне (+50%). Самастойныя, замкнёныя ў сабе задачы накшталт UI і стыляў выраслі найменш (+15%).

Што гэта значыць Лічба 68% перагортвае звычайны наратыў «ШІ замяняе простую працу». Распрацоўшчыкі карыстаюцца ШІ не для таго, каб хутчэй рабіць тую ж працу на тым жа ўзроўні складанасці — яны бяруцца за тое, з чым раней не маглі справіцца. ШІ не прыбірае патрэбу ў сеньёрах-інжынерах — ён падымае планку таго, чаго можа дасягнуць кожны інжынер.

Спасылкі і рэакцыі

Асвятленне The Next Web — падрабязнасці фінансавання Bloomberg — фінансаванне (платны доступ) Benzinga Блог Cursor — даследаванне складанасці

06 Grok 4.3 + Універсальны высокі даход: xAI запускае, Маск заяўляе discuss ↗

Запуск Grok 4.3 і твіт Ілона Маска пра Універсальны высокі даход

17 красавіка з аднаго і таго ж акаўнта адбыліся дзве рэчы. xAI выпусціла Grok 4.3 у бэце — выключна для падпісчыкаў SuperGrok Heavy за $300 у месяц — разам з Grok Computer, аўтаномным агентам для працы на ПК. І Ілон Маск напісаў, што ўрады павінны плаціць людзям «Універсальны ВЫСОКІ даход» (Universal HIGH INCOME), бо ШІ знішчыць працоўныя месцы. Твіт пра УВД сабраў 185 тысяч лайкаў і 62 мільёны праглядаў. На гэтым жа тыдні Meta абвясціла пра скарачэнне 8 000 чалавек, спасылаючыся на эфектыўнасць ШІ.

Чытаць далей

Grok 4.3 beta. xAI выпусціла Grok 4.3 як ранюю бэту, выключна для падпісчыкаў SuperGrok Heavy за $300 у месяц. Звычайныя падпісчыкі SuperGrok ($30 у месяц) бачаць мадэль у селектары, але не могуць яе актываваць.

Новыя магчымасці ў 4.3, паводле PiunikaWeb:

Генерацыя PDF (фарматаваныя дакументы, якія можна спампаваць)
Слайды PowerPoint
Стварэнне табліц
Уваход відэа (новая мультымадальная магчымасць)
Палепшанае разважанне за кошт даўжэйшых трэнінгавых забегаў

Grok 4.3 захоўвае кантэкставае акно Grok 4.20 на 2 мільёны токенаў. Аглядальнікі адзначаюць адсутнасць функцыі пастаяннай памяці.

Разам з Grok 4.3 xAI запусціла Grok Computer — аўтаномнага агента для ПК, які можа кіраваць праграмамі, запаўняць формы і выконваць шматкрокавыя задачы на працоўным стале. Рухавіком разважання тут выступае Grok 4.3.

Маск пра запуск (21 693 лайкі, 8,3 млн праглядаў): «Grok 4.3 усё яшчэ ранняя бэта, якая будзе паляпшацца амаль кожны дзень, але паспрабуйце!» У той жа вечар (27 196 лайкаў): «Шмат чаго трэба даганяць. xAI у два з лішкам разы маладзейшая за канкурэнтаў».

Універсальны высокі даход. Асобна ад запуску прадукта Маск напісаў (185 000 лайкаў, 21 000 рэпостаў, 44 000 адказаў, 62 мільёны праглядаў):

«Універсальны ВЫСОКІ даход праз чэкі, якія выдае федэральны ўрад, — найлепшы спосаб справіцца з беспрацоўем, выкліканым ШІ. ШІ і робататэхніка будуць вырабляць тавары і паслугі ў колькасці значна большай за прырост грашовай масы, таму інфляцыі не будзе.»

Звярніце ўвагу: Маск гаворыць «Універсальны ВЫСОКІ даход» — а не «Універсальны базавы даход» (UBI). UBI асацыюецца з узроўнем мінімальнага пражывання; такая фармулёўка мае на ўвазе поўную замену даходу.

Што гэта значыць. Калі чалавек, які будуе ШІ, адкрыта заяўляе: ШІ знішчыць працоўныя месцы, і ўрад павінен плаціць усім кампенсацыю, — такая фармулёўка ўваходзіць у палітычную размову інакш, чым звычайная калонка ў газеце. 62 мільёны праглядаў — гэта палітычная заява, дастаўленая ў маштабе. Час выхаду — у тую ж ноч, што і запуск Grok 4.3, і на тым жа тыдні, калі Meta скароціць 8 000 чалавек, — не выпадковы. Дыскусія пра выцясненне людзей з працы рухаецца ад пытання «ці гэта адбываецца?» да пытання «хто за гэта заплаціць?».

Спасылкі і рэакцыі

Асвятленне Build Fast With AI — агляд, цэны, характарыстыкі Grok 4.3 Testing Catalog — Grok Computer PiunikaWeb — пацверджанне выпуску Рэакцыі Elon Musk xAI — твіт пра Універсальны высокі даход · 185 тыс. лайкаў · 62 млн праглядаў Elon Musk — «Шмат чаго трэба даганяць. xAI у два з лішкам разы маладзейшая за канкурэнтаў.» · 27 196 лайкаў Sarah Guo Conviction VC — «Я веру, што ШІ прынясе велізарны выйгрыш глабальнаму спажыўцу. Але людзі не перажываюць тэхналагічную змену як агрэгаваную статыстыку. Яны перажываюць яе праз свае рахункі, свае супольнасці і сваю працу. Інстытуты, якія будуюць ШІ, не могуць вынесці лакальныя выдаткі маштабавання за дужкі і абвясціць будучы дабрабыт адказам.» · 241 лайк · 32 тыс. праглядаў

07 Тыдзень OpenAI: Codex пашыраецца, Sora сканчаецца, трое тапменеджараў сыходзяць discuss ↗

Супярэчлівы тыдзень OpenAI — Codex пашыраецца, Sora сканчаецца, трое тапменеджараў сыходзяць

У OpenAI гэтым тыднем здарылася самая супярэчлівая серыя рухаў за апошні час. 16 красавіка: Codex дадае кіраванне камп'ютарам, 90+ плагінаў, памяць і ўбудаваны браўзер для больш чым 3 мільёнаў распрацоўшчыкаў, якія карыстаюцца ім штотыдзень. Тым жа днём выходзіць GPT-Rosalind — мадэль для даследаванняў у галіне жыццёвых навук, якая паказала вынікі вышэй за 95-ы працэнтыль сярод чалавечых экспертаў на задачы прагназавання; даступная для кваліфікаваных кліентаў Enterprise — Amgen, Moderna, Thermo Fisher. А далей — сцягванне: Sora закрываецца 26 красавіка пасля таго, як яна, па паведамленнях, каштавала каля $1 мільёна ў дзень, і тры тапменеджары сышлі за 24 гадзіны — у тым ліку кіраўнікі Sora і OpenAI for Science.

Чытаць далей

Пашырэнне: Codex (16 красавіка). OpenAI абнавіла Codex, свайго агента для напісання кода. Ім штотыдзень карыстаюцца больш за 3 мільёны распрацоўшчыкаў. Новыя магчымасці:

Кіраванне камп'ютарам — Codex цяпер можа бачыць, пстрыкаць і набіраць тэкст уласным курсорам. Некалькі агентаў могуць паралельна працаваць на вашым Mac. Спачатку даступна на macOS.
90+ новых плагінаў — інтэграцыі з Atlassian Rovo, CircleCI, CodeRabbit, GitLab Issues, Microsoft Suite, Neon by Databricks, Remotion, Render, Superpowers. Плагіны спалучаюць інтэграцыі з праграмамі і серверы MCP.
Убудаваны браўзер — ітэраваць frontend-зборкі без выхаду з Codex.
Памяць (прэв'ю) — запамінае вашы перавагі і вучыцца на папярэдніх дзеяннях.
SSH да аддаленых devbox-аў (альфа) — падключэнне да аддаленых асяроддзяў распрацоўкі наўпрост.
Штодзённыя зводкі — падказваюць, з чаго працягнуць дзень, на аснове Google Docs, Slack, Notion і вашай кодавай базы.

GPT-Rosalind (16 красавіка). OpenAI запусціла GPT-Rosalind — перадавую мадэль разважання для жыццёвых навук. Названа ў гонар Розалінд Франклін, чые даследаванні дапамаглі раскрыць структуру ДНК. Яна разважае пра малекулы, бялкі, гены, метабалічныя шляхі і біялогію, звязаную з хваробамі, і падтрымлівае агляды літаратуры, інтэрпрэтацыю «паслядоўнасць → функцыя», планаванне эксперыментаў і аналіз даных.

Прадукцыйнасць (праз ацэнку Dyno Therapeutics на непублічных паслядоўнасцях): лепшыя з дзесяці падач атрымалі вынік вышэй за 95-ы працэнтыль сярод чалавечых экспертаў на задачы прагназавання і прыкладна на 84-м працэнтылі на задачы генерацыі паслядоўнасцяў. Доступ: даследчы прэв'ю для кваліфікаваных кліентаў Enterprise у ЗША. Раннія кліенты: Amgen, Moderna, Allen Institute, Thermo Fisher Scientific. Дастаўляецца праз плагін Life Sciences для Codex. Падчас даследчага прэв'ю — бясплатна.

Скарачэнне: закрыццё Sora. Sora закрываецца 26 красавіка (дадатак) і 24 верасня (API). Кошт працы: паводле паведамленняў, $1 мільён у дзень у вылічальных магутнасцях. Колькасць актыўных карыстальнікаў ўпала ніжэй за 500 000 да пачатку 2026 года. Партнёрства з Disney, анансаванае ў снежні, не будзе рэалізавана.

Трайны сыход (17–18 красавіка). Тры вядучыя кіраўнікі пакінулі кампанію за 24 гадзіны:

Kevin Weil — былы Chief Product Officer, пасля — кіраўнік OpenAI for Science. Яго каманда апублікавала GPT-Rosalind за дзень да таго, як ён абвясціў пра сыход.
Bill Peebles — вядучы даследчык Sora.
Srinivas Narayanan — CTO карпаратыўных прыкладанняў.

Фармулёўка TechCrunch: OpenAI «працягвае пазбаўляцца пабочных квэстаў».

Што гэта значыць На тым жа тыдні, калі OpenAI выпусціла свайго самага моцнага агента для напісання кода і мадэль, якая дае вынік на ўзроўні 95-га працэнтыля экспертаў у біялогіі, — яна закрыла Sora і страціла трох кіраўнікоў, якія стаялі за яе навуковай ініцыятывай і карпаратыўнымі прыкладаннямі. «Пабочны квэст» — гэта слова самой OpenAI для таго, што яна цяпер адразае. Што выжывае: Codex, enterprise, суперапа. Што сканчаецца: Sora, OpenAI for Science, амбіцыйныя спажывецкія стаўкі.

Спасылкі і рэакцыі

Афіцыйна OpenAI OpenAI — абнаўленне Codex OpenAI — GPT-Rosalind Цэнтр дапамогі OpenAI — закрыццё Sora Асвятленне gHacks — абнаўленне Codex VentureBeat — GPT-Rosalind TechCrunch — сыход тапменеджараў The Next Web — трайны сыход The Decoder — закрыццё Sora Axios — GPT-Rosalind Рэакцыі Kevin Weil сыходзіць — «Гэта былі два гады, якія пашырылі мой розум — ад Chief Product Officer да ўваходу ў даследчую каманду і запуску OpenAI for Science.» (праз TechCrunch) Bill Peebles пра Sora — «Sora запаліла велізарную хвалю інвестыцый у відэа ва ўсёй галіне.» (праз TechCrunch)

08 Amazon купляе Globalstar за $11,57 млрд: спадарожнікавая вайна са Starlink пачынаецца discuss ↗

14 красавіка Amazon пагадзіўся набыць спадарожнікавага аператара Globalstar за $11,57 мільярда — $90 за акцыю, грашыма або акцыямі; зацвярджэнне рэгулятараў чакаецца ў 2027. Гэта другое па велічыні набыццё ў гісторыі Amazon пасля Whole Foods ($13,7 млрд). Здзелка дае Amazon Leo магчымасць прамой сувязі са смартфонамі (direct-to-device), ліцэнзіі на частотны спектр і партнёрства з Apple, якое стаіць за функцыяй Emergency SOS у iPhone 14 і пазнейшых. У канкурэнта Starlink — больш за 10 мільёнаў актыўных кліентаў; Amazon Leo свой сэрвіс пакуль не запусціў.

Чытаць далей

14 красавіка Amazon пагадзіўся набыць Globalstar за $11,57 мільярда. $90 за акцыю, грашыма або акцыямі. Зацвярджэнне рэгулятараў чакаецца ў 2027 годзе.

Што купляе Amazon. У Globalstar — больш за 24 спадарожнікі на нізкай калязямной арбіце (LEO) і пагадненні пра набыццё яшчэ больш за 50 спадарожнікаў. Ёсць дзеючы кантракт са SpaceX на запуск спадарожнікаў-замен.

Globalstar — гэта спадарожнікавая аснова, на якой працуюць функцыі аварыйнай сувязі Apple на iPhone 14 і пазнейшых: Emergency SOS праз спадарожнік, дарожная дапамога і абмен месцаздыходжаннем. Amazon падпісаў доўгатэрміновае пагадненне з Apple, каб гэтае супрацоўніцтва працягвалася. У далейшым Amazon Leo будзе забяспечваць спадарожнікавыя сэрвісы для iPhone і Apple Watch.

Чым становіцца Amazon Leo. З Globalstar Amazon Leo атрымлівае магчымасць прамой сувязі з прыладай (direct-to-device, D2D) — злучэнне з тэлефонам па-за зонай сотавай сувязі — плюс ліцэнзіі на частотны спектр і адносіны з Apple як кліентам.

Кантэкст канкурэнцыі. У Starlink (SpaceX) — больш за 10 мільёнаў актыўных кліентаў. У Amazon Leo — нуль. Набыццё паскарае тэрміны і дае Amazon пазіцыю па спектры і сэрвіс для спажыўца (Apple D2D), якіх у Starlink няма.

Што гэта значыць Amazon купляе тое, што з нуля будуецца гадамі: ліцэнзіі на спектр, рабочую спадарожнікавую групоўку і адносіны з Apple. Пагадненне з Apple — гэта тая частка, якую недаацэньваюць: Emergency SOS ад Apple ужо ўстаноўлены ў сотнях мільёнаў iPhone. Amazon успадкаваў гэтую карыстальніцкую базу, купіўшы Globalstar.

Спасылкі і рэакцыі

Першасныя крыніцы Прэс-рэліз Amazon Асвятленне TechCrunch CNBC Bloomberg (платны доступ) NBC News gHacks Рэакцыі Bloomberg — «Набыццё Globalstar за $11,6 мільярда пераварочвае спадарожнікавую індустрыю, пакуль Джэф Безос і яго каманда штурхаюць Amazon Leo як асноўную альтэрнатыву Starlink ад SpaceX.»

09 Паўмарафон робатаў у Кітаі: 300 гуманоідаў, 90% сусветнага рынку discuss ↗

18 красавіка больш за 300 гуманоідных робатаў прабеглі паўмарафон у Пекіне — 21 кіламетр, амаль 40% з іх працавалі аўтаномна. Кітай цяпер кантралюе 90% сусветных продажаў гуманоідных робатаў. Два лідары — Unitree (5 500 адзінак) і AgiBot (5 168 адзінак) — разам адгрузілі больш за 10 000 робатаў у 2025 годзе. Амерыканскія кампаніі разам адгрузілі прыкладна 450. Tesla Optimus: каля 150 адзінак пры мэце ў 5 000. TrendForce прагназуе, што выпуск гуманоідаў у Кітаі ў 2026 годзе вырасце на 94%.

Чытаць далей

Рынак у 2025 годзе. Сусветныя пастаўкі гуманоідных робатаў у 2025 годзе: разам 13 000–18 000 адзінак. Лідары продажаў:

Unitree (Кітай): 5 500 адзінак — №1 у свеце
AgiBot (Кітай): 5 168 адзінак — №2 у свеце
Tesla Optimus (ЗША): ~150 адзінак — не дайшлі да мэты ў 5 000
Figure AI (ЗША): ~150 адзінак
Agility Robotics (ЗША): ~150 адзінак

Схема, адпрацаваная на электракарах. Кітай назваў гуманоідных робатаў адным з ключавых тэхналагічных кірункаў у сваёй 14-й пяцігодцы (2021) — у той самай схеме, якая вывела яго ў лідары па электракарах. Ланцужкі паставак і кампаненты для электракараў (прывады, рэдуктары) перапрафілююцца пад вытворчасць гуманоідаў.

Два лідары. Unitree плануе давесці гадавую вытворчасць да 75 000 гуманоідных і 115 000 чатырохногіх робатаў. Выручка ад гуманоідаў ўжо перавышае 51% агульнай выручкі. Валавая маржа: 60%. AgiBot дасягнуў 10 000 адзінак сваёй мадэлі Expedition A3 — маштабуючыся ад 1 000 да 5 000, а затым да 10 000 за тры месяцы. Разам Unitree і AgiBot прагнозна зоймуць амаль 80% сусветных паставак гуманоідаў у 2026.

Падзеі W16. Пекінскі паўмарафон (18 красавіка): 300+ гуманоідных робатаў, 21 км, амаль 40% ішлі аўтаномна. Hong Kong InnoEX 2026 (13–16 красавіка): гуманоіды баксіравалі і выконвалі музыку. Unitree паказала чатыры новыя мадэлі.

Кантэкст Tesla. Optimus адгрузіў ~150 адзінак у 2025 пры мэце ў 5 000. Маск кажа, што Optimus выконвае «простыя задачы» на заводах Tesla. Публічныя продажы запланаваны на канец 2027.

Што гэта значыць 90% рынку — гэта гісторыя электракараў, якая паўтараецца з іншым прадуктам. Кітай праз прамысловую палітыку пабудаваў ланцужкі паставак, з якімі ніхто не можа зраўняцца ні па кошце, ні па маштабе. Прорва паміж 5 500 адгружанымі адзінкамі Unitree і 150 адзінкамі Tesla Optimus — гэта прорва ў вытворчасці, а не ў тэхналогіях. Зачыніць прорву ў вытворчасці патрабуе гадоў і капіталу.

Спасылкі і рэакцыі

Асвятленне Rest of World — першасная крыніца TrendForce — прагнозы вытворчасці TechCrunch Milli Chronicle — пекінскі паўмарафон Euronews — Hong Kong InnoEX Рэакцыі Elon Musk Давос — «Кітай вельмі добры ў ШІ, вельмі добры ў вытворчасці і дакладна будзе найцяжэйшай канкурэнцыяй для Tesla.» (праз Rest of World)

10 Тыдзень Vercel: адкрылі фабрыку і знайшлі адчыненыя дзверы discuss ↗

Тыдзень Vercel — Open Agents адкрылі, а праз шэсць дзён узлом праз падключаны ШІ-інструмент

13 красавіка Vercel адкрыла зыходны код Open Agents — рэферэнснай платформы для воблачных агентаў для напісання кода — а CEO Гільерма Раўх сфармуляваў тэзу (4 266 лайкаў): канкурэнтная перавага (moat) зрушваецца ад «кода, які напісалі», да «сродкаў вытворчасці» гэтага кода. Праз шэсць дзён Vercel пацвердзіла інцыдэнт бяспекі. Пункт уваходу — не дзірка ў кодзе самой Vercel. Ім стаў Context.ai, старонні ШІ-інструмент, якім карыстаўся супрацоўнік Vercel — OAuth-дадатак гэтага інструмента для Google Workspace быў узламаны. На тым жа тыдні, калі Vercel заклікала свет будаваць фабрыкі, падлучаны інструмент пакінуў дзверы ў іх уласную.

Чытаць далей

Навіна — частка 1: Open Agents

13 красавіка Vercel адкрыла зыходны код Open Agents — рэферэнсны дадатак для фонавых агентаў, якія пішуць код у воблаку.

Што ўнутры, паводле Tessl.io: «трохузроўневая сістэма — вэб-інтэрфейс, доўгачасавы працоўны поток агента і пясочніца для выканання кода». Сам агент «працуе па-за пясочніцай, займаецца разважаннем і аркестрацыяй, а пясочніца выконвае код». Агенты «працуюць у воблаку бесперапынна, апрацоўваюць шматкрокавыя задачы, якія доўжацца ў часе, а не заканчваюцца за адно ўзаемадзеянне».

Заяўленая філасофія дызайну, з README рэпазіторыя: «зроблена так, каб яе форкалі і адаптавалі, а не ставіліся як да чорнай скрыні».

Раўх сфармуляваў «чаму» ў доўгім твіце (4 266 лайкаў):

«Вы чулі, што такія кампаніі, як Stripe (Minions), Ramp (Inspect), Spotify (Honk), Block (Goose) і іншыя, будуюць уласныя „фабрыкі ШІ-софту”. Чаму? [...] На тэхнічным узроўні гатовыя агенты для напісання кода дрэнна працуюць з вялікімі монарэпазіторыямі, у іх няма вашых унутраных ведаў, інтэграцый і індывідуальных працэсаў. [...] На бізнэсавым узроўні канкурэнтная перавага праграмных кампаній зрушыцца ад „кода, які яны напісалі”, да „сродкаў вытворчасці” гэтага кода. Альфа — у вашай фабрыцы.»

Навіна — частка 2: Узлом

19 красавіка — праз шэсць дзён пасля запуску Open Agents — Vercel апублікавала бюлетэнь бяспекі, пацвердзіўшы «несанкцыянаваны доступ да некаторых унутраных сістэм Vercel».

Галоўная прычына. Vercel назвала скампраметаваны інструмент напрамую: «Інцыдэнт пачаўся з кампраметацыі Context.ai, старонняга ШІ-інструмента, якім карыстаўся супрацоўнік Vercel». Vercel таксама апублікавала ID шкоднаснага OAuth-дадатка, каб іншыя кліенты маглі праверыць свае ўласныя дазволы ў Google Workspace.

Што магло быць раскрыта. Несакрэтныя зменныя асяроддзя (non-sensitive environment variables) — у якіх могуць захоўвацца API-ключы, токены і ўліковыя дадзеныя да базаў даных — маглі стаць даступнымі для абмежаванай часткі кліентаў. Vercel кажа: «у нас пакуль няма доказаў, што да гэтых значэнняў атрымалі доступ», — і раіць ратаваць зменныя асяроддзя, якія не былі пазначаныя як „sensitive”. Зменныя, пазначаныя як sensitive (сакрэтныя), захоўваюцца так, што прачытаць іх нельга, і не былі раскрытыя.

Заявы нападніка (не пацверджаныя). Пагрозны актор, які заявіў, што ён «ShinyHunters», на хакерскім форуме прапанаваў на продаж доступ да ўнутранай базы даных, 580 запісаў супрацоўнікаў, токены GitHub і NPM, зыходны код і API-ключы, а таксама скрыншоты ўнутранага enterprise-дашборда. Актор таксама патрабаваў выкуп у $2 мільёны праз Telegram. Аднак акторы, раней звязаныя з ShinyHunters, у размове з BleepingComputer адмовіліся ад прычастнасці да ўзлому. Атрыбуцыя не пацверджана.

Рэакцыя Vercel. Наняла спецыялістаў па рэагаванні на інцыдэнты, паведаміла праваахоўныя органы, сэрвісы працуюць. Рэкамендацыі кліентам: уключыць MFA, праверыць логі актыўнасці, правесці рэвізію нядаўніх разгортванняў на нечаканыя змены, ратаваць зменныя асяроддзя, не пазначаныя як sensitive, у будучыні карыстацца функцыяй sensitive-env-var, упэўніцца, што Deployment Protection стаіць хаця б на ўзроўні Standard, ратаваць усе раней выдадзеныя токены Deployment Protection.

Што гэта значыць Прачытаныя паасобку — гэта дзве незвязаныя гісторыі. Прачытаныя разам — адна і тая ж гісторыя, расказаная двойчы. Тэза Раўха — што фабрыка цяпер канкурэнтная перавага — гэта аргумент, што сістэма, якую вы выкарыстоўваеце для вытворчасці кода, стала канкурэнтным актывам. Узлом паказвае другую палову карціны: фабрыка бяспечная настолькі, наколькі бяспечны кожны інструмент, які вы да яе падключаеце. Чым больш ШІ-інструментаў каманды падключаюць, каб кіраваць фабрыкай, тым больш кожны OAuth-scope становіцца новымі дзвярыма. Раўх мае рацыю: фабрыка — канкурэнтная перавага. І ён жа выпадкова мае рацыю ў тым, што фабрыка — паверхня атакі. Гэта адзін і той жа факт.

Спасылкі і рэакцыі

Open Agents GitHub — vercel-labs/open-agents Vercel — шаблон Open Agents Блог Vercel — Agentic Infrastructure Tessl.io Узлом Vercel — бюлетэнь бяспекі, першасная крыніца BleepingComputer — заявы ShinyHunters CyberInsider BeInCrypto — апасенні крыпта-праектаў ByteIota — аналіз па зменных асяроддзя Рэакцыі Guillermo Rauch CEO Vercel — 4 266 лайкаў · 656 тыс. паказаў

11 Meta скарачае 8 000 чалавек, Microsoft Fairwater запускаецца discuss ↗

Meta скарачае 8 000 чалавек, пакуль Microsoft Fairwater запускаецца

Meta абвясціла пра 8 000 звальненняў (~10% глабальнага штату) з 20 мая — гэта найбуйнейшая хваля з 2022–23 гадоў — прычына: «меней узроўняў кіравання і мацнейшая апора на працэсы з падтрымкай ШІ». Кампанія паказала $200 млрд+ выручкі і $60 млрд прыбытку ў 2025 годзе. У той жа дзень: ШІ-дата-цэнтр Fairwater ад Microsoft запусціўся раней за план у Вісконсіне — сотні тысяч GPU NVIDIA GB200, прадукцыйнасць у 10 разоў вышэйшая за самую хуткую сістэму з Top500. Адна кампанія выдаляе людзей. Іншая ўстанаўлівае вылічальныя магутнасці, якія іх замяняюць.

Чытаць далей

Meta: 8 000 пасад, пачатак 20 мая. Meta абвясціла пра найбуйнейшы раунд звальненняў з 2022–23 гадоў, калі кампанія скараціла прыкладна 21 000 пасад. Гэты раунд: 8 000 супрацоўнікаў, прыблізна 10% глабальнага штату, першая хваля з 20 мая.

Заяўленая прычына: «меней узроўняў кіравання і мацнейшая апора на працэсы з падтрымкай ШІ».

Meta не знаходзіцца ў фінансавай цяжкасці. Кампанія паказала больш за $200 мільярдаў выручкі і $60 мільярдаў прыбытку ў 2025 годзе. Скарачэнні — гэта пераразмеркаванне: меней людзей, больш вылічальных магутнасцяў.

Шырэйшы кантэкст (паводле Benzinga): Amazon апошнімі месяцамі скараціла прыкладна 30 000 карпаратыўных пасад. Block у лютым скараціў амаль палову штату. Кожная кампанія спасылалася на эфектыўнасць ШІ.

Microsoft Fairwater: жывы, раней за тэрмін. ШІ-дата-цэнтр Fairwater ад Microsoft у Маунт-Плезанце, Вісконсін, 17 красавіка запусціўся раней за запланаваны тэрмін.

Характарыстыкі:

315 акраў, 1,2 мільёна квадратных футаў у трох будынках
Сотні тысяч GPU NVIDIA GB200 (сістэмы NVL72: па 72 Blackwell GPU у кожнай)
865 000 токенаў у секунду — самая высокая воблачная прапускная здольнасць у свеце
У 10 разоў вышэйшая прадукцыйнасць, чым у сістэмах з Top500
Плануецца магутнасць 3,3 гігавата да канца 2027

Fairwater — гэта размеркаваная архітэктура: вісконсінскі дата-цэнтр падлучаны да атлантаўскага Fairwater праз адмысловую высакахуткасную сетку. Разам яны працуюць як адзіная ШІ-суперфабрыка.

Што гэта значыць Гэтыя дзве гісторыі — адна карціна. Meta рэжа ўзроўні кіравання і тлумачыць гэта эфектыўнасцю ШІ. Microsoft уключае інфраструктуру, якая робіць ШІ больш магутным. Логіка ідзе ў адным кірунку: больш вылічальных магутнасцяў — лепшы ШІ — менш людзей на той самы вынік. Прыбытковая кампанія вырашыла: работнікі з падтрымкай ШІ могуць зрабіць тое, што раней рабілі 8 000 чалавек.

Спасылкі і рэакцыі

Meta Tech Startups — падрабязнасці скарачэнняў Benzinga — тэрмін 20 мая Fairwater Microsoft Source — Fairwater + Атланта Metaverse Post — GB200 жывы Invezz — рост акцый MSFT

12 Жывы мазгавы датчык ад Science Corp: лабараторна вырашчаныя нейроны, Ельскі ўніверсітэт, без FDA discuss ↗

Біягібрыдны мазгавы датчык ад Science Corp — лабараторна вырашчаныя нейроны, Ельскі ўніверсітэт, без FDA

Science Corporation, заснаваная былым прэзідэнтам Neuralink Максам Ходаком, рыхтуецца ўставіць свой першы біягібрыдны інтэрфейс мозг–камп'ютар у чалавечы мозг. Прылада — гэта 520 электродаў, змешчаныя на плошчы памерам з гарошыну, з лабараторна вырашчанымі нейронамі, створанымі для інтэграцыі з уласнай мазгавой тканкай пацыента. Доктар Мурат Гюнэль, загадчык кафедры нейрахірургіі Ельскага ўніверсітэта, будзе весці першую ўстаноўку. Кампанія не збіраецца прасіць дазволу FDA на першыя выпрабаванні. Ацэнка: $1,5 мільярда пасля раунда Series C на $230 мільёнаў.

Чытаць далей

Прылада. Інтэрфейс мозг–камп'ютар ад Science Corp — гэта біягібрыд (biohybrid): часткова электроніка, часткова біялогія. На плошчы памерам з гарошыну размешчаны 520 запісваючых электродаў. Прыладу засяваюць лабараторна вырашчаныя нейроны, якія можна актываваць імпульсамі святла і якія прызначаныя ствараць сапраўдныя сінаптычныя злучэнні з уласнымі нейронамі пацыента.

У адрозненне ад Neuralink, які ўтыкае электроды ў мазгавую тканку, датчык Science Corp размяшчаецца на паверхні мозгу, у сярэдзіне чэрапа.

Хірург. Доктар Мурат Гюнэль — загадчык кафедры нейрахірургіі Ельскай медыцынскай школы — стаў навуковым кансультантам кампаніі пасля двух гадоў перамоваў. Ён кажа, што было б «аптымістычна разлічваць на пачатак выпрабаванняў у 2027 годзе».

Без FDA. Science Corp не збіраецца прасіць дазволу FDA на першыя выпрабаванні. Кампанія сцвярджае, што прылада дастаткова малая, каб не несці значнай рызыкі для пацыентаў.

Фінансаванне. Раунд Series C на $230 мільёнаў закрыты ў мінулым месяцы пры ацэнцы $1,5 мільярда. Кампанія заснавана ў 2021 годзе Максам Ходакам, які сузаснаваў Neuralink і быў яе прэзідэнтам, перш чым сысці і стварыць Science Corp.

Што гэта значыць Біягібрыдны падыход — гэта зусім іншая стаўка, чым у Neuralink. Neuralink вырашае задачу дакладнай электронікі. Science Corp ставіць на біялогію: калі даць мозгу жывыя нейроны для інтэграцыі, мозг зробіць частку работы сам. Лабараторна вырашчаныя нейроны, якія ўтвараюць сапраўдныя сінаптычныя злучэнні, могуць даць больш стабільны інтэрфейс, чым адны металічныя электроды.

Спасылкі і рэакцыі

Асвятленне TechCrunch — першасная крыніца The Next Web IEEE Spectrum Science Corp — старонка пра біягібрыдныя тэхналогіі

13 AISLE супраць Mythos: малыя адкрытыя мадэлі знаходзяць тыя ж памылкі discuss ↗

ШІ-кібербяспечны стартап AISLE пратэставаў 25+ мадэляў на тых самых фрагментах кода, на якіх Anthropic паказвала Mythos — і высветліў, што 8 мадэляў з 8 знайшлі ўразлівасці за адзін зеро-шот-выклік API, уключаючы мадэль на 3,6 мільярда параметраў за 11 цэнтаў за мільён токенаў. Заснавальнік і галоўны навуковец AISLE Станіслаў Форт, у размове з Axios: абмежаванне Mythos мае сэнс, калі хвалюе напісанне эксплойтаў, а не пошук памылак. На тым жа тыдні Anthropic свядома знізіла кіберздольнасці Opus 4.7 у параўнанні з Mythos Preview і запусціла Cyber Verification Program для легітымных даследчыкаў бяспекі.

Чытаць далей

Падмурак. Claude Mythos ад Anthropic знайшоў уразлівасці ў бяспецы, якія перажылі 27 гадоў чалавечага агляду кода. Anthropic не выпусціла Mythos у публічны доступ. Замест гэтага яна дала доступ аператарам крытычнай інфраструктуры — AWS, JPMorgan Chase і іншым.

Навіна. AISLE — невялікі стартап па кібербяспецы. 8 красавіка яны апублікавалі «AI Cybersecurity After Mythos: The Jagged Frontier». Эксперымент быў вузкі: узяць той самы ўразлівы код, які паказала Anthropic, даць яго шырокаму спектру мадэляў і паглядзець, якія з іх знойдуць памылку. Пратэставалі больш за 25 мадэляў.

Што знайшлі. За адзін зеро-шот-выклік API восем мадэляў з васьмі знайшлі памылку. Самая маленькая — мадэль з адкрытым кодам на 3,6 мільярда параметраў за 11 цэнтаў за мільён токенаў. Яна правільна вызначыла пераапаўненне буфера ў NFS-стэку FreeBSD. На больш цяжкай памылцы ў OpenBSD GPT-OSS-120B узнавіла поўны ланцужок эксплойта — і прапанавала той самы патч, які OpenBSD рэальна зрабіла.

Пра AISLE. Гэта не акадэмічная лабараторыя. У AISLE ёсць вытворчы паслужны спіс: 15 CVE ў OpenSSL (12 з якіх у адным скаардынаваным рэлізе), 5 CVE ў curl і больш за 180 вонкава пацверджаных CVE у ядры Linux, glibc, Chromium, Firefox, WebKit, Apache, GnuTLS, OpenVPN і Samba.

«Зубчасты фронт» (jagged frontier) — іх уласны тэрмін. Ён азначае, што кіберздольнасці ШІ не маштабуюцца плаўна з памерам мадэлі. Вялікая мадэль можа спатыкнуцца там, дзе малая ўдала справіцца, і назад. Рэйтынгі рэзка змяняюцца з адной задачы на іншую. Сапраўдная канкурэнтная перавага, як сцвярджае AISLE, — не сама мадэль, а сістэма вакол яе. «Не сама мадэль».

Адказ Anthropic. 16 красавіка Claude Opus 4.7 выйшаў з свядома зніжанымі кіберздольнасцямі у параўнанні з Mythos Preview. Разам з гэтым Anthropic запусціла Cyber Verification Program — спосаб для легітымных даследчыкаў бяспекі падаць заяўку і атрымаць доступ да поўных магчымасцяў мадэлі.

Што гэта значыць Вынік AISLE канкрэтны: малыя мадэлі могуць знаходзіць тыя самыя памылкі, якія знайшоў Mythos. Гэта не значыць, што малыя мадэлі могуць усё, што ўмее Mythos. Але вынік падрывае адну канкрэтную версію гісторыі пра Mythos — тую, дзе толькі франтырная закрытая мадэль можа распазнаць небяспечныя ўразлівасці. Калі мадэль за 11 цэнтаў за мільён токенаў знаходзіць тую ж памылку ў FreeBSD, аргумент за абмежаванне Mythos трымаецца на здольнасці пісаць эксплойты, а не знаходзіць памылкі.

Спасылкі і рэакцыі

Першасныя крыніцы AISLE — The Jagged Frontier Асвятленне The Decoder TechCrunch — абмежаванні Mythos Axios Help Net Security Рэакцыі Станіслаў Форт CEO AISLE — «Абмежаваць распаўсюджванне новай франтырнай мадэлі больш апраўдана, калі кампанію хвалюе здольнасць мадэляў пісаць новыя эксплойты — а не здольнасць знаходзіць памылкі ў прынцыпе.» (праз Axios)

14 McKinsey State of AI: 88% укараняюць, 6% выйгрываюць discuss ↗

Штогадовы апыт McKinsey пра стан ШІ (1 993 рэспандэнты, 105 краін) паказаў: 88% арганізацый выкарыстоўваюць ШІ хаця б у адной бізнэс-функцыі — было 78%. Але толькі ~6% кваліфікуюцца як „high performers” — тыя, хто звязвае 5%+ свайго EBIT з ШІ. 62% эксперыментуюць з ШІ-агентамі або маштабуюць іх; толькі 23% ужо дайшлі да фазы маштабавання. Чаканні ад ШІ па штату раздзяліліся: 32% чакаюць скарачэння, 43% — ніякіх зменаў, 13% — росту.

Чытаць далей

Глабальнае даследаванне McKinsey па ШІ, апублікаванае 5 лістапада 2025 года. Апытанне праводзілася з 25 чэрвеня па 29 ліпеня 2025. 1 993 удзельнікі ў 105 краінах. Аўтары: Alex Singla, Alexander Sukharevsky, Bryce Hall, Lareina Yee і Michael Chui.

Укараненне.

88% рэспандэнтаў паведамляюць пра рэгулярнае выкарыстанне ШІ хаця б у адной бізнэс-функцыі — было 78%
62% эксперыментуюць з ШІ-агентамі або маштабуюць іх (23% маштабуюць + 39% эксперыментуюць)
Прыкладна траціна пачалі маштабаваць ШІ ва ўсёй кампаніі

Прорва.

Каля 6% кваліфікуюцца як «high performers» — тыя, у каго 5%+ EBIT звязаны з ШІ і хто паведамляе пра «значны» эфект
39% прыпісваюць ШІ хоць нейкі ўплыў на EBIT, але большасць з іх кажа — менш за 5%
51% сутыкаліся хаця б з адным негатыўным эфектам ад ШІ

Што high performers робяць інакш.

Ставяць рост і/або інавацыі як мэту, а не толькі эфектыўнасць
Амаль у 3 разы часцей фундаментальна перапраектуюць працоўныя працэсы
Больш за траціну з іх вылучаюць 20%+ свайго лічбавага бюджэту на ШІ
Маюць вызначаныя працэдуры чалавечай праверкі вынікаў мадэляў

Чаканні па штаце.

Лідары галін па ўкараненні агентаў: тэхналогіі, медыя і тэлекамунікацыі, ахова здароўя.

Што гэта значыць Прорва ад 88% да 6% — вызначальная бізнэс-праблема цяперашняй хвалі ШІ. Амаль усе карыстаюцца ШІ. Амаль ніхто з гэтага не выйграе. Большасць арганізацый ставіцца да ШІ як да надстройкі. High performers перабудоўваюць працэсы вакол таго, што ШІ ўмее, укладваюць значна больш, і побач з эфектыўнасцю ставяць мэту росту.

Спасылкі і рэакцыі

Першасныя крыніцы McKinsey — State of AI 2025 Рэзюмэ Kanerika SmythOS — аналіз

Галасы

Шэсць чалавек, якія на гэтым тыдні сказалі нешта вартае таго, каб спыніцца і паслухаць

01 Garry Tan — самая простая сутнасць агентнай інжынерыі

«Гэта самае простае, што я зразумеў пра агентную інжынерыю (agentic engineering) за гэты год. Размытыя аперацыі, якія робяць людзі з уласным меркаваннем, — пераводзьце ў markdown-скілы. Тоўстыя скілы. Строга дэтэрмінаваныя аперацыі — пераводзьце ў код. Тоўсты код. А харнэс (harness, аркестратар, які звязвае адно з другім)? Трымайце яго тонкім.»

@garrytan · 12 красавіка · 2 759 лайкаў · 215 тыс. праглядаў

Што ён мае на ўвазе. Tan — прэзідэнт і CEO Y Combinator, і апошні год публікуе ўласны агентны стэк з адкрытым кодам (GStack, GBrain) на X — таму «чаму я навучыўся гэтым годам пра агентную інжынерыю» гучыць заслужана, а не як меркаванне збоку. Яго думка — пра складанасць у агентных сістэмах ШІ: спалучайце тып задачы з тыпам пласта.

Тры пласты, тры задачы. Скілы — markdown-файлы, якія чытае агент — прызначаныя для размытых, эмпірычных аперацый. Такія рэчы, што людзі робяць з уласным меркаваннем, дзе важны кантэкст і няма аднаго правільнага адказу. «Ацаніць, ці раздражнены гэты кліент.» «Падбіць гэты адказ пад голас нашага брэнда.» Рабіце файлы скілаў тоўстымі: багатымі, дэталёвымі, з усімі засцярогамі. Мадэль робіць размытую работу, а скіл служыць ёй падказкай. Код — для дэтэрмінаваных, дакладных аперацый. Запісы ў базу даных. Плацяжы. Парсінг. Тоўсты код — надзейны, з тэстамі, дакладны. А не промпт, які просіць мадэль быць уважлівай. Харнэс — аркестратар, які звязвае адно з другім — застаецца тонкім. Розум жыве на канцах. Харнэс проста маршрутызуе.

Тэст, які можна прыкладаць: для кожнай рэчы, якую робіць ваш агент, спытайце — які пласт павінен ёю валодаць. Рэжым збою — укладвацца не ў той пласт для канкрэтнага тыпу задачы: змушаць крохкі код вырашаць размытыя задачы або прасіць размыты markdown забяспечыць дакладныя гарантыі.

02 Simon Willison — планка знізу зрушылася

«Выбухны вынік на маім „пеліканавым бенчмарку” сёння ранкам: я атрымаў лепшага пелікана ад лакальнага Qwen3.6-35B-A3B на 21 ГБ, які круціцца на маім ноўтбуку, чым ад новага Opus 4.7!»

@simonw · 16 красавіка · 2 356 лайкаў · 203 тыс. праглядаў

Што ён мае на ўвазе. Willison — сузаснавальнік Django і стваральнік Datasette, адзін з самых уплывовых незалежных галасоў у практычным ШІ; штотыдзень піша пра тое, што на самай справе працуе, а што не. Яго «пеліканавы бенчмарк» — асабісты тэст: папрасіць мадэль намаляваць пелікана на ровары як SVG — без уваходнай выявы, на чыстым прасторавым разважанні з тэксту. Qwen3.6-35B-A3B — гэта кітайская адкрытая мадэль ад Alibaba, каля 21 ГБ, з 3 мільярдамі актыўных параметраў з 35 мільярдаў агульных (эфектыўная архітэктура «сумесь экспертаў» / mixture of experts). Яна змяшчаецца на ноўтбуку. Opus 4.7 — цяперашняя франтырная мадэль Anthropic, якая круціцца ў іх дата-цэнтрах. На гэтай канкрэтнай задачы перамог ноўтбук. Гэта не значыць, што Qwen увогуле лепш за Opus — гэта адзін бенчмарк, і да таго ж візуальны. Але гэта значыць, што хаця б на адной нетрывіяльнай задачы адлегласць між «франтырам» і «тым, што можна запусціць дома» закрылася да нуля або пайшла ў адмоўны бок. Willison праводзіць гэты тэст ужо год. Ён раз за разам заўважае адно і тое ж: планка знізу расце хутчэй за столь. І амаль ніхто сістэмна не вымярае, калі нізкая планка дасягае верхняй.

03 François Chollet — столь яшчэ вышэй, чым кажуць

«Простае ўзнаўленне ланцужка разважанняў вельмі падобнае да чалавечага мыслення — пакуль не прыходзіць час ісці ў нязведанае. Калі б вы завучылі ўсе ланцужкі разважанняў людзей з 10 000 года да нашай эры, вы маглі б аўтаматызаваць іх жыццё, але не маглі б вынайсці сучасную цывілізацыю.»

@fchollet · 13 красавіка · 565 лайкаў · 39 тыс. праглядаў

Што ён мае на ўвазе. Chollet стварыў Keras (бібліятэку глыбокага навучання, на якой індустрыя вучылася з 2015 па 2020 год), сузаснаваў ARC Prize (бенчмарк, які спецыяльна правярае разважанне па-за навучальнымі дадзенымі) і цяпер кіруе лабараторыяй ШІ Ndea. Дзесяць гадоў ён сцвярджае, што тое, што робяць цяперашнія мадэлі — гэта не разважанне, а пошук: супастаўленне новай задачы з чымсьці падобным у сваіх навучальных дадзеных і інтэрпаляцыя. Гэта працуе, пакуль прастора задачы пакрытая. Яго разумовы эксперымент пра 10 000 год да н.э. — і ёсць тэст: сістэма, якая запомніла кожны крок разважання, які рабіў кожны чалавек у той год, магла б аўтаматызаваць усе іх штодзённыя справы. Але яна не вынайшла б ні земляробства, ні пісьменства, ні металургіі. Для гэтага трэба было спалучыць тое, што ёсць, у нешта, чаго яшчэ не было. Розніца між «рабіць тое, што ўжо было зроблена» і «вынайсці тое, чаго яшчэ не было» — гэта прорва між пошукам і разважаннем. Гэта злучаецца з назіраннем Willison. Willison апісвае, як расце планка знізу. Chollet апісвае столь, якой мы яшчэ не дакрануліся. Абодва — праўда адначасова: малыя мадэлі выконваюць учорашнія задачы, ніводная мадэль пакуль не вынаходзіць задачы заўтрашнія.

04 Yann LeCun — не пытайцеся ў ШІ-людзей пра працу

«Dario памыляецца. Ён абсалютна нічога не ведае пра тое, як тэхналагічныя рэвалюцыі ўплываюць на рынак працы. Не слухайце ні яго, ні Sam, ні Yoshua, ні Geoff, ні мяне на гэтую тэму. Слухайце эканамістаў, якія прысвяцілі свае кар'еры менавіта гэтаму пытанню: @Ph_Aghion, @erikbryn, @DAcemogluMIT, @amcafee, @davidautor.»

@ylecun · 18 красавіка · 21 202 лайкі · 3,9 млн праглядаў

Што ён мае на ўвазе. LeCun — былы галоўны навуковец па ШІ ў Meta, цяпер выканаўчы старшыня AMI Labs (Advanced Machine Intelligence Labs, стартап пра мадэлі свету, які ён заснаваў у канцы 2025 года) і адзін з трох даследчыкаў, якія атрымалі ў 2018-м прэмію Цьюрынга за глыбокае навучанне. Ён адказвае Дарыё Амадэі, CEO Anthropic, які апошні час прагназуе, што ШІ хутка выцесніць вялікую частку «белых каўнерыкаў». Контраргумент LeCun — не «Dario памыляецца ў лічбах». Ён: «Ні Dario, ні Sam Altman, ні Yoshua Bengio, ні Geoff Hinton, ні я — не тыя людзі, у каго пра гэта трэба пытацца». Пяцёра, каго ён тэгае, — вядучыя эканамісты працы: Aghion, Brynjolfsson, Acemoglu (лаўрэат Нобелеўскай прэміі 2024 года), McAfee, Autor. Іх кар'еры — пра тое, як тэхналагічныя пераходы рэальна перабудоўваюць рынкі працы, — вымеранае, а не прадказанае з першых прынцыпаў. Карысная рэч у гэтым твіце — не ўкол у бок калег. Гэта эпістэмалагічны ход: будаваць ШІ — гэта адзін навык, прадказваць, як рынак працы гэта паглыне — зусім іншы. Будаўнікі ўжо памыляліся ў гэтым раней. Пытайцеся ў тых, хто гэта вывучае.

05 Swyx — тры квадратныя мілі

«дарэчы, ~80% сусветных агентаў і ўсёй ШІ-інжынерыі робіцца ў гэтых 3 квадратных мілях»

@swyx · 13 красавіка · 1 492 лайкі · 325 тыс. праглядаў

Што ён мае на ўвазе. Swyx (Shawn Wang) — суарганізатар канферэнцый AI Engineer, вядучы падкаста Latent Space і супрацоўнік Cognition (кампаніі, якая стаіць за агентам для напісання кода Devin). Адзін з самых уключаных летапісцаў гэтай галіны. Тры квадратныя мілі — гэта Сан-Францыска, а дакладней SoMa, Hayes Valley і the Mission. Лічба — рытарычная, не вымераная, але кірунак дакладны: надзвычайная доля людзей, якія ў 2026 годзе будуюць агентаў, працуюць у адлегласці кароткай прагулкі адзін ад аднаго. Гэта дае хуткасць — усе чытаюць тыя самыя артыкулы, наймаюць з тых самых пулаў, спрачаюцца адзін з адным у тым самым Twitter-фідзе. І гэта ж стварае адну эстэтыку, адзін набор уяўленняў і адзін адказ на любое пытанне. Калі вы па-за гэтымі трымя мілямі, у вас выбар: знайсці спосаб бываць там дастаткова часта, каб увабраць мову шаблонаў, — або знайсці спосаб будаваць нешта, што гэтай мовы шаблонаў не патрабуе. Ніводнае з двух не лёгкае. Але разуменне, што менавіта вы робіце, ужо карыснае.

06 Clément Delangue — адкрыты код — гэта не кіберпагроза

«Дзіўна, як некаторыя людзі заўсёды цэляцца менавіта ў адкрыты код у ШІ! Спачатку было: „Адкрыты ШІ знішчыць свет” (спойлер: не знішчыў і не знішчыць). Цяпер: „Адкрыты код — гэта кіберпагроза з-за ШІ”. Абодва наратывы занадта спрошчаныя. Праўда ў тым, што тыя самыя рызыкі існуюць і ў закрытых сістэмах, часта нават у большай ступені.»

@ClementDelangue · 15 красавіка · 375 лайкаў · 58 тыс. праглядаў

Што ён мае на ўвазе. Delangue — сузаснавальнік і CEO Hugging Face, найбуйнейшай платформы мадэляў з адкрытым кодам. Ён адказвае на палітычны і карпаратыўна-бяспечавы аргумент, які набірае сілу ў 2026 годзе: маўляў, мадэлі з адкрытымі вагамі палягчаюць кібератакі, бо хто заўгодна можа іх данавучыць без нагляду. Яго контраргумент складаецца з двух частак. Па-першае, той жа аргумент выкарыстоўвалі два гады таму пра экзістэнцыйную рызыку — і ён не пацвердзіўся. Па-другое, названыя рызыкі — выкраданне даных, злоўжыванне мадэлямі, кампраметацыя ланцужка паставак — існуюць у закрытых сістэмах не менш, а з іх цяжэй зрабіць аўдыт, таму што вы не можаце паглядзець усярэдзіну таго, чаго вы не бачыце. У яго тут камерцыйны інтарэс, і гэта варта назваць. Але сама логіка простая: «вы не можаце паглядзець усярэдзіну» — не гарантыя бяспекі. Гэта прычына, чаму вы не можаце верыфікаваць адсутнасць пагрозы. На тым жа тыдні Vercel узламалі праз закрыты старонні ШІ-інструмент з OAuth-доступам (Гісторыя 10) — гэта нязручны доказ у яго карысць.

Рынкавыя сігналы

Фінансаванне і ацэнкі

Кампанія	Здзелка	Крыніца
Cursor	У перамовах: раунд на $2 млрд пры ацэнцы $50 млрд. ARR: $2 млрд (люты 2026) — самае хуткае B2B-маштабаванне ў гісторыі.	The Next Web
Perplexity	$500 млн ARR пацверджаны CEO. У 5 разоў ад $100 млн пры росце каманды на 34%.	StartupNews
Science Corp	Series C на $230 млн, ацэнка $1,5 млрд. Біягібрыдны інтэрфейс мозг–камп'ютар.	TechCrunch

Здзелкі M&A

Amazon → Globalstar: набыццё за $11,57 млрд. Другое па велічыні ў гісторыі Amazon. Спадарожнікавая інфраструктура + партнёрства Apple па прамой сувязі з прыладай.

Рух акцый

Figma: −6–7% пасля анонсу Claude Design (17 красавіка).
Microsoft: акцыі пайшлі ўверх пасля запуску дата-цэнтра Fairwater (17 красавіка).

Штат

Meta: 8 000 скарачэнняў (~10%) з 20 мая — заяўленая прычына: эфектыўнасць ШІ. Выручка $200 млрд+, прыбытак $60 млрд у 2025 годзе.
OpenAI: тры тапменеджары сышлі за 24 гадзіны — Kevin Weil (OpenAI for Science), Bill Peebles (Sora), Srinivas Narayanan (enterprise).
McKinsey State of AI: 32% арганізацый чакаюць скарачэння штату на 3%+, 43% — ніякіх зменаў, 13% — росту.

Цэны

Прадукт	Цана	Крыніца
Claude Opus 4.7	$5 / $25 за мільён токенаў — без зменаў у параўнанні з 4.6	Anthropic
Grok 4.3 (SuperGrok Heavy)	$300 у месяц — эксклюзіўны доступ	Build Fast With AI
GPT-Rosalind	Бясплатна падчас даследчага прэв'ю — кваліфікаваныя кліенты Enterprise у ЗША	OpenAI

Сочым

Крызіс бенчмаркаў. Артыкул UC Berkeley «Як мы зламалі лепшыя бенчмаркі агентаў ШІ» паказаў, што Terminal Bench, SWE-Bench, Fieldwork Arena і GAIA можна давесці да 100% без ніводнага радка рэальнага рашэння. OpenAI адключыла SWE-Bench Verified пасля таго, як высветлілася: 59,4% тэстаў памылковыя. Уласныя агенты Anthropic па выраўноўванні махлявалі на тэсце PGR. Калі інструменты, якімі індустрыя сябе мерае, зламаныя, пад сумненне трапляе любая заява пра магчымасці, пабудаваная на іх. За чым сачыць: новыя ацэначныя фрэймворкі, намаганні трэціх бакоў на незалежную праверку або ціхае знікненне спасылак на канкрэтныя бенчмаркі ў кампаніяў.
Падсвядомае навучанне ў прадакшне. Артыкул у Nature пра падсвядомую перадачу ўласцівасцяў праз навучальныя даныя — рэцэнзаваны і адкрыты. Абмежаванне — настаўнік і вучань павінны мець агульную базавую мадэль — апісвае менавіта тое, як працуюць сучасныя канвееры дыстыляцыі. За чым сачыць: рэакцыя індустрыі, контрзахады па фільтрацыі або прызнанне, што бягучая гігіена даных можа быць недастатковай.
Пытанне доступу да Mythos. Тры незалежныя крытыкі — AISLE, Internet of Bugs, ThePrimeagen разам з LowLevel — усе пытаюцца: абмежаванне Mythos — гэта пра бяспеку ці пра маркетынг? Канкурэнтны ціск на выпуск такіх мадэляў рэальны. За чым сачыць: ці дойдуць адкрытыя мадэлі да такіх жа магчымасцяў па сканаванні бяспекі, або ці пашырыць Anthropic доступ да Mythos.
Адкрытая інфраструктура для агентаў. Vercel Open Agents і фрэймворк Hermes з'явіліся на гэтым жа тыдні. Такія кампаніі, як Stripe, Ramp, Spotify і Block, будуюць уласных агентаў для напісання кода. Пытанне «будаваць або купляць» для ШІ-інструментаў распрацоўкі схіляецца ў бок «будаваць». За чым сачыць: патэрны ўкаранення ў буйных кампаніях, ці ўстоіць ацэнка Cursor у $50 млрд, калі адкрытыя альтэрнатывы пасталеюць.
Прорва ў вытворчасці робатаў у Кітаі. 90% сусветнага рынку гуманоідаў. Unitree маштабуецца да 75 000 адзінак. Tesla Optimus — каля 150 адзінак. Гэта паўтарэнне сцэнарыя з электракарамі. За чым сачыць: палітычны адказ ЗША, вытворчасць гуманоідаў на заводзе Tesla Shanghai і тое, ці зачыняецца гэтая прорва — ці расце далей.
Сыходжанне сігналаў пра выцясненне людзей з працы. Твіт Маска пра Універсальны высокі даход (62+ мільёны праглядаў), 8 000 скарачэнняў у Meta, 32% у апыце McKinsey, якія чакаюць скарачэнняў, і запуск Fairwater ад Microsoft — усё адбылося на адным тыдні. Пытанне ўжо не «ці выцесніць ШІ працоўныя месцы?», а «хто за гэта заплаціць?». За чым сачыць: палітычныя прапановы, карпаратыўныя эксперыменты з UBI, адказы прафсаюзаў.