Невидљиво поскупљење вештачке интелигенције

Сећате ли се оног периода од пре годину или две када је деловало да ће вештачка интелигенција пратити неку врсту дигиталног закона гравитације? Веровали смо да ће, баш као и микропроцесори некада, ови системи постајати све доступнији, бржи, паметнији и значајно јефтинији. То је била прећутна теза на којој смо градили планове о увођењу AI-ја у свакодневно пословање. Развијали смо аутоматизације, апликације и системе који у позадини користе компликоване ланце промптова, водећи се логиком да ће са сваком новом верзијом модела претходне верзије коштати упола мање, што је углавном и био случај током претходне две године.

Овај сценарио нам је већ био познат из ере развоја клауд услуга и складиштења података. Али на тржишту вештачке интелигенције ствари су кренуле у сасвим другом смеру.

Ако ових дана погледате цене најбољих AI модела на тржишту, схватићете да је време јефтине вештачке интелигенције прошло. Док смо ми чекали да цене још више падну, технолошки гиганти су извели један од најсуптилнијих маневара у историји софтверске индустрије.

Да бисмо разумели како смо стигли до ове тачке, морам вам укратко објаснити како ради технологија која покреће AI алате. Већина пословних решења и апликација користи ове системе преко нечега што се зове API. За програмере је то свакодневица, али за већину људи то је само још једна непозната скраћеница из света програмирања. Важно је да напоменем да сада говорим о AI апликацијама, а не о четботовима великих AI компанија.

Најлакше је замислити API као прозор на шалтеру. Када ваша апликација или програм жели да искористи памет неког великог језичког модела (ЛЛМ), она не држи тај џиновски систем на вашем рачунару. То би било технички немогуће зато што захтева огромне ресурсе. Уместо тога, ваш програм шаље питање кроз тај шалтер до туђих суперкомпјутера. Тамо се одговор генерише и враћа назад кроз исти шалтер. Сваки пролазак кроз овај шалтер се плаћа по принципу таксиметра: колико речи прође, толико новца оде са вашег рачуна. Ови делови текста које таксиметар мери називају се токени.

Сећате се AI фабрика о којима сам писао? Управо оне стоје на другом крају тог шалтера и активно производе интелигенцију, токен по токен, радећи двадесет четири сата дневно да би ваш упит добио одговор. И управо зато што је покретање и рад тих фабрика веома скупо, цена сваког токена који из њих изађе има своју чврсту економску подлогу.

Смањење паковања на делу

Можда сте приметили да вам исти производ у продавници некако изгледа мањи него раније, а цена је остала иста. Чоколада која је до јуче имала 100 грама сада има 90, али се цена није променила. Кутија детерџента је нешто мања, јогурт је са једног литра сишао на 850 милилитара, а цена је на полицама остала иста. У трговини то зову смањење паковања, или на енглеском shrinkflation. Купац ретко примети овакву промену одмах јер не чита грамажу производа, зато што не очекује да ће бити обманут. Промена је довољно мала да прође испод радара, али довољно реална да се одрази на ваш новчаник.

Управо то се десило са вештачком интелигенцијом. Само што се овде трошак не мери у грамима, већ у токенима.

Најзанимљивији пример долази из компаније Anthropic. Када су представили нову верзију свог модела Claude Opus 4.7, на званичној страници са ценама ништа се није променило. И даље пише оних стандардних пет долара за милион улазних и двадесет пет долара за милион излазних токена. Све је изгледало по старом. Међутим, променило се оно што се дешава иза кулиса, у самом механизму који текст претвара у бројке – у такозваном токенизатору.

У неким пекарама постоји машина која сече векну хлеба на кришке пре него што вам је продавац прода. Векна је ваш текст, а кришке су токени које плаћате. Ако машина одједном почне да сече тање кришке, од исте векне добићете више делова. Ви и даље добијете исту количину хлеба, али плаћате по броју кришки којих сада има више.

Управо то се догодило са AI-јевим системима. Исти комад текста, исти упит који сте послали пре неколико месеци, сада се дели на више делова него раније. У пракси, то значи да за потпуно исти посао сада плаћате и до тридесет пет процената више токена.

Користим Claude свакодневно, и након преласка на нову верзију Opus 4.7 почео сам да примећујем да ми се лимит за питања и одговоре пуни знатно брже него раније. Приближно је исти тип разговора, слична дужина питања, потпуно исти начин рада, али систем ми јавља да сам потрошио дозвољени број порука за наредних неколико сати много пре него што бих то очекивао. Прва помисао је била да нешто није у реду са мојим налогом. Међутим, није био налог. Био је то нови токенизатор.

Шта је са онима који плаћају фиксну претплату?

Добро, рећи ћете, али шта је са онима који немају никакве везе са програмирањем и прављењем AI апликација? Шта је са људима који једноставно плаћају оних стандардних двадесетак долара месечно за претплату, како би имали приступ најбољем моделу за свакодневни рад?

Можда мислите да сте у тој зони потпуно безбедни јер је цена фиксна. Нажалост, економска правила важе и овде. Ако компанијама које пружају ове услуге расте трошак за сваку реч коју њихови рачунари обраде, оне тај трошак морају некако да компензују и код обичних претплатника.

То се не ради директним поскупљењем претплате, јер би то изазвало талас отказивања. Уместо тога, користе се другачије методе. Сигурно сте приметили да вам систем у последње време брже него раније јави како сте „потрошили лимит брзих порука за наредних неколико сати“. Или вас, сасвим неприметно, усред дугог разговора пребаци на старији, мање захтевни модел. Понекад добијете одговоре који су краћи и површнији, јер краћи текст троши мање струје и серверског времена. Ви и даље плаћате својих двадесет долара, али за тај новац добијате мање рачунарске снаге. Када дођете до одређеног лимита, више не разговарате са најбољим моделом, већ сте пребачени на старију верзију.

То је тиха деградација која се одвија пред нашим очима, док ми верујемо да имамо исти пакет као и прошле године.

Подизање цена на целом тржишту

Овај потез није изолован инцидент једне фирме која покушава да покрије трошкове. Реч је о тектонском поремећају у целој индустрији.

OpenAI са верзијом GPT-5.5 није ни покушао да буде суптилан. Једноставно су дуплирали цене у односу на претходну верзију. Оправдање је било да је модел концизнији и да пише краће одговоре. Ипак, мерења на реалним системима показују да су стварни трошкови за кориснике порасли између педесет и деведесет процената.

Google је пратио сличну матрицу. Њихов модел Gemini 3.5 Flash, замишљен као брза, лагана и приступачна опција за масовну употребу, дошао је са ценом која представља огроман скок у односу на претходне верзије истог ранга. Поред тога, Google је преузео Anthropic-ов модел потрошње за месечне претплате: када дођете до одређеног лимита, морате чекати четири сата да се тај лимит ресетује како бисте наставили са радом. Наравно, увек постоји опција да наставите са коришћењем модела уз доплату, мимо месечне претплате коју сте већ платили.

На све то, старији модели – они на које су се многи тимови ослонили у својим првим стабилним системима јер су били јефтини и предвидиви – полако се гасе. Једноставно нестају са листе подржаваних верзија. Корисници су приморани да пређу на нову инфраструктуру, а са њом долазе и нове цене, а неретко и обавезна промена начина промптовања, јер су новији модели паметнији и захтевају другачије упите, прилагођене такозваним моделима за резоновање (Reasoning LLMs).

Зашто се ово дешава баш сада? Одговор лежи у преласку AI компанија из фазе раста по сваку цену у фазу полагања рачуна својим инвеститорима.

Годинама су инвеститори улагали милијарде у развој ових система, дозвољавајући компанијама да субвенционишу цену својих услуга како би привукле што више корисника. Циљ је био очигледан: навикнути програмере и компаније на технологију, интегрисати је у сваку пору софтвера, а о профиту размишљати касније.

Сада се приближавају изласци на берзу и инвеститори траже реалну математику. Технолошке AI лабораторије морају да докажу да могу да зараде новац, а не само да га троше на обуку нових модела. Поред притиска са Волстрита, ту је и проста економија. Инфраструктура која покреће ове системе је веома скупа. Цене серверског хардвера, брзе меморије, графичких картица, специјализованих уређаја и електричне енергије не падају. Напротив. Физички ресурси потребни да би се генерисао један одговор имају своју јасну цену испод које нико не може да послује на дужи временски рок, и без губитка.

Сетите се размера улагања о којима смо говорили у тексту о AI фабрикама: пројекат Stargate у САД предвиђа улагање од петсто милијарди долара, Емирати граде AI фабрику капацитета од једног гигавата, а један рек сервера у AI фабрици троши више струје него цео спрат класичног дата центра. Када имате те бројке у глави, постаје очигледно зашто нико не може да вам продаје токене по ценама из прошле године.

Налазимо се, изгледа, у тачки отрежњења где се почетна романтичарска визија о бесконачној и готово бесплатној рачунарској интелигенцији судара са реалношћу ограничених планетарних и финансијских ресурса. Ова тиха промена подсећа нас да технологија, ма колико деловала нематеријално, ипак има своју тежину, коју на крају неко мора да плати.