Како правилно писати промптове за AI моделе за резоновање (Reasoning LLMs)?
Већина људи и даље пише промптове за Reasoning LLMs као да је 2024. година. Технике које су тада помагале сада често троше више токена (новца), додају кашњење у одговору и понекад погоршавају квалитет одговора.
Студија из Wharton Generative AI Lab-а тестирала је 198 питања на PhD нивоу из биологије, физике и хемије. Chain-of-thought (CoT) инструкције (најпопуларнија техника промптовања од 2023.) донеле су само 2,9% до 3,1% побољшања тачности на моделима за резоновање, али су додале 20% до 80% кашњења у одговору. На Gemini Flash 3 моделу, chain-of-thought је погоршао резултате за 3,3%. Бољи одговор сте добијали када нисте ни покушавали да помогнете моделу.
Истраживање „Mind Your Step (by Step)“ отишло је даље: на задацима препознавања образаца, укључивање режима резоновања (Thinking) смањило је тачност за чак 36,3% у поређењу са стандардним моделом. CoT техника осмишљена да моделе учини „паметнијим“ је само учинила паметне моделе „глупљим“.
OpenAI, Anthropic, Google, DeepSeek експлицитно упозоравају да се chain-of-thought не користи на reasoning моделима. Али већина курсева, истраживања и популарних савета је и даље фокусирана на старију генерацију базних модела, чинећи их застарелим за тренутну технологију, јер базни ЛЛМ-ови имају потпуно другачији систем пост-тренинга и усклађивања у поређењу са reasoning ЛЛМ-овима.
У овом упутству комбинујемо увиде из разговора са истраживачима различитих АИ модела, налазе из истраживачких радова и практична искуства корисника, да бисмо вам дали дубински увид у механику reasoning модела, зашто стандардне технике промптовања заправо штете овим моделима и како можете писати боље промптове за пословну примену.
Како изгледа добар промпт за reasoning модел?
Водећи принципи за промптовање reasoning модела су следећи: дефинишите простор претраге прецизно. Не ограничавајте како модел претражује. Не додајте процесне инструкције. Формулишите проблем са довољно специфичности да модел свој буџет токена троши на решавање, а не на разјашњавање шта сте уопште питали.
Пример 1: Финансијска анализа
Лош промпт:
Ти си искусан финансијски аналитичар са 20 година искуства у корпоративним финансијама. Размисли корак по корак о нашој финансијској ситуацији. Прво, анализирај приходе. Затим, процени трошкове. Затим, размотри токове готовине. На крају, препоручи стратегију. Буди темељит и размотри све аспекте.
Овај промпт има шест инструкција које ограничавају претрагу. „Размисли корак по корак“ везује модел за генерички шаблон. „Прво анализирај... затим процени... затим размотри... на крају препоручи“ намеће секвенцијални процес од четири корака који модел мора да прати чак и ако би његова RL-тренирана претрага пронашла бољи пут. „Буди темељит“ и „размотри све аспекте“ су неограничени: модел не зна када је при одговору био довољно темељит, па се претрага наставља унедоглед.
Добар промпт:
Компанија има годишњи приход од 12М ЕУР, од чега 40% долази од једног клијента који је најавио раскид уговора за 6 месеци. Оперативна маржа је 8%, фиксни трошкови чине 65% укупних трошкова, имамо кредитну линију од 3М ЕУР искоришћену 60%. На располагању је 18 месеци кеша по тренутној потрошњи. Које су стратешке опције за замену прихода од тог клијента, и који су ризици другог реда за сваку опцију, укључујући ризик да агресивно снижавање цена сигнализира тржишту да смо у проблему?
Простор претраге је дефинисан конкретним бројевима, специфичном пословном динамиком и прецизним стратешким питањем. RL-трениране стратегије модела имају простора да раде јер проблем заиста захтева истраживање више путева ка коначном одговору. Истовремено, специфични сигнали (концентрација прихода, ниво задужености, временски оквир) делују као меки заштитни механизам против скретања.
Пример 2: HR - Управљање људским ресурсима
Лош промпт:
Прегледај наш систем компензација и реци ми да ли има било каквих проблема.
„Било каквих проблема“ је неограничен простор претраге. Модел ће генерисати хиљаде токена покривајући све могуће аспекте: платне разреде, бенефите, бонусе, тржишно позиционирање, законску усклађеност, а можда вас већи део тога не занима.
Добар промпт:
Имамо 250 запослених у грађевинској компанији, од тога 30 инжењера. Просечна плата инжењера је 1.800 ЕУР нето, тржишни просек за искуство од 5+ година је 2.200 ЕУР. Флуктуација инжењера је 22% годишње, трошак замене једног инжењера је око 10.000 ЕУР (регрутација, обука, изгубљени пројекти). Буџет за повећање плата је ограничен на 70.000 ЕУР годишње. Како да распоредимо буџет за максимално смањење флуктуације, и који је ризик да селективно повећање плата само најбољим инжењерима демотивише остале?
Имамо три конкретна ограничења: буџет, тренутна ситуација и мерљив проблем, и једно стратешко питање са ризиком другог реда. Модел троши буџет токена на решавање, а не на погађање шта вас занима.
Пример 3: Правни сектор - анализа уговора
Лош промпт:
Прегледај овај уговор и реци ми да ли има било каквих проблема.
„Било каквих проблема“ је неограничен простор претраге. Модел ће генерисати хиљаде токена покривајући сваки могући аспект: форматирање, јурисдикцију, вишу силу, одштетне клаузуле, интелектуалну својину, клаузуле о раскиду, услове плаћања, од којих вас већина не занима у том тренутку.
Добар промпт:
Ово је уговор са подизвођачем за грађевински пројекат вредности 2М ЕУР. Рок за потписивање је петак. Прегледај клаузуле о одговорности и пеналима за кашњење. Наше најбитније ограничење: не можемо прихватити пенале веће од 5% вредности уговора. Наша жеља/захтев: пенали се обрачунавају тек након 15 радних дана кашњења, са максимумом од 10% и узајамном одговорношћу за кашњења узрокована инвеститором. Означи сваку клаузулу која крши ово ограничење или одступа од жеље/захтева, и објасни шта нас то одступање кошта.
Имамо две клаузуле за преглед и једно најбитније ограничење. Једна жеља/захтев и специфичан формат излаза (означи + објашњење цене). Ова претрага биће ограничена и фокусирана.
Пример 4: Комерцијала - стратегија продаје
Лош промпт:
Ти си искусни директор продаје. Размисли о нашој продајној стратегији корак по корак. Размотри све канале, циљне групе и конкуренцију. Дај свеобухватну анализу.
Добар промпт:
Продајемо Б2Б софтвер за управљање грађевинским пројектима по 500 ЕУР месечно. Главни конкурент је спустио цену на 350 ЕУР. Наша стопа обнављања уговора је 87%, имамо 120 активних клијената са просечним трајањем уговора од 18 месеци. Кључна диференцијација је реал-тиме праћење трошкова по фазама пројекта, што конкурент нема. 65% наших клијената користи ту функционалност као примарни разлог за куповину. Које су опције осим спуштања цене, и који је ризик да поклапање цене сигнализира да наша диференцијација не вреди премијум цену?
Пример 5: Логистика - оптимизација ланца снабдевања
Лош промпт:
Помози ми да оптимизујем нашу логистику. Анализирај све аспекте и предложи побољшања.
Добар промпт:
Имамо 3 складишта (Београд, Нови Сад, Ниш) и 45 камиона. Месечно испоручујемо 8.000 пошиљки, просечна цена доставе је 12 ЕУР, а проценат испорука са кашњењем је 18%. Највећи трошак је гориво (35% оперативних трошкова), а 40% камиона се враћа празно. Циљ: смањити проценат кашњења испод 8% и повратне празне вожње испод 20%, без повећања флоте. Које су опције за консолидацију рута и cross-docking, и шта је trade-off између брзине испоруке и искоришћености капацитета?
Пример 6: Маркетинг - стратегија кампање
Лош промпт:
Направи маркетинг план за наш производ. Размотри све канале и циљне групе. Буди креативан и темељит.
Добар промпт:
Лансирамо SaaS алат за управљање грађевинским пројектима. Циљана публика: директори грађевинских фирми са 50-500 запослених у Србији (око 800 фирми). Буџет за кампању: 15.000 ЕУР за 3 месеца. Тренутно имамо 200 пратилаца на LinkedIn-у, email листу од 500 контаката (40% open rate), и нула присуство на Google претрази за кључне речи. Претходни покушај са Facebook огласима дао је CPA од 85 ЕУР и нула конверзија. Шта би био најефикаснији канал за првих 30 квалификованих lead-ова, и зашто вероватно не би требало да се фокусирамо на исто што и последњи пут?
Пример 7: CEO - стратешке одлуке
Лош промпт:
Ти си искусни пословни консултант. Анализирај нашу стратешку позицију. Размисли о свим аспектима пословања корак по корак. Буди свеобухватан.
Добар промпт:
Грађевинска компанија, 250 запослених, годишњи приход 18М ЕУР, оперативна маржа 6%. Три највећа клијента чине 55% прихода. Тржиште се консолидује: два конкурента су се спојила и сада имају 30% већи капацитет од нас. Имамо специјализацију у инфраструктурним пројектима (мостови, тунели) где је маржа 12%, али ти пројекти чине само 25% прихода. Остатак је индустријска градња са маржом од 5%. Да ли треба да се фокусирамо искључиво на инфраструктуру и смањимо фирму, или да задржимо обим и тражимо аквизицију мањег специјализованог конкурента? Који сценарио нас оставља рањивијим ако држава смањи инфраструктурна улагања за 30%?
Декомпозиција: када је проблем превелик за један промпт
Претходни примери показују како дефинисати простор претраге за један промпт. Али неки проблеми су превише сложени за један промпт. Када ставите превише захтева у један промпт, грешка на почетку у било којој димензији у процесу, рецимо погрешна интерпретација једног податка, пропагираће се кроз читав излаз, па ћемо на крају добити каскадне грешке и неуспешан исход.
Лоша верзија - све у једном промпту:
Анализирај наше Q3 податке о приходима, идентификуј три главна покретача пада, форматирај анализу као меморандум за управни одбор са извршним сажетком, направи три сценарија пројекција за Q4, и укључи матрицу ризика за сваки сценарио. Користи наш стандардни формат за меморандум са заглављима и табелама.
Имамо шест захтева у једном промпту. Модел мора истовремено да „држи пажњу“ на анализи, форматирању, моделирању сценарија, процени ризика и усклађености са шаблоном. Сваки од тих захтева је димензија кроз коју претрага мора да прође. Погрешан закључак у било којој димензији на почетку процеса провлачиће се кроз читав излаз.
Добра верзија - секвенцијални промптови:
Промпт 1:
Ово су наши Q3 подаци о приходима [приложени]. Идентификуј три главна покретача пада прихода. За сваки покретач, квантификуј утицај у еврима и објасни механизам.
Промпт 2 (након прегледа резултата):
На основу ова три покретача, направи три сценарија пројекција за Q4: оптимистички (покретачи се преокрену), базни (покретачи настављају на тренутном нивоу), и песимистички (покретачи се убрзавају). За сваки сценарио, пројектуј квартални приход и утицај на маржу.
Промпт 3 (након прегледа резултата):
За сваки од три сценарија, направи матрицу ризика: наведи три главна ризика, вероватноћу, утицај ако се реализује, и опције за ублажавање.
Промпт 4 (стандардни модел, не за резоновање):
Форматирај следећу анализу као меморандум за управни одбор. Користи ова заглавља: Извршни сажетак, Покретачи прихода, Q4 сценарији, Процена ризика. Извршни сажетак не сме бити дужи од 200 речи.
Четири промпта уместо једног, и сваки промпт дефинише један јасно ограничен простор претраге. Модел за резоновање обрађује анализу и пројекције (где претрага додаје вредност), док стандардни модел обрађује форматирање (где претрага не додаје вредност). Треба да прегледате излаз у свакој фази и похватате грешке пре него што се умноже и пренесу у следећи корак.
Вишеструке поруке: када остати а када почети испочетка
Модели за резоновање у вишеструким конверзацијама условљавају претрагу целокупном историјом разговора. Свака претходна порука, и ваша и одговор који добијете од модела, део је контекста на којем претрага ради. Ово има две импликације.
Ако је први одговор добар, наредни промптови могу ефективно надограђивати будуће одговоре. „Сада прошири ову анализу да укључи и европско тржиште“ функционисаће добро јер ће претрага имати солидну основу.
Ако је први одговор отишао у погрешном смеру, накнадне корекције често погоршавају ситуацију. Модел ће покушавати да помири вашу корекцију са постојећим излазом. Неће почети испочетка, већ ће покушавати да угради корекцију у оквир који је већ изградио, а тај покушај помирења створиће нове конфликте.
Правило: Ако додајете усавршавање или проширење инструкција на добар одговор, останите у конверзацији. Ако контрирате или преусмеравате лош одговор, почните нову конверзацију са бољим промптом.
Седам правила која важе за све моделе за резоновање
Да сумирамо оно што смо научили, reasoning модели генеришу проширене секвенце токена које претражују простор решења модела, тренирани кроз учење поткрепљивањем (reinforcement learning). Размишљајући из те перспективе, долазимо до седам принципа. Они ће функционисати на свим новим reasoning моделима, који излазе на свака два или три месеца, јер произлазе из архитектуре и post-training протокола који користе све велике AI лабораторије.
1. Ваш промпт дефинише простор претраге
Модел користи ваш промпт као почетни контекст за проширено генерисање токена које претражује простор решења. Ужи и прецизно дефинисани промпт ће увек победити широко и двосмислено упутство.
2. Не ограничавајте процедуру претраге већ ограничите простор претраге
„Размисли корак по корак.“ „Прво размотри X, па Y.“ Ово су процесна ограничења јер говоре моделу како да претражује и ограничавају га на подскуп доступних стратегија. Кључни налаз DeepSeek-а био је да људски дефинисани обрасци размишљања ограничавају истраживање. Дефинишите прецизно шта желите, и никада не описујте у промпту како модел треба да дође до одговора.
Дефинисање персоне је мало другачије. „Ти си експерт за пореско право“ је ограничење претраге, а не процесно ограничење, јер се фокусира из ког домена модел црпи одговоре, а не које кораке треба да прати. На упиту специфичном за одређени домен, овај фокус може бити веома користан.
3. Оптимална претрага је краћа него што мислите
Више токена неће поуздано произвести боље одговоре. Apple-ово истраживање открило је да модели често пронађу тачна решења врло рано, а онда се „замисле“ и пређу их, па наставе да претражују док не пронађу лошији одговор. Када дуго чекање произведе лош одговор, прави потез је једноставнији промпт, декомпонован проблем, или други модел. Више стрпљења код чекања одговора вам неће помоћи.
4. Претрага је погрешан алат за препознавање образаца
Apple је утврдио да стандардни модели надмашују reasoning моделе на задацима ниске сложености. Ако вам треба класификација, чињенични подсетник, превођење, сажимање, визуелно препознавање, немојте користити reasoning модел, јер ће претрага сигурно направити грешку. Користите инстант режим или модел без reasoning-а.
5. Граница знања модела је његово пред-тренирање
Компресија претраге значи да RL чини модел поузданим унутар постојећег опсега знања и способности. Када се претрага рано заврши и када добијете кратак и површан одговор на тешко питање, то сигурно значи да проблем који сте дефинисали вероватно превазилази оно што је базни модел научио. Декомпонујте проблем на делове које модел може да обради, или користите способнији модел.
6. Проширено генерисање појачава и сигнал и шум
Више токена = више прилика да се пронађу добра решења и више могућности за погрешна скретања у претрази која се акумулирају. Погрешна интерпретација на токену 200 може се пропагирати кроз 12.000 наредних токена, и на крају ћете добити грешку која се каскадно преноси да би на крају добили погрешан резултат. Решење овог проблема јесу једноставнији промптови: мање испреплетаних ограничења, јаснији приоритетни редослед и декомпозиција у секвенцијалне упите.
7. Ставите најважније на почетак
Сваки токен који модел генерише условљен је сваким токеном пре њега. Информација на почетку промпта обликује целокупну путању претраге. Критично ограничење које наведете на почетку промпта постаје темељ на којем се претрага гради. Исто ограничење наведено на крају дугачког промпта може бити потцењено након што су хиљаде међутокена успоставиле другачији правац. Ако имате један захтев у промпту који вам више значи од осталих, ставите га обавезно на почетку промпта.
Повремено шаљемо мејл када имамо нешто што вреди прочитати.