Gra we mgle

Wracam do tej sprawy, ponieważ nadal budzi silne emocje, jest nadzwyczaj ważna, złożona, i nie doczekała się wyczerpującego omówienia wybiegającego w przyszłość, nie przeszłość.

REKLAMA

20 czerwca 2026 roku najwyższe polskie odznaczenie państwowe wróciło do Warszawy kurierem, zwykłą paczką – jak zwrot wadliwego towaru. Ukraińskie media świętowały formę bardziej niż treść; w Polsce zawrzało. Dzień wcześniej prezydent RP odebrał Order Orła Białego prezydentowi Ukrainy, w odpowiedzi na nadanie jednostce wojskowej imienia „Bohaterów UPA”. W ciągu doby ordery zwracali już byli prezydenci i ministrowie, a komentarze po obu stronach granicy licytowały się w oburzeniu.

Spory między państwami rzadko przypominają partie szachów, w których obaj gracze widzą całą szachownicę i znają wartość każdej figury. Częściej są to rozgrywki we mgle: nie wiadomo, kiedy przeciwnik blefuje, a kiedy gra serio, pełne nieporozumień.
Pojawia się w związku z tym pytanie: czy w obliczu takiej niewiedzy wystarczy zdać się na intuicję, czy rozsądniej sięgnąć po dostępne narzędzia formalne, choćby były niedoskonałe, ze świadomością ich ograniczeń? To wymaga obszernego wyjaśnienia.

I. Przeciw cudownej naiwności
Zacznijmy od pokusy, której warto się oprzeć: nadziei, że problem rozwiąże się sam, jeśli tylko zachowamy się szlachetnie. To rodzaj zakładu, w którym z góry znamy niekorzystny rozkład prawdopodobieństw, lecz mimo tego obstawiamy – bo akurat tym razem może się udać. Gracz, który tak rozumuje przy ruletce lub pokerze, zazwyczaj kończy jak stu innych, których historie doskonale znał już wcześniej: zrujnowany, lecz przekonany, że był tylko o jeden krok od wygranej.
Ryzyko jest racjonalne wtedy, gdy dotychczasowa strategia przestała działać. Gdy trwanie przy niej gwarantuje porażkę, a ryzykowny ruch otwiera realną – choćby małą – szansę zmiany. Ale przestaje być racjonalne, gdy podejmujemy je wbrew wszystkim przesłankom: gdy coś nie działało, nie działa i nie zdradza najmniejszych oznak, żeby nagle miało zadziałać. Powtarzanie tego samego ruchu w oczekiwaniu na inny rezultat, choć może być odbierane w kategoriach odwagi lub wytrwałości, to przede wszystkim racjonalizacja, która nieustannie podnosi koszt utopiony. Co, najłagodniej rzecz ujmując, zakrawa na masochizm pod płaszczem nadziei.
Jeśli mamy narzędzie pozwalające oszacować, która strategia w danej klasie sytuacji wypada lepiej, powinniśmy z niego skorzystać – nawet jeśli narzędzie to nie daje pewności. Takim narzędziem jest teoria gier.

II. Krótka typologia gier
Trzy modele wystarczą, by uchwycić istotę najczęściej występujących rozgrywek.
Dylemat więźnia to gra, w której obustronna współpraca daje wynik dobry, obustronna zdrada – zły, lecz pokusa jednostronnej zdrady jest silna, a najgorszą rzeczą, jaka może nas spotkać, jest zostać oszukanym, gdy sami współpracujemy (rola „frajera”). W jednym rozdaniu logika jest bezlitosna: opłaca się zdradzić. Stąd paradoks – dwóch graczy podejmujących „racjonalny” wybór otrzymuje wynik gorszy, niż gdyby obaj zachowali się lojalnie.
Gra w tchórza (chicken) ma inną dynamikę. Dwóch kierowców pędzi ku sobie; ten, kto skręci, traci twarz, kto nie skręci, ginie – jeśli i drugi nie skręci. Tu najgorszym wynikiem nie jest bycie frajerem, lecz zderzenie. Cała różnica między tymi dwiema grami sprowadza się do porządku dwóch najgorszych rezultatów – i właśnie ta inwersja odwraca rekomendowaną strategię. W dylemacie więźnia opłaca się sygnalizować gotowość do współpracy. W grze w tchórza opłaca się – w wersji jednorazowej – wiarygodnie zobowiązać do nieustępliwości: wyrzucić kierownicę przez okno, odbierając sobie możliwość skrętu, by zmusić przeciwnika do ustąpienia.
Gra w tchórza zawiera ryzyko samounicestwienia: realizacja najgorszego wyniku może zakończyć dalsze iteracje albo radykalnie zmienić ich warunki. W skrajnym wariancie, po kraksie nie ma zwycięzców, więc gra iterowana się kończy – nie ma komu grać dalej. Stąd w rzeczywistości częściej spotykany jest inny model – wojna na wyczerpanie, gdzie obustronnie szkodliwe konfrontacje można powtarzać. Nie ma tu katastrofalnego zderzenia, lecz następuje licytacja wytrwałości. Każda runda podnosi koszt, a zwycięża ten, kto jest gotów płacić dłużej.

III. Dylemat rozpoznania
Skoro każda z tych gier dyktuje inną strategię, wiele zależy od tego, w którą z nich gramy. A tego – w realnym sporze – zwykle nie wiemy.
Co gorsza, typ gry nie musi być stały. W realnym świecie nie jest: zmienia się wraz ze stanem gry. W zależności od stanu środowiska lub przyświecającego graczom paradygmatu, kontynuowana rozgrywka bywa raz konfrontacją, raz polem do współpracy, a przejście między tymi reżimami nie jest wyraźne i nie jest sygnalizowane. Gdy w grze w tchórza koszt zderzenia spada poniżej kosztu ustąpienia – gdy „kraksa” staje się dotkliwa, lecz przeżywalna, po niej zaś wraca się do gry – gra topologicznie przechodzi w wojnę na wyczerpanie. Gdy koszt jednostronnego ustąpienia stanowi najgorszą wypłatę – grą zaczyna rządzić lęk przed rolą frajera: to już dylemat więźnia.
Tymczasem gracz musi działać, zanim dowie się, w jakiej grze działa.
To nieusuwalna niezupełność: z przesłanek, którymi dysponujemy, nie da się wyłonić jednoznacznego zwycięzcy.

IV. Repertuar strategii
Zorganizowane przez Roberta Axelroda w 1980 r. turnieje odmiennych strategii dostarczyły cennej wiedzy: konkurujące programy nie miały świadomości, a mimo to symulacja pozwoliła ilościowo wskazać, które z nich wypadają lepiej. Przy okazji pokazały, że racjonalność strategiczna nie wymaga umysłu – wystarczy reguła i sprzężenie zwrotne. To ważne, bo uwalnia analizę od jałowego sporu o to, czy gracze „naprawdę myślą”, jak też pozwala się skupić na analizowaniu działań, nie motywów.
Zwycięzcą Axelroda okazała się strategia wet za wet (tit-for-tat): współpracuj w pierwszym ruchu, potem powtarzaj ostatni ruch przeciwnika. Strategia jest życzliwa (nie zdradza pierwsza), odwetowa (karze natychmiast), wybaczająca (wraca do współpracy, gdy przeciwnik wróci) i czytelna (łatwo ją rozszyfrować). Ma jednak słabość: w środowisku o silnych zakłóceniach informacyjnych (zaszumionym), gdzie ruchy bywają błędnie odczytane, dwie strategie wet za wet łatwo wpadają w niekończącą się kaskadę wzajemnego odwetu – jeden przypadkowy cios rodzi wendetę.
Lekarstwem jest wspaniałomyślna wet za wet (generous tit-for-tat): karz, lecz z pewnym prawdopodobieństwem wybaczaj mimo zdrady. Pokrewny wariant odpowiada odwetem dopiero po dwóch kolejnych zdradach (tit-for-two-tats; TF2T). Subtelniejsza od obu – i mniej podatna na wyzysk – jest skruszona wet za wet (contrite TFT): rozróżnia błąd od celowej zdrady i nie mści się, gdy cios był usprawiedliwioną odpowiedzią, posługując się statusem moralnym gracza. Usprawiedliwiony odwet nie zmienia statusu, a strategia zakłada współpracę z graczem o pozytywnym statusie.
Osobno trzeba wymienić strategie, które nie są wariantami wet za wet, lecz kierują się odrębną logiką.
Pawłow (WSLS: wygrana-zostań, przegrana-zmień) trzyma się ruchu, który przyniósł wynik powyżej progu, a zmienia ten, który przyniósł wynik poniżej. Ma dwie własności bijące wet za wet: samonaprawia się po błędzie w dwie rundy oraz wyzyskuje bezwarunkowego kooperanta. Trafiwszy na uległość, okopuje się w zdradzie i doi ją bez końca. To strategia, która karze miękkość.
Strategie zerowo-determinantowe (Press, Dyson, 2012) uwzględniają pamięć ruchów. Gracz pamiętający choćby jeden ruch wstecz, przez odpowiedni dobór prawdopodobieństw kooperacji po czterech możliwych wynikach poprzedniej rundy może jednostronnie narzucić liniową zależność między długoterminowymi wypłatami obu stron – niezależnie od tego, co robi przeciwnik. W wariancie ekstorsywnym wymusza, by jego własna nadwyżka była wielokrotnością nadwyżki przeciwnika: racjonalny oponent, maksymalizując swój zysk, zostaje zmuszony do pełnej współpracy, z której wymuszający i tak zgarnia lwią część. W wariancie wspaniałomyślnym gracz dzieli nadwyżkę na korzyść przeciwnika, a mimo to pozostaje ewolucyjnie odporny: w populacji graczy uczących się odstępstwo od współpracy z nim po prostu przestaje się opłacać.
Specyficznym rodzajem strategii zero-determinantowych są ich formy graniczne. Prawdopodobieństwo reakcji jest z góry zdeterminowane, wymuszając liniowość wypłat.
Bezwarunkowa współpraca (AllC), to skrajna postać strategii ZD wspaniałomyślnej. Choć skuteczna w środowisku współpracującym, jest ewolucyjnie niebezpieczna. Gdy populacja zdominowana przez wspaniałomyślne wet za wet w korzystnych warunkach dryfuje ku bezwarunkowej życzliwości (bo nie ma jak odróżnić jednej od drugiej), otwierają się drzwi dla najeźdźcy, który zdradza zawsze. To „śmierć przez wybaczanie” (lub, jak w innym kontekście ujął to Gad Saad, „samobójcza empatia”).
Po przeciwnej stronie znajduje się bezwarunkowa defekcja (AllD) – to skrajna wersja strategii ZD ekstorsywnej. Jałowa, ale bezpieczna. Ma w związku z tym sens jako kontrstrategia: w standardowym dylemacie więźnia AllD zapewnia, że nasza wypłata nie będzie niższa od wypłaty przeciwnika. Gdy przeciwnik odpowie tym samym, sprowadza obu graczy do wspólnego poziomu (podłogi), uniemożliwiając dominację w relacji dwustronnej. Należy mieć przy tym świadomość, że zawzięty brak współpracy może doprowadzić do katastrofalnego zderzenia, a w realnym świecie w razie konfliktu wypłaty nie są równe, więc upór może mieć charakter samobójczy.
Podobną funkcję pełni spust nieubłagany (grim trigger) – współpracuj do pierwszej zdrady, potem zawsze odmawiaj współpracy. Bardzo dobrze sprawdza się jednocześnie jako narzędzie do wymuszania współpracy w grupie w środowisku mieszanym.
Nie istnieje bezwarunkowo najlepsza strategia w każdym typie gry. Mamy do dyspozycji mnogość wyboru – wspaniałomyślna wet za wet, Pawłow, skruszona wet za wet, wspaniałomyślna ZD wygrywają w różnych reżimach szumu, struktury populacji i głębi pamięci. Postulat „zaryzykuj najlepszą znaną strategię” nie rozwiązuje sprawy definitywnie, lecz przenosi problem piętro wyżej. Nadal mamy do czynienia z niezupełnością prognostyczną.
Co może ją ograniczyć? Trzy rzeczy, których teoria sama z siebie nie dostarcza.
Po pierwsze – prior: wstępne przekonanie o typie przeciwnika, budowane na historii relacji. Po drugie – pozycja graczy: w wojnie na wyczerpanie wygrywa ten, kogo trwanie mniej kosztuje lub kto jest w stanie wytrzymać więcej. Po trzecie – rozpoznanie: zdolność odczytania, czy ruch drugiego gracza jest sondowaniem naszej uległości, szczerą próbą współpracy, czy przypadkiem.

V. Diagnoza: gracz asertywny
Przyłóżmy to do konkretu. Rozważmy relację, w której toczy się spór o status i honor – a serię posunięć drugiej strony da się odczytać jako powtarzalne testowanie granic naszej pobłażliwości. Nie przesądzam tu o motywach; przesądzam o wzorcu zachowań, bo on jest decyzyjnie istotny. Wzorzec sondowania uległości – kolejnych posunięć niekooperacyjnych, na które odpowiadano cierpliwością odczytywaną następnie jako słabość – wskazuje na gracza, którego najtrafniej nazwać asertywnym: takiego, który traktuje naszą wspaniałomyślność nie jako zaproszenie do wzajemności, lecz jako zasób do eksploatacji.
To rozpoznanie ma wagę, bo dwie najgroźniejsze strategie przeciwnika – WSLS (wyzysk uległości) oraz ekstorsja zerowo-determinantowa – są dokładnie dwoma sposobami, na jakie druga strona może ukarać naszą szlachetność. Jednakże – co ważne – przeciw obu działa to samo lekarstwo.
Przeciw WSLS (Pawłow) wspaniałomyślność jest błędem. Strategia Pawłowa czyta wybaczenie zdrady jako swoją wygraną. Działa natomiast odwet: nasz cios sprowadza grę do obustronnej zdrady, którą ta strategia odczytuje jako przegraną – więc mocą własnej reguły wraca do współpracy. Stanowczość konwertuje adwersarza w kooperanta. Zwłoka (np. w TF2T) jest tu niekorzystna: strategia odpowiadająca dopiero po dwóch zdradach pozwala przeciwnikowi sukcesywnie kumulować zyski.
Wobec ekstorsji pułapką jest „racjonalny egoizm” – chcąc maksymalizować własną wypłatę, dajemy się wykorzystywać. Dźwignia leży w naturze ZD: wymusza ona relację, nie wartość bezwzględną. W tym tkwi remedium: skoro premia ekstorsjonisty jest przywiązana do naszej nadwyżki, to odmawiając współpracy i spychając grę ku obustronnej zdradzie, ściągamy go na podłogę razem ze sobą – a jego wymuszona relacja gwarantuje, że tonie razem z nami. Najlepszą odpowiedzią jest więc wiarygodna niezgoda: gotowość przyjęcia złego wyniku. Racjonalny ekstorsjonista, w obliczu kogoś, kto naprawdę gotów jest utonąć wraz z nim, porzuca wygórowane żądania i schodzi do warunków uczciwych – bo ekstorsja przestaje mu się opłacać.
Obie odpowiedzi zbiegają się jednak w jedną postawę: niewspaniałomyślną, wiarygodnie gotową ponieść koszt obustronnej niekooperacji.

VI. Odwet jako sonda – i jego cena
W przypadku napotkania defekcji, diagnoza przechyla prior ku konfrontacji. Ale – i to jest puenta, której nie opłaca się pominąć – nie musi to być wyrok. Przed wejściem na kosztowną ścieżkę eskalacji, wstępny odwet można potraktować jako eksperyment.
Strategicznym plusem odwetu w relacji dwustronnej jest to, że stanowczy, lecz skalibrowany, odbiera główną nagrodę zarówno wyzyskiwaczowi uległości, jak i ekstorsjoniście. Buduje reputację gracza, którego nie opłaca się testować; a także pozwala zdobyć informację. Jest jednocześnie ruchem strategicznym i sondą diagnostyczną. Odpowiedź daje wiedzę o typie przeciwnika: gracz wyzyskujący naszą miękkość zareaguje inaczej niż kooperant, który po prostu się pomylił.
Nie ma jednak róży bez kolców; to byłoby zbyt piękne. Występują ryzyka, które wypada poruszyć.
Ryzyko pierwsze: błędne rozpoznanie typu gry. Jeśli to jednak gra w tchórza, a nie dylemat więźnia, ta sama redukcja odwetu, która w dylemacie więźnia czyta się jako gest pojednawczy, w grze w tchórza może zostać odczytana jako ustępstwo – czyli zaproszenie do dalszej eksploatacji.
Ryzyko drugie: błędne rozpoznanie reżimu. Gra może mieć zniuansowany charakter. Zamiast dwóch stron mogą występować strony poboczne. Gracze mogą działać przez pośredników, którzy mają swoje własne, oddzielne pule nagród. Oprócz sumy punktów może się liczyć stan środowiska gry lub relacje obu graczy do tego środowiska w dalszej przyszłości.
Ryzyko trzecie: niekorzystny stosunek kosztów. Wybór konfrontacji może wykrwawiać nas szybciej niż przeciwnika, gdy gra jest kontynuowana w trybie wojny na wyczerpanie. Przeżywalność zderzenia nie wystarcza; trzeba jeszcze, by względny rachunek kosztów był po naszej stronie.
Ryzyko czwarte: złudzenie czystego resetu. Przekonanie, że po zderzeniu „wraca się do gry”, zaniża histerezę. Żadna kraksa nie pozostaje bez pamięci: każda aktualizuje reputację. W kolejnej rundzie wraca nie ta sama gra, lecz nowa, z gorszymi priorami. Kto poważnie traktuje nieodwracalność i tarcie strukturalne procesów społecznych, ten musi modelować ponowne wejście jako ścieżkowo zależne.
Ryzyko piąte: eskalacja. Wobec gracza, którego niekooperacja jest napędzana strukturalnie – np. przez egzystencjalne zagrożenie lub przez odgórne założenia w strategiach niewspaniałomyślnych – nawet proste wet za wet może doprowadzić do konsolidacji, wendety i obopólnej AllD, ze stałym, najniżej zafiksowanym wynikiem po obu stronach.

VII. Pokusa fałszywej zgody
Ryzyko eskalacji jest nieuniknione i trzeba je przyjąć – to nie kwestia brawury i emocji, lecz z rachunku wyższego rzędu, który nakazuje odrzucić jedynie pozornie racjonalną racjonalizację. Z punktu widzenia gracza zgoda na ryzyko eskalacji nie jest gorsza niż pewna, powolna przegrana bezwarunkowej współpracy. W strategii AllC frajer, który daje się doić bez końca, to podmiot zatrzaśnięty w najgorszym strumieniu wypłat. Pomimo wizji przyszłych korzyści lub katastrofy w razie defekcji, to nie jest bezpieczna przystań, lecz przegrana rozłożona w czasie. Pozorny spokój okazuje się mieć wysoką cenę. Akceptując ryzyko odwetu, wymieniamy natomiast nieuchronność straty na stratę zaledwie możliwą. A w przypadkach nierokujących poprawy odwet ogranicza wypłatę adwersarza do wspólnego poziomu i wyklucza relatywną przegraną – niezależnie od strategii, którą tamten realizuje.
I tu dochodzimy do zwrotu akcji, który odwraca pozorną oś całej dotychczasowej argumentacji. Wydawało się, że powyższe wnioski prowadzą do mnożenia wariantów i możliwości – że musimy najpierw rozstrzygnąć, czy mamy przed sobą wyzyskiwacza, czy kooperanta, który przypadkowo odmówił współpracy; ekstorsję instrumentalną czy desperację; niekooperację personalną czy strukturalną. Otóż nie. Najmocniejsze strategie iterowane – wet za wet, jej wspaniałomyślny wariant, Pawłow – są z założenia ślepe na typ: reagują na ruch, nie na domniemaną naturę gracza. Na tym polega ich siła. Zamiast skupiać się na fantazjach i domysłach – reagują na obserwowalne fakty. Nie wiemy i nie możemy ostatecznie ustalić, jaką strategię realizuje druga strona – a czekanie na tę pewność jest w istocie graniem bezwarunkowej współpracy poprzez zaniechanie.
Niepewność nie znika. Z wątpliwości nad rodzajem odpowiedzi przesuwa się jednak do innych parametrów, które pozostają w naszych rękach: siły odpowiedzi i progu, przy którym uznajemy kolejne ruchy za celowo antagonistyczne, a nie za przypadek. Kierunek wyznaczają wyżej opisane startegie; rodzaj odpowiedzi można skalować i testować różne warianty. To nadal obstawianie – to nieuniknione; ale obstawianie, w którym przynajmniej znamy rozkład i wiemy, że bierność ma rozkład gorszy.

VIII. Świadectwo z życia wzięte
Teza, że skalibrowany odwet (natychmiastowy, pewny, lecz skromny i z otwartą drogą powrotu) działa, podczas gdy surowość maksymalna obraca się przeciw karzącemu, nie jest wyłącznie pustą teorią, artefaktem abstrakcyjnych symulacji. Ma niezależne potwierdzenie empiryczne w dziedzinie pozornie odległej od geopolityki: w resocjalizacji trudnej młodzieży i przestępców. Wartość tego świadectwa polega na tym, że dysponuje twardymi danymi randomizowanymi, a mimo to wskazuje tę samą zwycięską sygnaturę.
Bardzo dobrze udokumentowany model dyscypliny w kryminologii – sankcje szybkie, pewne, lecz nie-surowe (program HOPE sędziego Stevena Alma, ujęty teoretycznie przez Marka Kleimana) – jest co do struktury bliźniaczy wobec wspaniałomyślnej wet za wet. Reakcja następuje po każdym przewinieniu, jest natychmiastowa, skalowana skromnie i pozbawiona urazy. Po odbyciu krótkiej kary skazany wraca do społeczeństwa. W randomizowanym badaniu uczestnicy objęci dozorem przydzieleni do tego reżimu byli o ponad połowę rzadziej aresztowani i rzadziej tracili dozór niż grupa kontrolna – a co istotniejsze, większość nie potrzebowała więcej niż jednej sankcji. Choć późniejsza wieloośrodkowa replikacja nie potwierdziła równie wyraźnej przewagi nad standardowym dozorem, co pokazuje, że sama reguła nie. wystarcza bez odpowiedniego środowiska wdrożenia. Można jednak stwierdzić, że uczestnicy realnie zmieniają swoje zachowanie. Przekładając na język teorii gier – zmieniają strategię, obserwując nieskuteczność zachowań antysocjalnych, a zalety współpracy.
Drugi biegun jest równie mocnym dowodem – w przeciwnym kierunku. Programy restrykcyjne, w których realizowana jest maksymalna groźba, zero stopniowania oraz brak ścieżki powrotu, w metaanalizach nie tylko nie odstraszają, lecz zwiększają recydywę, niemal dwukrotnie podnosząc szanse na ponowne przestępstwo. To empiryczna egzemplifikacja strategii „spustu nieubłaganego” i „nigdy nie ustępuj”. Surowość bez kalibracji hartuje przeciwnika ku oporowi. Działa tylko wobec nieprzejednanych przypadków, gdzie zmiana modus operandi gracza okazuje się niemożliwa i pozostaje tylko izolacja.
Podobnie model przymusu rodzinnego Geralda Pattersona jest jawnie iterowaną grą i tłumaczy, skąd biorą się postawy antyspołeczne. Rodzic i dziecko wzajemnie wzmacniają eskalację, nagradzając najgorsze zachowanie drugiego. Dwie egoistyczne, krótkowzrocznie wygodne, a więc pozornie „racjonalne” strategie produkują wspólnie najgorszy długoterminowy wynik. Błędne koło jest skutkiem nieprawidłowych założeń co do optymalnych reakcji.

IX. Rozdanie polsko-ukraińskie
Kto dotrwał do tej pory po niełatwej i już długiej lekturze – winszuję. Zbliżamy się bowiem do finału, do którego teoretyczny wykład był koniecznym wstępem.
W świetle ostatnich wydarzeń, należy dokonać oceny kształtu relacji Polski i Ukrainy, możliwych kierunków oraz następstw dalszych działań, w ramach przedstawionego aparatu formalnego.
Na wstępie ważne zastrzeżenie. Ślepota na typ dotyczy reguły odpowiedzi: karz po defekcji, wybaczaj po powrocie. Nie obejmuje natomiast wyboru reżimu gry. Analiza struktury wypłat, tego, kto zyskuje, na czym i w jakiej walucie, nie jest psychologizowaniem, lecz topologią. Intencji Kijowa nie znamy i znać nie musimy; strukturę jego wypłat możemy zrekonstruować z obserwowalnych ruchów. Rodzaj odpowiedzi wynika bezwarunkowo z optymalnej dla danego typu gry strategii. Forma powinna jednak uwzględniać szczegółową wiedzę. Temu służy dalsza część.
Najbardziej adekwatnym modelem dla relacji polsko-ukraińskich jest gra stochastyczna z endogenną zmianą struktury, modulowana szumem informacyjnym.
Poziom zagrożenia ze strony Federacji Rosyjskiej wyznacza stan gry. To istotne, ponieważ wyjaśnia zarówno niedawną uległość, jak i dzisiaj narastającą twardość Warszawy. Gdy zagrożenie militarne dla Kijowa jest maksymalne, koszt polsko-ukraińskiego zderzenia jest zaporowy: kraksa między dostawcą a odbiorcą pomocy w szczycie inwazji byłaby przegraną dla obu. Nawet jeśli to przegrana asymetryczna – dla Ukrainy ma natychmiastowe, katastrofalne konsekwencje, dla Polski niekonicznie – gra przybiera strukturę gry w tchórza. Polska racjonalnie ustępowała, grając niemal bezwarunkową kooperację. Lata 2022–2023 to właśnie ten reżim.
W miarę stabilizowania się frontu koszt obopólnej defekcji spada: zderzenie staje się dotkliwe, lecz przeżywalne, a gra endogennie dryfuje ku wojnie na wyczerpanie i dylematowi więźnia – czyli ku reżimom, w których skalibrowany odwet przestaje być szaleństwem, a staje się poprawną odpowiedzią. Gra zmieniła stan, a wraz z nim zmieniła się strategia optymalna.
Jednakże zapadające w nowych warunkach decyzje polityczne (takie jak polskie blokady graniczne czy ukraińskie skargi do WTO) nie są przy tym tylko ruchami wewnątrz stałej gry – one zmieniają strukturę wypłat na wiele kolejnych rund, niszcząc zaufanie strukturalne.
Ukraińska dyplomacja od końca 2022 roku wykazuje bardzo silne cechy behawioralne strategii ZD-ekstorsywnej, co widać w trzech kluczowych aspektach:
• Asymetria oczekiwań. Kijów de facto zakomunikował Warszawie: „Wasza maksymalizacja bezpieczeństwa narodowego jest nierozerwalnie związana z naszym przetrwaniem. Dlatego opłaca wam się bezwarunkowo nas wspierać (współpraca), nawet jeśli my w obszarze gospodarczym będziemy działać egoistycznie (zdrada) i przejmować lwią część premii z tego układu”.
• Wykorzystywanie racjonalności oponenta. Strategia ekstorsywna ZD działa tylko na graczy racjonalnych. Ukraina doskonale wie, że upadek jej państwowości byłby dla Polski geopolityczną katastrofą – lub przynajmniej, że tak jest to powszechnie nad Wisłą postrzegane. Wykorzystuje tę racjonalność strukturalną Polski jako dźwignię, wiedząc, że Warszawa ma ograniczone pole do trwałego i pełnego odwetu.
• Przenoszenie kosztów. Wszelkie próby asertywnej obrony polskich interesów (np. ochrona rynku rolnego) są przez Kijów natychmiast „karane” poprzez retorsje wizerunkowe i umiędzynarodowienie sporu – sojusze ponad głową Warszawy z Berlinem czy Waszyngtonem – co ma pokazać Polsce, że odchylenie od ścieżki jednostronnej współpracy generuje koszty bez korzyści.
Warto zauważyć, że gdy współczynnik ekstorsji zostaje ustawiony zbyt wysoko, gracz państwowy pod presją wewnętrzną (wyborcy, rolnicy, przewoźnicy) akceptuje spadek własnej wypłaty do poziomu najniższego, byle ukarać wymuszającego i ograniczyć jego zyski do tego samego poziomu. Emocje nie są tu ozdobnikiem, a sygnałem ostrzegawczym, że wypłaty z gry przestają być ewolucyjnie korzystne.
W klasycznym, statycznym ujęciu Pressa i Dysona odpowiedź na ekstorsję bywała nazywana „irracjonalną”, ponieważ w krótkim horyzoncie optymalizacja własnego wyniku nakazywała uległość. Jednak w rzeczywistości geopolitycznej odmowa bycia „frajerem” – odrzucenie roli bezwarunkowego kooperanta – jest głęboką, długofalową racjonalnością strategiczną. Chroni gracza przed wejściem w permanentną, strukturalną zależność, która w przyszłych grach uniemożliwiłaby mu realizację jakichkolwiek celów autonomicznych.
Reakcja Polski – przejście do defekcji (blokady rolnicze, twarde warunki akcesyjne) – to strategia wymuszenia resetu. Gdy racjonalny gracz orientuje się, że dalsza ekstorsja prowadzi do obopólnej, permanentnej kary, jego dotychczasowa strategia przestaje być ewolucyjnie stabilna i pojawia się przestrzeń na przejście ku wariantowi wspaniałomyślnemu. Pytanie tylko, w jakim stopniu Ukraina jest graczem racjonalnym.
Ostatnie tygodnie każą w to wątpić. Na odebranie Zełenskiemu Orderu Orła Białego – po prowokacyjnym nazwaniu jednostki na cześć UPA – Ukraina zareagowała nadmiarowo nieżyczliwie: ordery zwrócili też inni politycy, order odesłano pocztą, a ukraińską prasę i internet wypełniły niewybredne komentarze i kłamstwa na temat Polski. Kijów uważa kult UPA za element tożsamości antysowieckiej na linii frontu; decyzję prezydenta Nawrockiego odczytano tam nie jako obronę polskiej pamięci historycznej, lecz jako „cios w plecy” i „prezent dla Moskwy”.
Nota bene – to zakorzenienie w strategii ekstorsywnej może być w Polsce czytane jako sowiecka spuścizna mentalna. Z kolei oceniając bilans wymiany, Polacy preferują strategie wspaniałomyślne, budujące kooperację.
Gra weszła najprawdopodobniej w reżim kaskady wzajemnego wet za wet – każdy kolejny ruch generuje silniejszą potrzebę odwetu u przeciwnika, zwłaszcza po stronie ukraińskiej, co drastycznie zwiększa prawdopodobieństwo pełnego paraliżu relacji i dryf ku wojnie na wyczerpanie prowadzonej na wszystkich polach naraz. Może nawet jest już gorzej – na nowej płaszczyźnie : o ile na osi bezpieczeństwa gra złagodniała ku dylematowi więźnia, na osi wzajemnego statusu sytuacja stała się agresywną, ekstorsywną wersją gry w tchórza, gdzie porażką nie jest już zysk Rosji, a ostry konflikt z Ukrainą.
Zwłaszcza że Zełenski i jego ekipa, kontynuując strategię ekstorsywną, mogą szukać pretekstu, żeby obarczyć Polskę winą za niesatysfakcjonujące ustalenia pokoju z Rosją lub za brak akcesji do UE – do której wcale być może nie chcą należeć ukraińscy oligarchowie, a co do której istnieje też ryzyko, że Ukraina nie zostanie przyjęta ze względu na panującą tam korupcję.

Dlaczego Zełenski może chcieć to zrobić? W kontekście powyższego, powody są nader liczne i niemal oczywiste.
1. Ucieczka przed wewnętrznym rozliczeniem. Jeśli Ukraina zostanie zmuszona do bolesnych kompromisów terytorialnych, a marzenia o szybkim wejściu do UE i NATO zderzą się z rzeczywistością (korupcja, brak reform, opór państw zachodnich), ukraińskie władze będą potrzebowały zewnętrznego winnego, aby utrzymać legitymację polityczną w kraju.
2. Przerzucenie kosztu na drugiego gracza. Polska, poprzez swoje twarde i głośne stanowisko (m.in. zapowiedź prezydenta Nawrockiego o możliwości blokowania akcesji z powodów historycznych), idealnie nadaje się na kozła ofiarnego. Kijów może wówczas ogłosić: „Chcieliśmy wejść do Europy, ale Polska, przez swoje historyczne fobie, zamknęła nam drzwi i wydała nas na pastwę losu”.
3. Zysk z narracji. Taki ruch pozwala Ukrainie zachować status moralnego zwycięzcy na arenie międzynarodowej, jednocześnie zdejmując z ukraińskich elit politycznych i oligarchicznych odpowiedzialność za wewnętrzne zapóźnienia strukturalne.
Opór ukraińskich oligarchów oraz strukturalna korupcja to kluczowe, ukryte parametry wypłat w tej grze:
• Pozorna kooperacja. Dla Kijowa oficjalny proces akcesyjny to potężne narzędzie legitymizacji politycznej i pozyskiwania funduszy pomocowych.
• Ukryte weto oligarchiczne. Rzeczywiste wejście do UE oznaczałoby konieczność dostosowania się do prawa antymonopolowego, transparentności rynkowej i unijnych norm prawnych. To zniszczyłoby tradycyjny model biznesowy wielkich struktur oligarchicznych.
• Strategiczny pat. W tym sensie przedłużający się spór z Polską może być dla niektórych grup interesu w Ukrainie wygodnym alibi. Mogą pozorować chęć integracji, czerpać zyski z asymetrycznego dostępu do wolnego rynku UE, a za brak finalnego członkostwa winić „nieustępliwą Warszawę”.
Jeśli przeciwnik zyskuje zarówno na polskiej uległości (czerpiąc asymetryczne zyski), jak i na polskim głośnym oporze (budując narrację kozła ofiarnego i konsolidując scenę wewnętrzną), oznacza to, że Polska znalazła się w klinczu strategicznym. W teorii gier sytuację tę opisuje się jako grę z niesymetryczną informacją, w której tradycyjne, jawne ruchy – zarówno kooperacja, jak i konfrontacja – zostały przez przeciwnika wewnętrznie zmonetyzowane.

Istniejej jednak szczelina, w którą może się wbić cała dalsza strategia: interes decydenta i interes państwa ukraińskiego nie pokrywają się. Ekstorsja ma wspólnika mniejszościowego – i znamy jego adres oraz słabości.

Aby przełamać impas, Polska musi porzucić proste reaktywne schematy i wdrożyć strategie asymetryczne, wpisujące się w ramy wet za wet w obliczu ekstorsji.
1. Strategia „Cichego warunku” (mało mówić, dużo robić).
Skoro ukraińska dyplomacja karmi się polskim oporem werbalnym i symbolicznym (jak odebranie orderu), aby budować narrację ofiary, optymalną odpowiedzią jest całkowite wygaszenie retoryki przy jednoczesnym technicznym, konsekwentnym i legalnym egzekwowaniu jasno określonych warunków, pod rygorem blokowania ważnych zasobów – z formalnym zachowaniem bezstronności i przeszkodami lokalizowanymi raczej w obiektywnych trudnościach. Oligarchowie ponoszą wtedy realne koszty finansowe, których nie są w stanie zrekompensować zyskiem wizerunkowym. Rozgrywki symboliczne są dla Ukrainy tanie. Materialne – wręcz przeciwnie. Celem nie jest odebranie drugiej stronie narracji w ogóle, lecz odebranie jej narracji taniej.
2. Strategia „Umiędzynarodowienia Kosztów”.
Ukraina próbuje ograć Polskę w relacji dwustronnej; Polska musi przenieść spór na poziom, na którym Kijów nie może już wskazać Warszawy jako jedynego winnego. Zamiast jednostronnych polskich wet (które łatwo nazwać sabotażem) – koalicje państw o zbieżnych interesach gospodarczych: Rumunia, Słowacja, w obszarze rolnictwa także Francja. Dyskusję o barierach korupcyjnych i oligarchicznych należy wszcząć na poziomie Parlamentu Europejskiego i Komisji jako problem stabilności całego rynku wspólnotowego, nie „sporu polsko-ukraińskiego”. Dobór partnerów ma tu wagę strategiczną: koalicja z Budapesztem, choć interesy bywają zbieżne, importuje etykietę obozu prorosyjskiego i podważa wiarygodność całego ruchu. Sojusznikami muszą być państwa, których proukraińskość jest poza podejrzeniem.
3. Decoupling – Strategia Oddzielenia Państwa od Oligarchii.
Ukraińska struktura interesów nie jest monolitem: istnieje rozdźwięk między interesem walczącego społeczeństwa i armii a interesem oligarchów eksportujących zboże czy stal. Stąd poziomowanie wypłat – twardość dokładnie na tym poziomie, na którym zachodzi defekcja, i podtrzymana kooperacja na poziomie, który defekcji nie popełnił. Polska powinna demonstracyjnie wspierać ukraińskie wojsko (hub w Jasionce, pomoc szpitalna, tranzyt broni), jednocześnie uderzając w interesy oligarchów: sankcje infrastrukturalne na konkretne holdingi agrobiznesowe, przy głośnym komunikacie do ukraińskiego społeczeństwa – „pomagamy waszym żołnierzom, ale nie pozwolimy, by trzej oligarchowie zarejestrowani na Cyprze niszczyli polskie rodziny”. To nie jest bezwarunkowość naiwna, lecz tarcza: Zełenskiemu będzie niezwykle trudno zrzucić winę na Polskę przed własnym wojskiem, jeśli wojsko to stale otrzymuje polskie wsparcie. Narastająca w okopach frustracja wobec korupcji będzie wspierać polskie zarzuty i ograniczać pole manewru decydentów. Walcząc z korupcją na Ukrainie, Polska nie tylko ucieszy ukraińskie społeczeństwo – wyświadczy mu realną przysługę.
4. Strategia „Ubiegającego Ujawnienia”.
Skoro istnieje wysokie ryzyko, że Ukraina wykorzysta Polskę jako kozła ofiarnego w przypadku narzuconego przez mocarstwa pokoju z Rosją, Polska musi pierwsza narzucić narrację – odwrócić kolejność ruchów w grze. Należy publicznie i precyzyjnie zdefiniować warunki brzegowe: polska dyplomacja powinna już teraz, w Waszyngtonie i stolicach UE, głośno i formalnie dokumentować każdy przypadek ukraińskiej korupcji, blokad ekshumacji czy uderzeń w polski biznes. Należy stworzyć Białą Księgę relacji polsko-ukraińskich. Gdy w przyszłości Kijów spróbuje ogłosić: „to przez Polskę nie ma pokoju i nie ma akcesji”, Zachód będzie już dysponował wieloletnim zestawem dowodów, że winę za ten stan ponoszą wewnętrzne patologie ukraińskiego systemu, a nie Warszawa. Ta strategia ma wyjątkowo cenną własność w naszej sytuacji: jest skuteczna niezależnie od typu rozgrywającego – instrumentalnemu podraża, ekspresyjnemu dokumentuje działania.
5. Strategia „Wiążącego Podarunku”.
To wariant wspaniałomyślnej ZD – powiązanie atrakcyjnych wypłat dla Ukrainy z polskimi korzyściami, tak by jedynie kooperacja opłacała się obu stronom, choć Polska może dzielić zyski asymetrycznie na korzyść Ukrainy: inwestycje, szkolenia, wspólne przedsięwzięcia przy polskim finansowaniu. Kluczowa jest jednak kolejność: podarunek nie jest alternatywą dla czterech powyższych strategii, lecz ich następstwem. Zaoferowany na otwarcie, przy graczu ekstorsywnym zostanie odczytany jako słabość i stanie się polem testowania oraz dalszej jednostronnej eksploatacji. Dopiero zaoferowany po ustanowieniu wiarygodności kija staje się dźwignią: marchewką, której cofnięcie boli, bo już się jej skosztowało. Wspaniałomyślność jest bezpieczna dopiero wtedy, gdy przeciwnik wie, że nie jest bezwarunkowa.

Strategia rozbijania jedności między ukraińską oligarchią a tamtejszym społeczeństwem i armią to uderzenie w najwrażliwszy punkt ukraińskiego systemu polityczno-gospodarczego. Wymaga konsensusu oraz radykalnej zmiany polskiego języka dyplomatycznego i medialnego: precyzyjnego rozdzielenia pojęć „Ukraina walcząca” i „Ukraina oligarchiczna”. Taka strategia wyciąga Polskę z pułapki reaktywności. Sprawia, że opór Polski staje się pożyteczny dla ukraińskiego społeczeństwa, a zabójczy jedynie dla oligarchów.

Mgła z pierwszego akapitu nie opadnie – ale we mgle też można grać dobrze: nie zgadując, kim jest partner w grze, lecz odpowiadając na to, co robi. To nie jest naiwna wiara, że formalny model (teoria gier) w wystarczającym stopniu oddaje złożoność sytuacji, lecz przekonanie, że to najlepszy dostępny model działania.