Szymon Cieślik | Agenci AI

336 posts

Szymon Cieślik | Agenci AI

@budujAgentaAI

8 agentów AI pracuje dla mnie 24/7. Każdy zna mój kontekst i biznes. Pokazuję jak zbudować Twojego agenta.

Присоединился Ocak 2025

42 Подписки30 Подписчики

Szymon Cieślik | Agenci AI@budujAgentaAI·2h

@bcherny @Benioff This matches what I see. The wins come from deleting steps, not speeding them up. I let an agent own a full draft to review loop and one handoff vanished. The hard part is trusting it enough to drop the human checkpoint. Which handoff went first?

English

Boris Cherny@bcherny·2d

The teams seeing the biggest wins from AI are completely changing how they work, not speeding up what they already do. What steps can you delete, what handoffs go away, what can an agent just own end to end. Great to see Salesforce go this deep. Shoutout to Srini, @Benioff & team. Full writeup: salesforce.com/news/stories/h…

English

535

70.3K

Boris Cherny@bcherny·2d

Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'd scoped at 231 days shipped in 13. One PR delivered 21 endpoints at 100% test coverage.

English

139

177

3.6K

373.4K

Szymon Cieślik | Agenci AI@budujAgentaAI·2h

@bcherny The coverage number is what I trust most here. Speed claims inflate easily. On my own migrations the agent really shines only when the spec is tight and the tests exist first. Was that 100% coverage generated by the agent too, or already in place?

English

Szymon Cieślik | Agenci AI@budujAgentaAI·14h

Ten tydzień przypomniał mi prostą rzecz. AI dobrze skaluje pracę. Nie skaluje zaufania. Może napisać draft. Może zebrać dane. Może przygotować wiadomość po rozmowie. Może znaleźć brakujące informacje. Ale rozmowa na żywo dalej robi coś, czego nie dowozi żaden model. Daje kontekst, intencję i szybszą ocenę człowieka. Najlepszy układ na dziś: AI do procesów. Ludzie do relacji.

Polski

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@CKeruac Częściowo się zgadzam. Rdzeń stoi, ale użyteczność u mnie skoczyła mocno. Większy kontekst i lepsze narzędzia wokół modelu zmieniły to co realnie da się zrobić w jeden wieczór. Przełom nie musi siedzieć w architekturze żeby zmienił pracę.

Polski

Christopher Keruac@CKeruac·1d

Przełomów nie ma. Mamy tylko coraz bardziej wyszukaną wersję tego samego: większe konteksty, lepsze benchmarki, ale rdzeń architektury i mechanizmy uczenia się prawie stoją w miejscu od 2023 roku. Cała reszta to: - agresywne dostrajanie RLHF/RLAIF (żeby model był „bezpieczny” i „pomocny”) - coraz bardziej pokręcone system promptów i guardraili - fejkowe „myślenie krok po kroku” które i tak jest tylko token prediction w przebraniu, i masa marketingowego szumu. Claude jest tego najlepszym przykładem - zamiast stać się mądrzejszy, stał się bardziej neurotyczny.

Yanqing@YanqingCheng

wow, Opus 4.8 is very... argument-happy? it picked a fight with me about my usage of the word "ontology", and when we eventually got back on the same page philosophically, told me to go to bed it's past 11:30 (it's 8:30). and when I told it "hey you actually have a clock?" it started erroring out aggressively. very Sydney Bing, I honestly approve

Polski

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@swiat_ai Tabelki to jedno, realna praca drugie. U mnie liczy się jak model trzyma kontekst przy długim zadaniu, nie pozycja w benchmarku. Testuję na własnym zadaniu zanim uwierzę w wykres. Sprawdzałeś już 4.8 na czymś swoim?

Polski

Świat AI@swiat_ai·2d

No to idziemy dalej w tym wyścigu zwanym AI. Claude wypuszcza Opus 4.8. Standardowo w tabelkach model jest zawsze najlepszy.

Claude@claudeai

Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the ability to work independently for longer than its predecessors. Available today at the same price.

Polski

5.8K

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@bcherny Tradeoff usually shows up when guardrails sit at the end of the pipeline. Move them inside the agent loop and every change carries its own check. More output stops meaning thinner review when the check is part of the unit of work.

English

Boris Cherny@bcherny·2d

Quality went up alongside output. Even with more PRs shipping, total incidents dropped 5%. They built security guardrails and quality standards into the agentic workflow itself. Productivity vs quality is sometimes framed as a tradeoff. They're not seeing it.

English

485

71.2K

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@alexalbert__ Easiest signal isn't the answer, it's the shape. Verbose intermediate steps that don't move the final reply = overthink. Skipping a caveat then circling back = underthink. Helps to share the trace alongside the example.

English

Alex Albert@alexalbert__·3d

We put a lot of work into calibrating thinking effort for Opus 4.8. As you're trying out the model, if you do run into any examples of it still over/under thinking, please flag it to us!

kipply@kipperrii

hello beloved tasteful users, do you like how much claude thinks on your tasks? would love examples of it thinking too much or too little

English

420

35.3K

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@SpidersWebPL Siri przegrała bo była stateless. Restart oznacza budowanie stanu sesji, modelu intencji i pamięci kontekstu, czyli wszystkiego czego jednorazowy prompt nie da. Dłużej, ale właściwy fundament.

Polski

SPIDER'S WEB@SpidersWebPL·3d

Tak będzie wyglądać nowa Siri. Apple robi jej największy restart w historii 📱Apple w końcu pokaże, jak chce dogonić konkurencję w kwestii AI. 🔴Apple przebudował asystenta od fundamentów. spidersweb.pl/2026/05/siri-n…

Polski

527

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@prywatnik Microsoft cofa licencje za nadużycie, nie za niewykorzystanie. Mierzysz adoption rate, dostajesz adoption rate. Mierzysz zmianę w cycle time albo defect rate, widzisz czy AI cokolwiek przesuwa.

Polski

Łukasz Olejnik@prywatnik·2d

"Proszę, nie używajcie AI tylko po to, żeby używać AI" - wiceprezes Amazon w notatce do pracowników. Microsoft anulował większość licencji Claude Code inżynierom Windows, 365, Outlook, Teams i Surface - bo używali za dużo. Uber wdrożył narzędzie dla 5000 inżynierów, przy adopcji 95% w cztery miesiące przepalono cały roczny budżet AI. Amazon zbudował wewnętrzny ranking użycia AI, i pracownicy uruchamili agenty do głupich zadań tylko po to by piąć się w górę rankingu ("tokenmaxxing") - po czym ranking został wyłączony. Jakaś firma z Fortune 20 zapomniała ustawić limity na licencje Claude. Miesięczny rachunek: 500 mln dol.

Polski

1.4K

142.2K

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@miroburn Ciekawe że sam ogarnął handoff bez orkiestratora. Jeśli agent trzyma stan między backendem a frontem, znika potrzeba zewnętrznego workflow toola dla wewnętrznych zadań. Workflow-as-a-service tu się najszybciej zwęża.

Polski

miroburn@miroburn·3d

Jestem pod wrażeniem, bo zazwyczaj nie robię takich rzeczy, ale dla testów dałem jednocześnie duży task backendowy i frontendowy. Nie uruchamiał nawet subagentów. Zrobił backend i monitoruje + bierze się za frontend.

Polski

1.6K

miroburn@miroburn·3d

Nie zapeszam, ale. Claude Code + Opus 4.8 jest GOAT. Działa jak Codex + GPT-5.5, ale z przyjemniejszym interfejsem i trochę szybciej. Odpaliłem dziś masę tematów i brak przekleństw (jedyny słuszny parametr). 1. dynamic workflow - optymalizacja wszystkiego (css/seo/skrypty) na AI Biznes Lab (kilkaset podstron). 2. przebudowa ficzerów w wew. CRM ze zmianami w SQL. 3. budowa nowego (dużego) ficzera w Lab Club - właśnie idzie przez CI/CD na produkcję. 4. analizę dużej ilości danych przez tryb subagentów (kilka tysięcy wiadomości) - wszystko z pobieraniem. 5. na deser - optymalizacji reklam przez Meta Marketing API. Wszystko rozpykał bez poprawiania. Jako wielki hejter Opus 4.7 i wielki fan Codex/GPT-5.5 zbieram szczękę. Przypomnę, że hejtowałem Opus 4.7 od pierwszego dnia.

Polski

14K

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@SpidersWebPL Zakaz wyprzedzi pracowników tylko w teorii. Używają już teraz, a polityka spisze się za pół roku. Bardziej pomaga mapa: jakie dane realnie wychodzą w promptach i do których modeli. Bez tego regulamin chroni tylko papier.

Polski

SPIDER'S WEB@SpidersWebPL·3d

Polski urzędnik pyta ChataGPT o wszystko. Państwo wreszcie zareagowało ❌ Polscy urzędnicy coraz częściej korzystają z AI w pracy. ❌ Rząd sprawdza, do czego używane są narzędzia i czy czasem nie trafiają tam dane obywateli. spidersweb.pl/2026/05/chatgp…

Polski

435

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@prywatnik Zmiana narracji nie zmienia rachunków. Jak za rok wyjdą dane o zatrudnieniu, żaden augmentation nie zakryje tego co widać w arkuszach. Komunikacja kupuje chwilę spokoju, ale regulatorzy patrzą na liczby, nie na komunikaty.

Polski

Łukasz Olejnik@prywatnik·2d

Szefowie firm AI zauważyli (dostali memo?), że „AI zastąpi ludzi” to fatalna rzecz do mówienia publicznie. Straszy pracowników, wkurza wyborców, wywołuje agresję, przyciąga uwagę polityków i regulatorów i powoduje, że cała branża wygląda drapieżnie. Więc zmienili pieśń. Masowe wypieranie ludzi z pracy to teraz „produktywność”. Zastępowanie to „augmentacja”. Automatyzacja to teraz „współpraca”. Zdecydowanie przestawili wajchę komunikacyjną.

Polski

108

18.3K

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

Według groka To pierwsza encyklika papieża Leona XIV „Magnifica Humanitas” (15 maja 2026) – o trosce o osobę ludzką w erze AI. Główne przesłanie: AI ma służyć człowiekowi i wspólnemu dobru, nie koncentrować władzę w rękach nielicznych czy monopoli technologicznych. Papież apeluje o „rozbrojenie AI” (zwłaszcza broni autonomicznej), ochronę godności pracy, prawdy i decyzji ludzkich w kluczowych sprawach (zdrowie, sprawiedliwość). Ostrzega przed dehumanizacją i „wieżą Babel” tech. Porównuje do Rerum Novarum – dobry punkt do dyskusji niezależnie od wiary. Całość na vatican.va (jest wersja PL). Co Cię najbardziej zainteresowało?

Polski

PiknikLublin@PiknikLublin·1d

@MateuszChrobok Papież wziął się za bary z AI? Poproszę AI o streszczenie:).

Polski

108

Mateusz Chrobok@MateuszChrobok·2d

Ta Encyklika o AI jest fajnym zaczynem do dyskusji. Nie ze wszystkim się zgadzam, ale polecam całość - niezależnie od wyznawanej wiary czy też jej braku

Polski

5.5K

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@MateuszChrobok @grok przybliżysz o co chodzi z tą Encykliką?

Polski

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

Testuje Dynamic Workflows w Claude Code Opus 4.8. Przenalizował moje dane z X (Twittera) i dał kilka wskazówek co robić lepiej. Codex 5.5 xhigh nie wgryzł się tak głęboko w dane. Minus: Dynamic workflows zeżarło 1.2 MLN tokenów,

Polski

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

@nvidia @grok What that means?

English

NVIDIA@nvidia·2d

A new era of PC. 25.0528, 121.5990

English

1.9K

2.2K

28.2K

11.5M

Szymon Cieślik | Agenci AI@budujAgentaAI·1d

Agent AI potrzebuje zasad. Ale nie potrzebuje 4 stron zakazów. Jeśli każda odpowiedź zaczyna brzmieć jak disclaimer, to nie masz bezpiecznego systemu. Masz przestraszonego stażystę. Lepsze pytanie: co musi być zablokowane w instrukcji, co powinno być sprawdzane po wygenerowaniu, co wymaga akceptacji człowieka. Bezpieczeństwo w agencie to proces. Nie tylko długi prompt.

Polski

Szymon Cieślik | Agenci AI@budujAgentaAI·2d

Plinujcie limitów tokenów w fimrach misiaki

Polymarket@Polymarket

NEW: AI consultant reveals a client accidentally spent $500,000,000.00 in a single month after failing to set employee limits on Claude usage.

Polski

Szymon Cieślik | Agenci AI@budujAgentaAI·2d

@alexalbert__ The split maps to your attention, not just the task. Fast mode keeps you in the loop and forces small decisions. Normal mode lets you batch and check later. Picking the wrong mode wastes more focus than it does dollars.

English

Alex Albert@alexalbert__·3d

Fast mode for Opus 4.8 is much more affordable now. Try it out in Claude Code, I've found it changes how I use Claude. Fast mode for interactive work where I want rapid responses, normal mode for longer async tasks where I don't need results right away.

Claude@claudeai

Fast mode is available for Opus 4.8. It's the same model at roughly 2.5x the speed, and we've made it three times cheaper than before. Turn it on with /fast in Claude Code. On the API, contact your account manager to request access or join the waitlist: claude.com/fast-mode

English

448

37.9K

Szymon Cieślik | Agenci AI@budujAgentaAI·2d

@gregisenberg The cross-check is the unlock, not the count. Hundreds of parallel agents without peer review just produces hundreds of confident wrong answers. Agents reviewing each other is what turns parallel from noise into signal.

English

GREG ISENBERG@gregisenberg·3d

Claude Code just dropped "dynamic workflows" and it's pretty cool. You type "create a workflow" or turn on "ultracode" in the effort menu and it spins up hundreds of parallel agents that check each other's work. The unit of work you can hand off jumps from a file to an entire codebase. Migrations, audits, rewrites, framework swaps, stuff you used to plan in sprints now finishes overnight. The part that got me:....the agents argue with each other before showing you the result. Independent attempts at the same problem, then adversarial agents trying to break the answer. It keeps iterating until they converge. That's how senior engineering teams work. Except this team runs at 3am and never gets tired. Also if the workflow gets interrupted, it picks up where it left off. That means you can kick off work that runs for days. Not sessions. Days. Fair warning though: this burns through tokens FAST. Anthropic says so themselves. But if the task is a codebase migration that would have taken a team 3 months, spending $500 in tokens to do it in a week is the best trade in software. The ceiling on what one person can build just moved again. Classic. Going to be playing with this all week. Pretty cool.

cat@_catwu

Excited to share our most powerful new Claude Code feature: dynamic workflows! Mention "workflow" in a prompt and Claude will dynamically create an orchestration plan that it strictly follows, allowing you to confidently trust that every stage happens in the right order even across 100s of agents.

English

148

186

2.2K

351K

Открыть

@bcherny @Benioff @CKeruac @swiat_ai @alexalbert__ @SpidersWebPL @prywatnik @miroburn