Marcão

1.1K posts

Marcão banner
Marcão

Marcão

@codewriterr

Escrevendo bugs para garantir o pão de cada dia desde 2010

Katılım Ocak 2017
665 Takip Edilen84 Takipçiler
nicolasmelo
nicolasmelo@nicolasmelo·
Pergunta de System Design interessante Cc @samsantosb
aditya@adxtyahq

“design a RAG pipeline for 10M docs with zero hallucination” apparently this was asked in a Google L5 interview round. came across it somewhere on the internet and honestly it’s a way more interesting system design problem than most classic distributed systems questions 1. ingest + normalize docs - remove duplicates, standardize formats, extract metadata, maintain version history 2. hybrid retrieval (BM25 + embeddings) - BM25 handles exact keyword matching while embeddings capture semantic meaning - semantic search alone usually struggles with precision at massive scale 3. ANN retrieval + reranking - ANN (Approximate nearest neighbor ) quickly pulls top candidate chunks from millions of docs - then a reranker rescoring step improves relevance by deeply comparing query vs retrieved chunks 4. source confidence scoring - every retrieved chunk gets scored based on freshness, trust level, overlap and retrieval consistency - low-confidence context should never heavily influence generation 5. constrained generation - the model is only allowed to answer using retrieved context (nothing new to be invented outside of the retrieved context) 6. citation-backed responses - every major claim links back to exact chunks, documents or timestamps 7. hallucination fallback layer - if retrieval confidence drops below a threshold: “insufficient evidence found” 8. continuous evals - run adversarial queries, retrieval recall benchmarks and hallucination tests continuously 9. caching + memory layer - cache high-frequency enterprise queries and retrieval paths (improves latency and output) 10. observability everywhere - trace retrieval paths, chunk rankings, token attribution and failure points Also at 10M docs, retrieval quality matters more than the frontier model itself.

Português
4
4
117
16.5K
Marcão
Marcão@codewriterr·
@mitchellh Feels like AI hype is reducing people’s ability to think critically. More and more, I see companies delivering technical solutions they barely understand themselves. But I gave up arguing about it. In the end, you just get labeled an “AI denier.”
English
0
0
0
7
Mitchell Hashimoto
Mitchell Hashimoto@mitchellh·
I strongly believe there are entire companies right now under heavy AI psychosis and its impossible to have rational conversations about it with them. I can't name any specific people because they include personal friends I deeply respect, but I worry about how this plays out. I lived through the great MTBF vs MTTR (mean-time-between-failure vs. mean-time-to-recovery) reckoning of infrastructure during the transition to cloud and cloud automation. All those arguments are rearing their ugly heads again but now its... the whole software development industry (maybe the whole world, really). It's frightening, because the psychosis folks operate under an almost absolute "MTTR is all you need" mentality: "its fine to ship bugs because the agents will fix them so quickly and at a scale humans can't do!" We learned in infrastructure that MTTR is great but you can't yeet resilient systems entirely. The main issue is I don't even know how to bring this up to people I know personally, because bringing this topic up leads to immediately dismissals like "no no, it has full test coverage" or "bug reports are going down" or something, which just don't paint the whole picture. We already learned this lesson once in infrastructure: you can automate yourself into a very resilient catastrophe machine. Systems can appear healthy by local metrics while globally becoming incomprehensible. Bug reports can go down while latent risk explodes. Test coverage can rise while semantic understanding falls. Changes happens so fast that nobody notices the underlying architecture decaying. I worry.
English
514
1.9K
15.3K
1.6M
Marcão
Marcão@codewriterr·
@pfigueiredo08 Foi tão fracasso que vc tá falando sobre isso mais de 12hrs
Português
0
0
2
143
Marcão
Marcão@codewriterr·
@leandroruschel Então você está dizendo que foi tão ruim que o Lula teve poder de mandar cancelar e vetar a agenda com a imprensa dentro da Casa Branca?
Português
4
0
4
2.5K
Leandro Ruschel 🇧🇷🇺🇸🇮🇹🇩🇪
Trump acabou de postar que o encontro foi "muito bom" com o Descondenado, sobre "vários tópicos, como comércio e tarifas", e que novas conversas foram marcadas sobre assuntos chave entre as respectivas equipes, nos próximos MESES... Traduzindo, foi um desastre. A conversa deve ter sido tão ruim que o Descondenado cancelou a coletiva de impresa que ocorreria após o encontro, e vetou a presença de jornalistas. Se de fato a reunião tivesse algum resultado positivo para o Brasil, com certeza Lula não perderia a chance de fazer propaganda.
Leandro Ruschel 🇧🇷🇺🇸🇮🇹🇩🇪 tweet media
Português
247
584
3K
53.8K
Gabriel Santos | IA
Gabriel Santos | IA@DehumanoaDeus·
"Você pode explicar esse intervalo de 8 meses no seu currículo?" A maioria dos candidatos diz: "Eu tirei um tempo para recarregar as energias, viajar e pensar nos próximos passos da minha carreira." A RESPOSTA QUE GANHA:
Português
23
41
5.5K
1.4M
Marcão
Marcão@codewriterr·
@DevCritico Saga sem essas coisas que você listou nem deveria passar na cabeça de quem sugere
Português
0
0
1
264
Dev Crítico 🦀
Dev Crítico 🦀@DevCritico·
SAGA Pattern é overkill Sempre que vejo alguém defendendo SAGA em alguma solução, tenho a mesma opinião: maluquice, não precisa disso. Não que eu seja contra o pattern, acredito que há sim situações onde é realmente necessário. O problema é querer socar isso em todo sistema distribuído sem se preocupar com o básico, que bem feito, resolve a maior parte dos problemas: > retry > outbox > idempotencia > observabilidade > dlq > circuit braker > tracing …+
Português
4
3
102
9.7K
Marcão
Marcão@codewriterr·
@paulo_caelum Faz parte do jogo, ou você joga ou te tiram do jogo
Português
0
0
3
155
Paulo Silveira
Paulo Silveira@paulo_caelum·
Devs criticavam tanto a métrica de linhas de código para medir a produtividade, agora as pessoas ficam fazendo maxtoken para demostrar performance.
Português
13
4
95
5.9K
Marcão
Marcão@codewriterr·
@centralreality Se a jordana sair acaba o bbb não vai ter assunto
Português
1
0
10
529
Central Reality
Central Reality@centralreality·
Juliano sobre Jordana: "Ela não sabe que a gente já viu ela olhando pra câmera 700 vezes, ela não sabe que a gente já sacou o jogo dela tem muuuito tempo." Ana Paula: "E no meio do argumento dela, eu falei assim 'um pouquinho mais pra esquerda. Não ficou bom'." Juliano: "A Ana Paula falou 'só mais um pouquinho pra esquerda'. Aí ela tava com a boca assim falando, ela ia rir..." Ana Paula: "Mas depois ela riu, ela saiu rindo. Ela não deu conta. Ela falou 'você é muito ridícula'. Eu sou mesmo." Juliano: "Ela falou 'você é patética'. Porque ela sabe que ela tá fazendo isso, senão ela não ia dar risada. Ela ia falar 'nada a ver'." Ana Paula: "Ai, eu me divirto!" Juliano: "Aí depois ela voltou 'eu nem tava fazendo isso'." Ana Paula: "Aí ela foi justificar e entregou de bandeja." #BBB26
Central Reality tweet mediaCentral Reality tweet media
Português
37
31
922
71.3K
Marcão
Marcão@codewriterr·
@giovannibassi E mesmo nesse cenário por conta de dependência de quem usa produtos dessa empresa, esses problemas acabam trazendo pouco impacto na empresa a longo prazo Vejo as empresas querendo entregar cada vez mais rápido e as outras questões como qualidade nos detalhes ficam em 2 plano
Português
1
0
0
27
Giovanni Bassi 🇧🇷🦋
Giovanni Bassi 🇧🇷🦋@giovannibassi·
@codewriterr Essa segunda parte está sendo um problema. Estamos acompanhando isso ao vivo com o Windows, o Github, a Amazon e vários outros. E não é como se a Microsoft não tivesse recursos.
Português
1
0
0
158
Giovanni Bassi 🇧🇷🦋
Giovanni Bassi 🇧🇷🦋@giovannibassi·
Está achando o código produzido por IA bom? É um sinal de que você não sabe reconhecer código bom. Programadores não vão perder trabalho pra IA. Programadores que acham o código produzido por IA bom, vão.
Daniel Lemire@lemire

Let us think more deeply about what is being said. Marc Andreessen: “Software isn’t precious anymore… high quality software is infinitely available.” (From a recent @pmarca interview) “We’ve always lived in a world in which software is this precious thing… Those days are just over. If you need new software… you’re just going to wave your hand and get it.” Andreessen is the man I like to quote: “software is eating the world.” Is Andreessen’s new model correct? I suspect reality today is closer to this: AI makes low-quality software nearly free. Your HR director can prompt an app and get something that works, somewhat. It may be as good as what Joe the intern produced ten years ago. It won’t be perfect, but it will look good from a distance. In many cases, it will be good enough. As a professor, I could always find a student to help with a project. It usually went like this: 1.I would prompt the student (“What if we did…”). 2.The student would produce something close to what I wanted. 3.I would prompt the student again… and so on. Eventually, if the student was good, the final code would mostly do what I wanted. In many cases, I would just throw it away or forget about it. Almost always, I ended up rewriting parts myself. I once met an entrepreneur who was jealous: “You professors get all this free labor while I have to hire and pay people.” Ah. How often did professors produce great software? Not often. As quality requirements increase, I believe the benefits of AI coding diminish. So I think Andreessen is incorrect. We are getting low-quality software for free, but not much more of the high-quality software we actually need. If you want to make a living writing software, you had better up your game. As for getting high-quality software for free? Color me skeptical.

Português
30
3
84
13.6K
Marcão
Marcão@codewriterr·
@vitor_q @giovannibassi Nesse caso a pessoa usa IA pra corrigir e vida que segue. Na maioria das empresas estão pouco ligando pra qualidade, o importante é a velocidade pra entregar no mercado e ir ajustando, vamos viver uma era de software descartáveis, pensar em qualidade performance vai virar hobby
Português
2
0
0
14
Vitor Q
Vitor Q@vitor_q·
@codewriterr @giovannibassi 'desde que o usuário final esteja satisfeito'... Vejamos quão satisfeito o usuário final fica quando o produto começar a ficar fora do ar, ou lento, ou calcular errado, etc, etc, etc. Tudo isso é relacionado com código mal feito.
Português
1
0
1
22
Bruno Faggion
Bruno Faggion@brunofaggion·
Isso aqui é ABSURDO. An Anthropic tá alegando que criou um modelo tão poderoso que ele consegue achar vulnerabilidades de cyber segurança nos sistemas mais seguros do mundo. O modelo é tão power que eles NÃO vão lançá-lo a público, e sim criar uma coalisão com outras Big Techs pra corrigir as falhas de segurança dos sistemas mais críticos do mundo pra que nenhum dano seja causado. Se a IA consegue fazer cybersec, isso tem várias implicações: - Uma IA de outro país tão avançada quanto poderia fazer cyber warfare contra o ocidente - Milhares de projetos menos críticos estariam vulneráveis assim que a Anthropic lançar esse modelo (adeus LGPD) - Os vibecoders poderiam usar essa ferramenta para criar código seguro? Especulação, mas isso pode ser uma faca de dois gumes para os vibecoders Ou pode ser tudo marketing da Anthropic também, mas eu acho isso improvável, já que as outras empresas dessa coalisão falariam.
Josh Kale@JoshKale

This is big... Anthropic just announced a model so powerful they won't release it to the public out of fear over the damage it will cause 😨 Claude Mythos Preview found thousands of zero-day exploits in every major operating system and web browser... The numbers are hard to believe: > $50 to find a 27-year-old bug in OpenBSD, one of the most security-hardened operating systems ever built > Under $1,000 to find AND build a fully working remote code execution exploit on FreeBSD that grants unauthenticated root access from anywhere on the internet > Under $2,000 to chain together multiple Linux kernel vulnerabilities into a complete privilege escalation exploit For context: these are the kinds of findings that previously required elite security researchers working for weeks. Anthropic engineers with no formal security training asked Mythos to find exploits overnight. They woke up to working code the next morning. The results were so impressive Anthropic assembled Apple, Google, Microsoft, Amazon, NVIDIA, and seven other organizations into Project Glasswing: A $100M defensive coalition. They're not releasing this model publicly. Instead, they're racing to patch the world's infrastructure before models like this proliferate.

Português
41
19
481
72.1K
Sibelius Seraphini
Sibelius Seraphini@sseraphini·
Qual é a parte mais difícil do seu trabalho como Desenvolvedor hoje em dia?
Português
39
1
40
5.8K
Marcão
Marcão@codewriterr·
@lincolixavier Não entendo como interpretaram esse post dela como “alguém que PRECISA procurar emprego”
Português
0
0
0
328
Marcão
Marcão@codewriterr·
@viderotulo Por esse tempo de oracle, problemas financeiros ela não deve ter possivelmente, e ela deve gostar do que faz mesmo podendo se aposentar o que não é problema tbm hahaha
Português
0
0
1
420
vide rótulo
vide rótulo@viderotulo·
Opinião impopular: +30 anos trabalhando e não tem plano de aposentadoria ou projeto pessoal para investir acho red flag talvez eu seja muito geração z que não tem o luxo de ficar muito tempo no mesmo lugar pq agora é só layoff no lombo tb..
Apurv Khare@KhareApurv

33 years 😮 Damn #OracleLayoffs

Português
21
4
136
17.3K
Marcão
Marcão@codewriterr·
@ocodista Meu sonho um ambiente assim, tem lugares que passei que quando acontecia incidente a primeira informação que a gestão queria era quem fez o erro, e a pessoa que cometia o erro sofria pelo menos nos próximos 2 meses por isso, na pressão de ser perfeito pq no dia x errou
Português
1
0
1
156
Codista
Codista@ocodista·
Empresas sérias adotam a cultura “blameless” (sem-culpa), sem apontar o dedo, sem caça às bruxas do culpado, sem olhar git blame em war room com 10 pessoas e sem ridicularizar ou humilhar o culpado. O problema é do processo e não individual.
Português
7
11
170
4.6K
Marcão
Marcão@codewriterr·
@Serafim_zx 🟢 COMPARATIVO: NETO vs. VINI JR (SELEÇÃO) 🟡 📊 NÚMEROS ABSOLUTOS: ⚽ Gols: • Craque Neto: 7 gols • Vini Jr: 5 gols 🏃‍♂️ Jogos: • Craque Neto: 26 jogos • Vini Jr: 35 jogos 🎯 Média de Gols: • Craque Neto: 0,27 por jogo • Vini Jr: 0,14 por jogo
Português
0
0
10
1.1K
Serafim
Serafim@Serafim_zx·
CRAQUE NETO HERÓI NACIONAL
Português
181
1.9K
18.5K
364.7K
Samir 🐍
Samir 🐍@samiircoimbra·
@uailudi @balblanchett Nós pessoas que sabemos o motivo dela ter guardado as fotos da família. ✨
Português
3
7
159
21.7K
Ludi
Ludi@uailudi·
jordana e marciele perguntando cadê as fotos da família dela ana: “guardei”
Português
271
1.7K
29.9K
4.3M