rob burczyk

624 posts

rob burczyk

rob burczyk

@burczykrobo

Katılım Nisan 2023
353 Takip Edilen25 Takipçiler
Tomasz Włodarczyk
Tomasz Włodarczyk@wlodar85·
Koniec pewnej ery w @Meczykipl 🥺 Dziś odbył się ostatni program w tej przestrzeni. Po czterech latach czas na nowe studio!
Tomasz Włodarczyk tweet media
Polski
50
14
1.2K
100.4K
Taelin
Taelin@VictorTaelin·
DeepSeek is the best OSS model on LamBench . . . That said, it is still not SOTA. I think Chinese labs are doing poorly because this is a new bench that they couldn't max for. These results align well with how smart they feel to me. I'm rooting for them though 😕 I just wanna be free from Anthropic... Also, Opus 4.6 > 4.7 and GPT 5.4 > 5.5 align with my experience. This whole bench captures my feelings extraordinarily well, and I did nothing other than write a bunch of problems and score the models... Problems available on: VictorTaelin / LamBench
Taelin tweet media
English
62
23
631
57.6K
Meesyka
Meesyka@Meesyka·
wbite 2 miliony i wbity silver 4 🩷🥺
Meesyka tweet media
Polski
11
0
182
16.2K
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 to by stalo w sprzecznosci z tym co pisze tworca, wedlug ktorego a) te benchmarki mierza inteligencje plynna b) skoki w wynikach na tych benchmarkach wiazaly sie z nowymi technologiami (np release o1)
Polski
0
0
0
23
John Kerrigan Sheridan
John Kerrigan Sheridan@JohnKerriganSh1·
@burczykrobo Obawiam się że te historie o trudniejszych zadaniach w secie prywatnym to cope dla wyjaśnienia zjawiska, że modele zaczęły sobie dobrze radzić na secie publicznym głównie przez włączenie go do zbioru treningowego, a nie generalizacje wiedzy.
Polski
1
0
0
47
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 tak by bylo gdyby nie istnial zaden bias sklaniajacy tworcow do umieszczenia latwiejszych poziomow do public setu
Polski
1
0
0
31
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 jak wedlug ciebie ten przypadek nie powinien powodowac aktualizacji przekonan, to w porzadku stary 👍 ja mam inna opinie
Polski
1
0
0
33
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 ani niczego nie udowadniam, ani nie uwazam ze jest bez sensu. po prostu twierdze ze moze to byc symptomatyczne, a po innych decyzjach zwiazanych z tym benchmarkiem jest to tym bardziej prawdopodobne ze to nie jest wyizolowany przypadek a czesc trudnosci wedlug tworcow
Polski
2
0
0
31
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 tak chyba bylo w poprzednich dwoch arc-agi, nie wiem czy tworcy gdziekolwiek to stwierdzili. nawet jak nie jest to intencjonalne to sama roznorodnosc poziomow moze to powodowac
Polski
1
0
1
33
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 laby raczej w miare mialy te benchmarki w glowie, chollet wrecz uwaza ze byly targetowane xd
Polski
0
0
0
34
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 dziwne zalozenie biorac pod uwage ze private set ma byc trudniejszy, a ta trudnosc moze wynikac z dopierdolenia jak najwiekszej ilosci tego typu mechanik xd
Polski
1
0
0
85
John Kerrigan Sheridan
John Kerrigan Sheridan@JohnKerriganSh1·
@burczykrobo Przegrałem z 10 tych gier, każda ma 6-8 poziomów. FoV pojawił się w JEDNEJ grze, w JEDNYM poziomie.
Polski
1
0
0
97
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 no oczywiscie ze lepiej ze ten benchmark istnieje niz zeby nie istnial, ale watpie ze w jego aktualnym stanie ktos dlugoterminowo bedzie sie przejmowal jakie sa dokladne wyniki frontieru na nim. dopoki w ogolnym harnessie wynik jest tego samego rzadu wielkosci co ludzie to git
Polski
1
0
0
21
John Kerrigan Sheridan
John Kerrigan Sheridan@JohnKerriganSh1·
@burczykrobo No generalnie raczej porównywanie się do człowieka w benchmarkach jest raczej drugorzędne. Większość benchmarków bazuje np na wiedzy, albo czytaniu notacji matematycznej, w której LLM mają dużą przewagę nad ludźmi. Ważne, że benchmark wyznacza nowy horyzont do rozwijania AI
Polski
1
0
0
19
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 no moim zdaniem tworzenie levela z FOW gdzie wynik mocno zalezy od farta jest tragiczne biorac pod uwage jak absolutnie niejednoznaczne jest osiagalny calkowity wynik. jakby byl okreslony baseline to spoko, ale aktualnie to nie ma sensu
Polski
1
0
0
151
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 chodzi o to ze nie jest jasne jaki wynik jest osiagalny przez czlowieka wiec te wyniki llmow nie maja zadnego dobrego odniesienia chollet powiedzial ze wedlug niego czlowiek z +2σ iq osiagnalby kolo 90% ale nie bylo na to dowodu w ich paperze bo kazdy rozwiazywal maly podzbior
Polski
1
0
0
21
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 i tak namacone jest w tym benchmarku ze nawet nie wiadomo jaki wynik to dobry wynik
Polski
1
0
0
22
rob burczyk
rob burczyk@burczykrobo·
@JohnKerriganSh1 no bo jego design jest akurat mocno watpliwy xd nie zeby aktualne modele byly agi ale to ze ogolny harness powoduje wzrost wyniku z 0,5% na 30% wiele mowi o ich metodzie pomiaru 👍
Polski
2
0
2
310
rob burczyk
rob burczyk@burczykrobo·
@fogofchess @freed_dfilan @ManifoldMarkets idk why they use gradient descent in the article but you can fairly easily derive an analytical solution (you can determine the values of P and B sums with a simple O(N) algorithm)
rob burczyk tweet media
English
0
0
0
49
Manifold
Manifold@ManifoldMarkets·
Kelly betting on prediction markets is very simple. h/t @fogofchess
Manifold tweet media
English
3
0
13
1.5K
Wojciech Hadaj
Wojciech Hadaj@WojtekPdP·
Ilekroć widzę na ul zaparkowane sam na ukr (rzadziej biał) tablicach zastawiam się czy płacą bo ani winiety na szybie, że mieszkają (i płacą podatek) ani biletu ani niczego co świadczy, że nie stoją "na krzywy ryj". Tak są przyzwyczajeni, że im się należy bo "walczą za nas"😅?
Polski
52
11
334
19.5K