1red2black | ИИ / AI / ML / BigData@1red2black
Про применимость моделей. У всех свои задачи, давайте я расскажу свой опыт.
У меня есть набор всех моих задач, желаний, устремлений, оформленный в виде набора Markdown файлов. Иногда я захожу туда и говорю - "напиши мне план на следующую неделю". Или "поставь мне задачи, я сделаю". То есть, это такая "моя цифровая хозяйка" - это не я ей ставлю задачи, это она мне ставит задачи.
Один из пунктов плана - прописать "истории" - сгруппировать события так, чтобы было понятно, как разные сюжетные ветки длятся вдоль недели и взаимодействуют друг с другом.
Opus и GPT с этим справляются отлично. Qwen 27B, Qwen 35B A3B, GLM 4.7 30B справляется сильно хуже и например, часто считает одну ветку событий частью другой (без всяких объяснений).
Из них кто самый лучший я не знаю, но помойму MoE версия Qwen (35) справляется хуже остальных - например, она меня собиралась отправить в командировку в неправильный день, потребовав сделать перед этим неправильный набор пререквизитов. Если бы я долетел до места и вдруг понял, что летел не туда, не за тем, и у меня ничего с собой нету - это было бы крайне глупо.
Я только что тестил один алгоритм анализа данных на Claude/Opus, ChatGPT/5.4, Qwen в двух варианах, GLM и Arcee Trinity Large, MiniMax 2.5.
Вкратце, берется набор элементов (текстовый эквивалент 10 страниц), и в них генерируются перестановки все со всеми, внутри которых модели тестируют эти тексты друг против друга - вначале пары AB потом BA, а потом сводят кумулятивную статистику и пытаются строить связи (А лучше B, B лучше A, из A следует B, транзитивность: из A следует B следует C, "A было раньше чем B раньше чем C по времени").
С некоторыми оптимизациями, чтобы уж не было совсем "все со всеми". Один прогон одной моделью занимает около суток. "Более тупая" GPT 5.4 со средним уровнем усилий справляется сильно быстрее "более умной" Opus 4.7 с максимальными, т.ч. тоже есть варианты.
По сравнению с аналитикой от Claude и GPT, все остальное полная ерунда. К сожалению.
Разница разительная - там где Claude и GPT видят интересные закономерности длиной в несколько страниц текста, остальные рожают натянутую банальщину размером буквально полэкрана. Хуже всего работает Trinity, хотя заявленное количество параметров - ажно 400B (!)
Не то чтобы всё это было чем-то неожиданным. Но вот интересно видеть это не на каких-то абстрактных цифрах в графике, а вот прям качественную разницу на результатах, от которой у тебя что-то бинарно зависит в реальном мире.