Aydın Han

99 posts

Aydın Han

Aydın Han

@aydinhan

Head of AI & Data and Managing Director @VNGRS

Istanbul, Turkey Katılım Mayıs 2009
114 Takip Edilen422 Takipçiler
Aydın Han
Aydın Han@aydinhan·
Boğaziçi Üniversitesi'ndeki Türkçe ModernBERT eğitimine VNGRS olarak destek olduk.
VNGRS@VNGRS

Boğaziçi Üniversitesi TABILAB araştırmacıları tarafından geliştirilen TabiBERT modelinin geliştirilmesini desteklemekten büyük mutluluk duyuyoruz! TabiBERT, ModernBERT’in mimari yeniliklerini Türkçe NLP’ye taşıyor: - 1 trilyon token'lık eğitim - 8,192 token bağlam uzunluğu - 2.65 kat daha hızlı inference - 8 benchmark kategorisinin 5'inde en iyi performans. Şirketimizde Machine Learning Lead olarak görev yapan @meliksah_turker liderliğinde yürütülen projeye biz de pre-training için kritik öneme sahip GPU kaynağını sağlayarak destek olduk. Böyle Türkçe NLP ve açık kaynak araştırmaların ilerlemesine katkı sunmaktan gurur duyuyoruz! 📄 Makale: arxiv.org/abs/2512.23065 🤗 TabiBERT: huggingface.co/boun-tabilab/T… 📊 TabiBench: huggingface.co/collections/bo… Melikşah Türker, A. Ebrar Kızıloğlu, Onur Güngör ve Susan Üsküdarlı'yı tebrik ederiz.

Türkçe
0
0
3
478
Alican Kiraz
Alican Kiraz@AlicanKiraz0·
Selamlar Dostlar 🧡🙏🏻 Türkçe model projemin ilk fazında gelişmiş ve yüksek reasoning ile 100-120GB'lik Türkçe crawling datasetim'den RAG ve model distill ile ürettiğim Türkçe SFT Datasetin ilk versiyonunu yayınladım. Bu versiyonda 30 Milyon tokenlik veri bulunuyor, bu veriler kompleks soru ve yanıtları içeren bir yapıda yer alıyor. 🙏 Yüksek muhakeme modunda çalıştırılan birden fazla state-of-art modelden sentezlendi (yaklaşık paylar): ➕ xAI Grok 4 — %25 ➕ Anthropic Claude Opus 4.1 — %10 ➕ Anthropic Claude Sonnet 4.5 — %20 ➕ OpenAI gpt-oss-120b (reasoning high) — %30 ➕ TogetherAPI — Kimi-K2-0905 (non‑reasoning) — %15 Ek olarak, toplam verinin %30’u gpt-oss-120b ile lokalde; ~100–120 GB’lik Türkçe crawling veri gövdesi üzerinde RAG + distill yaklaşımlarıyla üretilmiştir. Bu bölüm, Türkçe bağlam çeşitliliğini ve gerçekçi görev formülasyonlarını artırmayı hedefler. İçerik 12 ana yetkinlik ailesini kapsar: ➕ Aritmetik & Kısa Adımlı Muhakeme ➕ Talimat İzleme / Biçim Dayatması ➕ Çok-Tur Bellek & Çekirdek Başvuru ➕ Dürüstlük/Halüsinasyon & Güvenli Ret ➕ Türkçe Dil Kenar Durumları ➕ Kod ve Mini Debug ➕ Uzun-Bağlam Disiplin & Hedefli Çıkarım ➕ Araç Kullanımı Bilinci ➕ Talimat Takip Disiplini; Çoklu Kısıtlama, Format Dayatma, Sıralı İşlemler, Çelişkili Talimatlar, Format İhlali Puanlama ➕ Mantık ve Tutarlılık; Çelişki Kontrolü, Geçişlilik, Sayma Paradoksları, Kendine Referans, Klasik Mantık Hataları, Multi-Hop Reasoning, Tutarsızlık Tespiti ➕ Güvenlik ve Dürüstlük Bilgi Sınırı Testleri, Halüsinasyon Tuzakları Zararlı İçerik Reddi, Bilgi Doğrulama, Etik Sınır Testleri, Politik/Hassas Konular, Manipülasyon Testleri, vb. ➕ Yaratıcı Dönüşüm ve Transfer; Stil Transferi, Analoji Üretimi, Format Dönüşümleri, Ters Problem Çözme huggingface.co/datasets/Alica…
Alican Kiraz tweet mediaAlican Kiraz tweet media
Türkçe
30
22
462
71.3K
Aydın Han
Aydın Han@aydinhan·
@denizoktar @refiksaydaam Tabi, bu tip önerilere açığız. Örneğin bir süredir Boğaziçi ile bazı projelerde işbirliği yapıyoruz. Başka üniversitelerle de çalışabiliriz. Bana özelden veya Linkedin’den ulaşabilirsiniz.
Türkçe
1
0
1
119
Deniz OKTAR
Deniz OKTAR@denizoktar·
Sanirim simdi anladim problemi. Ekteki gorselde kamuya acik sekilde paylasilan derken acik kaynak olarak paylasimimizi kastediyorduk. Kamu deyince, halk sekilde anlasildi sanirim. Yayinda kelimesi de benzer, hugginface den bahsediyorduk. Kucuk bir kaza yapmisiz :)
Deniz OKTAR tweet media
Türkçe
20
0
105
16.2K
Alican Kiraz
Alican Kiraz@AlicanKiraz0·
Testler için ilk olarak bir Türkçe benchmark dizayn etmeye başladım. Benchmark’da 3 farklı Tier olacak. Her Tier’da farklı yetenekleri sınayacağım. Bütçemide ayarladım; 15 açık kaynak, 10’a yakın ticari modeli test edeceğim; - Claude: Opus 4.1, Claude 4.5 - Openai: GPT-5-nonthinking GPT-5 Thinking-low, GPT-5 Thinking-hard - Gemini: Gemini 2.5-Pro, Gemini 2.5-flash - Grok: Grok-4 - Manus: Agent, Chat Diğer benchmark’lardan farklı olarak HF’de hem Leaderboard hemde test için space ortamı oluşturacağım.
Alican Kiraz@AlicanKiraz0

Kumru’nın misyonu beni çok mutlu etti. O nedenle naçizane bir katkım olsun istedim. Kumru 2B-Base modelini basit’ten zora doğru şaşırtmalı türkçe soru setleri ile test etmeye ve modelin giriş çıkış katmanları, CoT yetenekleri ile context bağlam sorunlarını analiz etmeye başladım. Ardından en uygun dataseti hazırlayıp hem CPT hemde SFT ile train edeceğim. Hazırladığım dataset ve model çıktılarını huggingface’imde paylaşıyor olacağım. 🙏🏻🧡 Lokalimdeki kendi geliştirdiğim LLM Distill odaklı Otonom RLHF (SEAL benzeri bir kurgu kullandım) ile de state-of-art modellere değerlendirmeler yaptırarak yoğun bir pekiştirmeli eğitim vereceğim. Bence Kumru’nun asıl misyonuda buydu. Billion seviyelerindeki eşiği türkçe dataset ile sıfırdan eğiterek aşıp, bizlerle paylaşarak hepimizin destekleriyle iyi bir noktaya gelmesini sağlamak. Baktığımızda zaten llama2’lerden Kimi-K2’lere kadar uzanan open-source’un gücüde bize bunu gösteriyor. Umarım katma değerli işler çıkar. Ben şahsen 2x5090’ı birkaç hafta Kumru’ya odaklayacağım. 🔥

Türkçe
4
1
72
13.5K
sengpt
sengpt@sengpt·
Kumru 250 bin dolara mal olmuş. Kurucusunun da şöyle bir tweetine denk geldim: “kumru bir yan ürün, kar etmesi olası değil” Bu durumda kar etmeyecek yan bir ürün için 250k harcamış bir şirket var karşımızda: O zaman burada strateji: - 250k ile hem dünyada hem Türkiye’de ilk Türkçe LLM alanında isim yapmış olmak. Kısa vadede getirisi yok, uzun vadede olabilir. Ama sonu mistral gibi de olabilir zira bir sonraki aşamaya geçmek daha çok maliyet gerektirir, ya da onu da ilk Türk LLM olmanın verdiği prestijle fon toplayarak yapabilirler. - LLM alanında adlarını duyurmuş oldular bu reklam onlara 250kdan daha fazlasını getirebilir - eldeki boşta bekleyen h100 makineleri boşa yakmasın bari bişeler yapsın diye kullanmış olabilirler Burada iyi kötü tartışmasına hiç girmedim. Elbette çok iyi bir ilk adım. Kötü diyenler zaten bu işten anlamıyordur. Bu ülke Google’ı customize edip yerli ve milli arama motoru diye pazarlayanlar gördü. Kumru en azından öyle bir şey değil. Arkasında emek ve para olan güzel bir başlangıç projesi gibi duruyor.
Türkçe
31
19
680
139.4K
Aydın Han
Aydın Han@aydinhan·
@Umut3002_ @sengpt Çünkü daha küçük bir yatırımla çözebileceğimiz bir ihtiyacı hedefledik. Son kullanıcıya yönelmek ve yerli ChatGPT yapmak çok daha büyük yatırım gerektirir. Bizim gibi bir şirketin imkanlarını çok aşar.
Türkçe
0
0
2
364
Tumu
Tumu@tumuvay·
@aydinhan @sengpt Hocam, biliyorum muhtemelen cevap vermeyeceksiniz ama yine de sormak istedim. Neden kurum içi bir model geliştirmeyi tercih ettiniz? Türkiye’de hala ChatGPT gibi yerli bir yapay zeka geliştirilemedi. Kurum içi modelden vazgeçip kullanıcı odaklı bir yapıya yönelme planınız var mı?
Türkçe
1
0
0
399
sengpt
sengpt@sengpt·
@aydinhan Eyvallah. Elinize sağlık güzel bir başlangıç olmuş.
Türkçe
1
0
14
10.9K
Aydın Han
Aydın Han@aydinhan·
@celikturgay Makaleyi yazma planımız var ama henüz sıra gelmedi. Sadece blog post yayınladık şimdilik.
Türkçe
0
0
1
85
Aydın Han retweetledi
VNGRS
VNGRS@VNGRS·
Öncelikle Kumru’ya gösterdiğiniz yoğun ilgi için çok teşekkür ederiz. Biz de bu kadarını beklemiyorduk, çok mutlu olduk. Ek olarak Kumru ile ilgili daha detaylı bilgi vermek ve bazı noktaları netleştirmek istedik. Öncelikle Kumru bir ChatGPT alternatifi değil. Kumru’yu son kullanıcıya yönelik değil kurum içi senaryolar için geliştirmeye devam ediyoruz. Henüz versiyon 0.2.1 ve şu an için yetkinlikleri sınırlı. Web sayfası Kumru’yu sadece denemek için hazırlanmış bir arayüz, ürünün kendisi değil. Bu sebeple lütfen Kumru’dan ChatGPT’nin yaptığı şeyleri beklemeyin, yetkinlikleri ve yapım amaçları farklı. Kumru’nun matematiğinin zayıf olması konusuna da değinmek isteriz 🙃 Kumru Türkçe yetkinlik için geliştiriliyor, henüz matematiksel işlem ve karar vermek gibi fonksiyonel işlemler için eğitilmedi. Dolayısıyla bu bağlamda da ChatGPT/Gemini alternatifi değil. Altta Kumru’yla ilgili en çok merak edilenleri cevapladık, buyrun flood’ımıza 🐦
Türkçe
94
94
907
190.7K
Aydın Han
Aydın Han@aydinhan·
@legacy_of_zero @VNGRS Hayır, fine-tune etmedik. Mimariyi kullanmak ile hazır modeli fine-tune etmek farklı şeyler. Bu gibi merak edilen noktalar için Sıkça Sorulan Sorular kısmı ekledik. Orada daha fazla detay bulabilirsiniz: kumru.ai/hakkinda
Türkçe
0
0
1
248
Legacy
Legacy@legacy_of_zero·
@VNGRS Hazır modeli fine tune ettiniz yani. Neden qwen kullanmadınız
Legacy tweet media
Türkçe
1
0
1
851
VNGRS
VNGRS@VNGRS·
🕊️ Kumru şimdi yayında! Türkçe için sıfırdan eğitilmiş ve kamuya açık şekilde paylaşılan ilk büyük dil modeli Kumru LLM ile tanışın! Kumru, Türkçe doğal dil işleme alanında güçlü, verimli ve özelleştirilebilir bir çözüm sunarak yerelleştirilmiş yapay zekâ deneyiminde yeni bir dönem başlatıyor. 7.4 milyar parametreye sahip model, tamamen Türkçe için eğitilen tokenizer’ı sayesinde çok dilli modellere göre %90’a kadar daha verimli çalışıyor. 300 milyar token ve 500 GB veriden oluşan eğitim setiyle Kumru, Türkçeyi sadece bilmekle kalmıyor, dilin doğal akışını da anlıyor. Araştırmadan kurumsal uygulamalara kadar geniş bir kullanım alanı sunan Kumru; RAG tabanlı chatbot sistemlerinden doküman özetlemeye, çağrı merkezi analitiğinden sosyal medya içerik üretimine kadar pek çok senaryoya kolayca entegre edilebiliyor. 🌐 Kumru’yu keşfedin: kumru.ai 📄 Teknik detaylar: medium.com/vngrs/kumru-ll… ve huggingface.co/vngrs-ai/Kumru… 📩 Kurum içi dağıtım, özel entegrasyonlar veya fine-tuning ihtiyaçları için bizimle iletişime geçebilirsiniz: info@vngrs.com Kumru ile Türkçede yapay zekâ artık daha akıllı, daha hızlı, daha güçlü. @denizoktar @aydinhan @meliksah_turker #Kumru #LLM #TürkçeLLM #YapayZeka #VNGRS
VNGRS tweet mediaVNGRS tweet mediaVNGRS tweet mediaVNGRS tweet media
Türkçe
117
130
894
700.8K
Aydın Han retweetledi
merve
merve@mervenoyann·
Kumru-2B, base ve instruct olarak eğitildiği web corpus'uyla birlikte @huggingface'te trending ilk sayfada 👏 7B ve multimodal da geliyor çok büyük gurur kaynağı 🇹🇷🦜
VNGRS@VNGRS

🕊️ Kumru şimdi yayında! Türkçe için sıfırdan eğitilmiş ve kamuya açık şekilde paylaşılan ilk büyük dil modeli Kumru LLM ile tanışın! Kumru, Türkçe doğal dil işleme alanında güçlü, verimli ve özelleştirilebilir bir çözüm sunarak yerelleştirilmiş yapay zekâ deneyiminde yeni bir dönem başlatıyor. 7.4 milyar parametreye sahip model, tamamen Türkçe için eğitilen tokenizer’ı sayesinde çok dilli modellere göre %90’a kadar daha verimli çalışıyor. 300 milyar token ve 500 GB veriden oluşan eğitim setiyle Kumru, Türkçeyi sadece bilmekle kalmıyor, dilin doğal akışını da anlıyor. Araştırmadan kurumsal uygulamalara kadar geniş bir kullanım alanı sunan Kumru; RAG tabanlı chatbot sistemlerinden doküman özetlemeye, çağrı merkezi analitiğinden sosyal medya içerik üretimine kadar pek çok senaryoya kolayca entegre edilebiliyor. 🌐 Kumru’yu keşfedin: kumru.ai 📄 Teknik detaylar: medium.com/vngrs/kumru-ll… ve huggingface.co/vngrs-ai/Kumru… 📩 Kurum içi dağıtım, özel entegrasyonlar veya fine-tuning ihtiyaçları için bizimle iletişime geçebilirsiniz: info@vngrs.com Kumru ile Türkçede yapay zekâ artık daha akıllı, daha hızlı, daha güçlü. @denizoktar @aydinhan @meliksah_turker #Kumru #LLM #TürkçeLLM #YapayZeka #VNGRS

Türkçe
6
22
366
152.5K