Kendi bilgisayarınızda bir yapay zeka çalıştırmak istediğinizde (Ollama vb.), karşınıza yüzlerce farklı sürüm ve karmaşık kısaltmalar çıkar: Q4_K_M, bf16, MoE, Instruct, MLX… Bu rehber, bir yapay zeka modelinin “kimlik kartını” okumanızı sağlayacak ve donanımınıza en uygun modeli seçmenize yardımcı olacaktır.
1. Modellerin “Zeka” Seviyesi: Parametreler (B)
Bir model isminde gördüğünüz 8B, 31B, 70B gibi ifadeler, modelin kaç milyar “parametreden” (dijital nöron) oluştuğunu söyler.
- Küçük Modeller (1B – 8B): Laptoplar ve mobil cihazlar için idealdir. Hızlıdır ama derin felsefi konularda yanılabilir.
- Orta Modeller (14B – 35B): Modern oyun bilgisayarları için “tatlı noktadır”. Karmaşık kodlama ve mantık yürütmede çok başarılıdır.
- Dev Modeller (70B+): Çok güçlü sunucular ve 64GB+ RAM ister. Uzman seviyesinde bilgi sunar.
2. Model Türleri: Ham mı, Eğitilmiş mi?
Model isimlerinin sonundaki takılar, o modelin ne için hazırlandığını belirtir:
- Base (Ham): Sadece metin tamamlar. Ona “Nasılsın?” derseniz cevap vermek yerine “İyiyim, sen nasılsın?” cümlesini bir metin olarak tamamlamaya çalışır. Sohbet için uygun değildir.
- Instruct / IT (Talimat Alan): Sohbet etmek ve komut almak üzere eğitilmiştir. Günlük kullanım için her zaman bu takıyı arayın.
- Fine-Tuning (İnce Ayar): Ham bir modelin belirli bir alanda (örneğin sadece Python kodlama veya tıp literatürü) uzmanlaşması için ek eğitim almasıdır.
3. Sıkıştırma Sanatı: Kuantizasyon (Q)
Bir modeli orijinal haliyle (BF16) çalıştırmak çok fazla bellek ister. Bu yüzden modeller “sıkıştırılır”:
- Q8_0 (8-bit): Zekadan neredeyse hiç ödün vermez. Ekran kartı belleğiniz (VRAM) yetiyorsa en iyi tercihtir.
- Q4_K_M (4-bit): Model boyutunu %70 küçültür. Hız ve zeka arasındaki en dengeli sıkıştırma yöntemidir.
- IQ (I-Matrix): Çok küçük modellerin (2-bit gibi) zekasını korumak için kullanılan yeni nesil bir tekniktir.
4. Teknik Kısaltmalar Sözlüğü
Modellerin isimlerinde göreceğiniz o “garip” harflerin anlamı:
- MoE (Mixture of Experts): Modelin içinde birçok küçük uzman modelin olmasıdır. Sadece gereken “uzmanlar” çalıştığı için RAM dostudur ama zekası devasa modellerle yarışır.
- DPO / RLHF: Modelin daha insansı, yardımsever ve güvenli cevaplar vermesi için insanlar tarafından puanlanarak eğitildiğini gösterir.
- MLX: Sadece Apple Silicon (Mac) kullanıcıları içindir. NVIDIA veya Windows kullanıyorsanız bu modelleri indirmeyin.
- MXFP8 / NVFP4: NVIDIA RTX 40 ve 50 serisi kartların özel çekirdeklerini kullanarak çok daha yüksek hız sunan yeni nesil formatlardır.
5. İdeal Kurulum Rehberi (Hangi Donanıma Ne Gider?)
| Donanım Seviyesi | Önerilen Model | Neden? |
| 8GB VRAM (Örn: RTX 4070) | gemma4:4b-it-q8_0 | Tamamen GPU’ya sığar, ışık hızında cevap verir. |
| 64GB RAM (Sistem) | gemma4:31b-it-q4_K_M | Ekran kartına sığmasa bile RAM gücüyle en zorlu kod hatalarını çözer. |
| Mac M2/M3 (16GB) | gemma4:mlx | Apple’ın birleşik bellek mimarisinden tam verim alır. |
6. Yeni Trend: “Thinking” Modelleri
2026’nın en büyük yeniliği, modellerin cevabı vermeden önce kendi kendine düşünmesidir. Bir model isminde “Thinking” veya “Reasoning” görüyorsanız, bu model size sadece cevap vermez; cevaba nasıl ulaştığını, hangi hataları elediğini de gösterir. Karmaşık matematik ve yazılım projeleri için devrim niteliğindedir.
Özetle: Yerel yapay zeka dünyası artık bulut sistemlerini (ChatGPT, Gemini Cloud vb.) yakalamış durumda. Doğru modeli, doğru sıkıştırma (Quantization) ile seçtiğinizde, kendi bilgisayarınızda internete ihtiyaç duymadan dünyanın en zeki asistanlarından birine sahip olabilirsiniz.
Dosya Formatları ve Ekosistemler
| Kısaltma | Açılımı | Ne Anlama Gelir? |
| GGUF | GPT-Generated Unified Format | Ollama‘nın kullandığı ana formattır. CPU ve GPU arasında akıllıca paylaşım yapar. |
| EXL2 | ExLlamaV2 | Sadece NVIDIA GPU‘lar için çok hızlı bir formattır. Ollama’da pek kullanılmaz. |
| MLX | Apple Machine Learning | Sadece Apple Silicon (M1/M2/M3/M4) işlemciler için optimize edilmiş modellerdir. |
Hassasiyet ve Sıkıştırma (Quantization) Terimleri
Bu terimler modelin “ne kadar zayıflatıldığını” ve ne kadar yer kaplayacağını söyler.
| Kısaltma | Açılımı | Notun / Kullanım Amacı |
| BF16 | Brain Floating Point 16 | Sıkıştırılmamış, tam kalite. En yüksek zeka ama en büyük dosya boyutu. |
| Q8_0 | 8-bit Quantization | Sistem için ideal. Orijinal zekaya %99 yakın, hızı orta-yüksek. |
| Q4_K_M | 4-bit (K-Medium) | Hız kralı. Dosya boyutunu %70 küçültür, zekadan çok az ödün verir. |
| IQ (IQ4_XS) | I-Matrix Quant | Yüksek zeka, küçük boyut. Çok küçük modellerde zekayı korumak için kullanılan yeni bir teknik. |
NVIDIA’nın Yeni Nesil Formatları (RTX 40 Serisi ve Üstü)
Senin RTX 4070 kartın bu teknolojileri desteklediği için bu etiketleri görmen normal:
| Kısaltma | Açılımı | Ne Anlama Gelir? |
| MXFP8 | Microscaling FP8 | NVIDIA’nın yeni 8-bit standardı. BF16 kalitesini yarı yarıya bellek kullanarak sunar. |
| NVFP4 | NVIDIA FP4 | Ultra Hız. Modeli 4-bit’e indirir ama NVIDIA’nın özel donanım hızlandırmasını kullanır. |
Model Suffixleri (Ek Takılar)
| Takı | Açılımı | Anlamı |
| -it | Instruct | Sohbet ve talimat almak için eğitilmiş (Chat asistanı). |
| -base | Base | Ham model. Sohbet edemez, sadece metni tamamlar (Geliştiriciler için). |
| -MoE | Mixture of Experts | “Uzmanlar Karışımı”. Modelin içinde 8 küçük model varmış gibi çalışır, sadece gereken uzmanı çalıştırır (Daha az RAM, daha çok zeka). |
Kuantizasyon Sonekleri (Detaycılar İçin)
Q4_K_M gibi ifadelerdeki harflerin anlamı:
- _S (Small): En küçük, en hızlı ama hata payı daha yüksek.
- _M (Medium): Dengeli (Genelde herkes bunu kullanır).
- _L (Large): En ağır ama en zeki “sıkıştırılmış” versiyon.
Özet Not:
“Benim için hangisi?” dersen:
- Hız istiyorsan:
Q4_K_MveyaNVFP4 - Zeka istiyorsan:
Q8_0veyaMXFP8 - Mac kullanmıyorsan:
MLXyazan her şeyden uzak dur.
Fine-Tuning (İnce Ayar) Nedir?
Bunu bir uzmanlık eğitimi gibi düşünebilirsin.
- Base Model (Ham Model): Dünyadaki neredeyse tüm metinleri okumuş ama nasıl cevap vereceğini bilmeyen bir üniversite öğrencisi gibidir. Cümleyi tamamlar ama seninle sohbet edemez.
- Fine-Tuning: Bu öğrenciye “Sen bir doktorsun” veya “Sen sadece Python kodu yazan bir asistansın” diyerek özel bir veri setiyle (soru-cevap çiftleri) ek eğitim verilmesidir.
- Instruct / IT: Eğer bir model isminde bu varsa, o model “talimat alabilir” hale getirilmiş demektir.
Ollama’daki “İlginç” ve Uzun İsimlerin Şifresi
Ollama sitesinde gördüğün cmdmbox/skill-expert gibi uzun isimler genellikle [Kullanıcı Adı] / [Model Adı] : [Etiket] formatındadır.
| Terim | Ne Anlama Gelir? |
| DPO (Direct Preference Optimization) | İnsanların hangi cevabı daha çok sevdiğine dair özel bir teknikle eğitilmiş, daha “insansı” ve kaliteli model. |
| RLHF | İnsan geri bildirimiyle takviyeli öğrenme. Modelin daha güvenli ve yardımsever olması sağlanır. |
| Distilled | Devasa bir modelin (mesela 400B) zekasının, daha küçük bir modele (mesela 8B) “damıtılarak” aktarılması. “Küçük ama dev gibi zeki” modellerdir. |
| Vision / VL | Görsel okuma yeteneği olan modeller. |
| Coder / Code | Sadece kodlama için optimize edilmiş, genel sohbet yeteneği azaltılmış “safkan” yazılımcı modeller. |
Ekstra Teknik Terimler (Notluk)
- Parameters (B – Billion): Modelin içindeki “nöron” sayısıdır. 31B (31 Milyar) parametre, 8B‘den daha zekidir ama daha çok RAM ister.
- Context Window (Bağlam Penceresi): Modelin aynı anda kaç kelimeyi aklında tutabildiğidir. Gemma 4’teki 128K, yaklaşık 300 sayfalık bir kitabı tek seferde okuyup analiz edebileceği anlamına gelir.
- Tokens: Yapay zekanın kelimeleri parçalama biçimidir. Yaklaşık 1000 token = 750 kelime eder.
- System Prompt: Modele en başta verdiğin “Sen bir PHP uzmanısın” gibi kimlik tanımlama komutudur.
Önemli Bir Fark: “Thinking” Modelleri
Ollama’da son zamanlarda popüler olan bazı modellerin isminde “Reasoning” veya “Thinking” geçer (Örn: deepseek-r1, gemma4-thinking).
- Bu modeller cevabı vermeden önce kendi kendine “düşünür”.
- Ekranda
<thought>blokları görürsün. Bu, modelin hatasını kendi kendine fark etmesini sağlayan en gelişmiş yöntemdir.
Kısacası: Ollama’da gördüğünüz o karmaşık isimler aslında modelin kim tarafından, hangi teknikle ve ne kadar sıkıştırılarak hazırlandığını anlatan birer “kimlik kartı”dır. Sizin için en güvenli liman her zaman sonunda -it (Instruct) ve Q4 veya Q8 yazan modellerdir.
Bu rehber, kişisel sunucularında veya laptoplarında yapay zeka barındırmak isteyen geliştiriciler ve teknoloji meraklıları için hazırlanmıştır.

Bir yanıt yazın