Yerel Yapay Zeka Rehberi: Ollama, Model İsimleri ve Teknik Terimlerin Sırrı (2026)

Kendi bilgisayarınızda bir yapay zeka çalıştırmak istediğinizde (Ollama vb.), karşınıza yüzlerce farklı sürüm ve karmaşık kısaltmalar çıkar: Q4_K_M, bf16, MoE, Instruct, MLX… Bu rehber, bir yapay zeka modelinin “kimlik kartını” okumanızı sağlayacak ve donanımınıza en uygun modeli seçmenize yardımcı olacaktır.

1. Modellerin “Zeka” Seviyesi: Parametreler (B)

Bir model isminde gördüğünüz 8B, 31B, 70B gibi ifadeler, modelin kaç milyar “parametreden” (dijital nöron) oluştuğunu söyler.

Küçük Modeller (1B – 8B): Laptoplar ve mobil cihazlar için idealdir. Hızlıdır ama derin felsefi konularda yanılabilir.
Orta Modeller (14B – 35B): Modern oyun bilgisayarları için “tatlı noktadır”. Karmaşık kodlama ve mantık yürütmede çok başarılıdır.
Dev Modeller (70B+): Çok güçlü sunucular ve 64GB+ RAM ister. Uzman seviyesinde bilgi sunar.

2. Model Türleri: Ham mı, Eğitilmiş mi?

Model isimlerinin sonundaki takılar, o modelin ne için hazırlandığını belirtir:

Base (Ham): Sadece metin tamamlar. Ona “Nasılsın?” derseniz cevap vermek yerine “İyiyim, sen nasılsın?” cümlesini bir metin olarak tamamlamaya çalışır. Sohbet için uygun değildir.
Instruct / IT (Talimat Alan): Sohbet etmek ve komut almak üzere eğitilmiştir. Günlük kullanım için her zaman bu takıyı arayın.
Fine-Tuning (İnce Ayar): Ham bir modelin belirli bir alanda (örneğin sadece Python kodlama veya tıp literatürü) uzmanlaşması için ek eğitim almasıdır.

3. Sıkıştırma Sanatı: Kuantizasyon (Q)

Bir modeli orijinal haliyle (BF16) çalıştırmak çok fazla bellek ister. Bu yüzden modeller “sıkıştırılır”:

Q8_0 (8-bit): Zekadan neredeyse hiç ödün vermez. Ekran kartı belleğiniz (VRAM) yetiyorsa en iyi tercihtir.
Q4_K_M (4-bit): Model boyutunu %70 küçültür. Hız ve zeka arasındaki en dengeli sıkıştırma yöntemidir.
IQ (I-Matrix): Çok küçük modellerin (2-bit gibi) zekasını korumak için kullanılan yeni nesil bir tekniktir.

4. Teknik Kısaltmalar Sözlüğü

Modellerin isimlerinde göreceğiniz o “garip” harflerin anlamı:

MoE (Mixture of Experts): Modelin içinde birçok küçük uzman modelin olmasıdır. Sadece gereken “uzmanlar” çalıştığı için RAM dostudur ama zekası devasa modellerle yarışır.
DPO / RLHF: Modelin daha insansı, yardımsever ve güvenli cevaplar vermesi için insanlar tarafından puanlanarak eğitildiğini gösterir.
MLX: Sadece Apple Silicon (Mac) kullanıcıları içindir. NVIDIA veya Windows kullanıyorsanız bu modelleri indirmeyin.
MXFP8 / NVFP4: NVIDIA RTX 40 ve 50 serisi kartların özel çekirdeklerini kullanarak çok daha yüksek hız sunan yeni nesil formatlardır.

5. İdeal Kurulum Rehberi (Hangi Donanıma Ne Gider?)

Donanım Seviyesi	Önerilen Model	Neden?
8GB VRAM (Örn: RTX 4070)	`gemma4:4b-it-q8_0`	Tamamen GPU’ya sığar, ışık hızında cevap verir.
64GB RAM (Sistem)	`gemma4:31b-it-q4_K_M`	Ekran kartına sığmasa bile RAM gücüyle en zorlu kod hatalarını çözer.
Mac M2/M3 (16GB)	`gemma4:mlx`	Apple’ın birleşik bellek mimarisinden tam verim alır.

6. Yeni Trend: “Thinking” Modelleri

2026’nın en büyük yeniliği, modellerin cevabı vermeden önce kendi kendine düşünmesidir. Bir model isminde “Thinking” veya “Reasoning” görüyorsanız, bu model size sadece cevap vermez; cevaba nasıl ulaştığını, hangi hataları elediğini de gösterir. Karmaşık matematik ve yazılım projeleri için devrim niteliğindedir.

Özetle: Yerel yapay zeka dünyası artık bulut sistemlerini (ChatGPT, Gemini Cloud vb.) yakalamış durumda. Doğru modeli, doğru sıkıştırma (Quantization) ile seçtiğinizde, kendi bilgisayarınızda internete ihtiyaç duymadan dünyanın en zeki asistanlarından birine sahip olabilirsiniz.

Dosya Formatları ve Ekosistemler

Kısaltma	Açılımı	Ne Anlama Gelir?
GGUF	GPT-Generated Unified Format	Ollama‘nın kullandığı ana formattır. CPU ve GPU arasında akıllıca paylaşım yapar.
EXL2	ExLlamaV2	Sadece NVIDIA GPU‘lar için çok hızlı bir formattır. Ollama’da pek kullanılmaz.
MLX	Apple Machine Learning	Sadece Apple Silicon (M1/M2/M3/M4) işlemciler için optimize edilmiş modellerdir.

Hassasiyet ve Sıkıştırma (Quantization) Terimleri

Bu terimler modelin “ne kadar zayıflatıldığını” ve ne kadar yer kaplayacağını söyler.

Kısaltma	Açılımı	Notun / Kullanım Amacı
BF16	Brain Floating Point 16	Sıkıştırılmamış, tam kalite. En yüksek zeka ama en büyük dosya boyutu.
Q8_0	8-bit Quantization	Sistem için ideal. Orijinal zekaya %99 yakın, hızı orta-yüksek.
Q4_K_M	4-bit (K-Medium)	Hız kralı. Dosya boyutunu %70 küçültür, zekadan çok az ödün verir.
IQ (IQ4_XS)	I-Matrix Quant	Yüksek zeka, küçük boyut. Çok küçük modellerde zekayı korumak için kullanılan yeni bir teknik.

NVIDIA’nın Yeni Nesil Formatları (RTX 40 Serisi ve Üstü)

Senin RTX 4070 kartın bu teknolojileri desteklediği için bu etiketleri görmen normal:

Kısaltma	Açılımı	Ne Anlama Gelir?
MXFP8	Microscaling FP8	NVIDIA’nın yeni 8-bit standardı. BF16 kalitesini yarı yarıya bellek kullanarak sunar.
NVFP4	NVIDIA FP4	Ultra Hız. Modeli 4-bit’e indirir ama NVIDIA’nın özel donanım hızlandırmasını kullanır.

Model Suffixleri (Ek Takılar)

Takı	Açılımı	Anlamı
-it	Instruct	Sohbet ve talimat almak için eğitilmiş (Chat asistanı).
-base	Base	Ham model. Sohbet edemez, sadece metni tamamlar (Geliştiriciler için).
-MoE	Mixture of Experts	“Uzmanlar Karışımı”. Modelin içinde 8 küçük model varmış gibi çalışır, sadece gereken uzmanı çalıştırır (Daha az RAM, daha çok zeka).

Kuantizasyon Sonekleri (Detaycılar İçin)

Q4_K_M gibi ifadelerdeki harflerin anlamı:

_S (Small): En küçük, en hızlı ama hata payı daha yüksek.
_M (Medium): Dengeli (Genelde herkes bunu kullanır).
_L (Large): En ağır ama en zeki “sıkıştırılmış” versiyon.

Özet Not:

“Benim için hangisi?” dersen:

Hız istiyorsan: Q4_K_M veya NVFP4
Zeka istiyorsan: Q8_0 veya MXFP8
Mac kullanmıyorsan: MLX yazan her şeyden uzak dur.

Fine-Tuning (İnce Ayar) Nedir?

Bunu bir uzmanlık eğitimi gibi düşünebilirsin.

Base Model (Ham Model): Dünyadaki neredeyse tüm metinleri okumuş ama nasıl cevap vereceğini bilmeyen bir üniversite öğrencisi gibidir. Cümleyi tamamlar ama seninle sohbet edemez.
Fine-Tuning: Bu öğrenciye “Sen bir doktorsun” veya “Sen sadece Python kodu yazan bir asistansın” diyerek özel bir veri setiyle (soru-cevap çiftleri) ek eğitim verilmesidir.
Instruct / IT: Eğer bir model isminde bu varsa, o model “talimat alabilir” hale getirilmiş demektir.

Ollama’daki “İlginç” ve Uzun İsimlerin Şifresi

Ollama sitesinde gördüğün cmdmbox/skill-expert gibi uzun isimler genellikle [Kullanıcı Adı] / [Model Adı] : [Etiket] formatındadır.

Terim	Ne Anlama Gelir?
DPO (Direct Preference Optimization)	İnsanların hangi cevabı daha çok sevdiğine dair özel bir teknikle eğitilmiş, daha “insansı” ve kaliteli model.
RLHF	İnsan geri bildirimiyle takviyeli öğrenme. Modelin daha güvenli ve yardımsever olması sağlanır.
Distilled	Devasa bir modelin (mesela 400B) zekasının, daha küçük bir modele (mesela 8B) “damıtılarak” aktarılması. “Küçük ama dev gibi zeki” modellerdir.
Vision / VL	Görsel okuma yeteneği olan modeller.
Coder / Code	Sadece kodlama için optimize edilmiş, genel sohbet yeteneği azaltılmış “safkan” yazılımcı modeller.

Ekstra Teknik Terimler (Notluk)

Parameters (B – Billion): Modelin içindeki “nöron” sayısıdır. 31B (31 Milyar) parametre, 8B‘den daha zekidir ama daha çok RAM ister.
Context Window (Bağlam Penceresi): Modelin aynı anda kaç kelimeyi aklında tutabildiğidir. Gemma 4’teki 128K, yaklaşık 300 sayfalık bir kitabı tek seferde okuyup analiz edebileceği anlamına gelir.
Tokens: Yapay zekanın kelimeleri parçalama biçimidir. Yaklaşık 1000 token = 750 kelime eder.
System Prompt: Modele en başta verdiğin “Sen bir PHP uzmanısın” gibi kimlik tanımlama komutudur.

Önemli Bir Fark: “Thinking” Modelleri

Ollama’da son zamanlarda popüler olan bazı modellerin isminde “Reasoning” veya “Thinking” geçer (Örn: deepseek-r1, gemma4-thinking).

Bu modeller cevabı vermeden önce kendi kendine “düşünür”.
Ekranda <thought> blokları görürsün. Bu, modelin hatasını kendi kendine fark etmesini sağlayan en gelişmiş yöntemdir.

Kısacası: Ollama’da gördüğünüz o karmaşık isimler aslında modelin kim tarafından, hangi teknikle ve ne kadar sıkıştırılarak hazırlandığını anlatan birer “kimlik kartı”dır. Sizin için en güvenli liman her zaman sonunda -it (Instruct) ve Q4 veya Q8 yazan modellerdir.

Bu rehber, kişisel sunucularında veya laptoplarında yapay zeka barındırmak isteyen geliştiriciler ve teknoloji meraklıları için hazırlanmıştır.