📘 Language Modeling Objectives (Causal vs Masked)
🔰 परिचय
Large Language Models (LLMs) को प्रशिक्षित करने के पीछे एक विशेष उद्देश्य होता है —
भविष्यवाणी करना कि किसी दिए गए Input के आधार पर अगला शब्द या कोई Missing शब्द क्या होगा।
इसे हम Language Modeling Objective कहते हैं।
इस अध्याय में, हम दो प्रमुख प्रशिक्षण उद्देश्यों की तुलना करेंगे:
-
Causal Language Modeling (CLM)
-
Masked Language Modeling (MLM)
🔎 Language Modeling Objective क्या है?
Language Model को “भाषा” सीखाने के लिए हम उसे करोड़ों शब्दों का डेटा देते हैं और एक Target सेट करते हैं:
🔁 “Input के आधार पर, अगला सही शब्द (Token) बताइए।”
इस प्रक्रिया में Model को सीखना होता है कि शब्द कैसे एक-दूसरे से जुड़े होते हैं, ताकि वह नई और सही भाषा जेनरेट कर सके।
⚡ 1. Causal Language Modeling (CLM)
✳️ परिभाषा
Causal Language Modeling का उद्देश्य होता है:
👉 Input के पिछले शब्दों के आधार पर अगला Token predict करना
इसे Auto-Regressive Modeling भी कहा जाता है।
🧠 कैसे कार्य करता है?
Model केवल पिछले Tokens को ही देखता है —
वर्तमान या भविष्य के किसी Token को नहीं।
Input: "The sun is"
Target: Predict next word → "shining"
🧮 गणितीय स्वरूप:
P(wₜ | w₁, w₂, …, wₜ₋₁)
जहाँ:
-
wₜ = अगला शब्द (Token)
-
w₁, w₂,… = अब तक के सभी शब्द
🏢 कौन-से Models इसका उपयोग करते हैं?
Model | Organization | Architecture |
---|---|---|
GPT-2, GPT-3, GPT-4 | OpenAI | Decoder-only (Auto-regressive) |
Claude | Anthropic | Decoder-based |
LLaMA-2 Chat | Meta | Decoder-only |
✅ लाभ
-
Natural language generation में उत्कृष्ट
-
Prompt → Completion जैसी Task के लिए उत्तम
-
High-quality creative writing, summarization, और chatbot applications में उपयोगी
❌ सीमाएँ
-
Sentence के किसी बीच के हिस्से को predict करना कठिन
-
Bidirectional context की कमी होती है
🧩 2. Masked Language Modeling (MLM)
✳️ परिभाषा
Masked Language Modeling का उद्देश्य होता है:
👉 Input Text में कुछ Tokens को Mask करके उनकी जगह सही शब्द predict करना
यह तरीका Bidirectional Context को उपयोग करता है —
यानी Masked शब्द के दोनों ओर के शब्दों से जानकारी ली जाती है।
Input: "The [MASK] is shining."
Target: Predict masked word → "sun"
🧮 गणितीय स्वरूप:
P(wₘ | w₁, …, wₘ₋₁, wₘ₊₁, …, wₙ)
जहाँ:
-
wₘ = Masked Token
-
w₁ से wₘ₋₁ = पूर्ववर्ती शब्द
-
wₘ₊₁ से wₙ = बाद के शब्द
🏢 कौन-से Models इसका उपयोग करते हैं?
Model | Organization | Architecture |
---|---|---|
BERT | Encoder-only (Bidirectional) | |
RoBERTa | Encoder-only | |
ALBERT | Encoder-based |
✅ लाभ
-
Text classification, Q&A, और sentiment analysis जैसे Tasks के लिए उपयुक्त
-
Semantic समझ बेहतर होती है क्योंकि दोनों ओर का संदर्भ होता है
❌ सीमाएँ
-
Output जेनरेट करना कठिन होता है (क्योंकि Training Objective Generation-First नहीं है)
-
Prompt-based generation के लिए कम अनुकूल
🆚 Causal vs Masked: तुलना सारणी
विशेषता | Causal (CLM) | Masked (MLM) |
---|---|---|
उद्देश्य | अगला Token predict करना | Masked Token को भरना |
Context प्रकार | केवल पिछला (Left-to-Right) | दोनों ओर (Bidirectional) |
Architecture | Decoder-only | Encoder-only |
Output Generation | अत्यंत अनुकूल | सीमित |
उपयोग के क्षेत्र | Chatbots, Text Generation | Classification, Q&A, NLU |
प्रमुख मॉडल्स | GPT series, Claude | BERT, RoBERTa, ALBERT |
🎯 Practical Insight
-
GPT-4 जैसे आधुनिक LLMs पूरी तरह Causal Objective पर आधारित होते हैं
-
Instruction Tuning और Prompt Engineering भी CLM पर आधारित ढांचे में की जाती है
-
MLM-based models बेहतर understanding देते हैं लेकिन Output generation की क्षमता सीमित होती है
📌 Key Takeaways
-
Language Modeling Objectives यह निर्धारित करते हैं कि Model को क्या सीखाया गया है
-
CLM: Creativity और Generation के लिए श्रेष्ठ
-
MLM: Semantic Understanding और Analysis के लिए श्रेष्ठ
-
GPT जैसे Models CLM पर आधारित होते हैं, जबकि BERT जैसे Models MLM पर
-
Prompting की रणनीतियाँ CLM के व्यवहार को ध्यान में रखकर बनाई जाती हैं