Mastering Zero-Shot & Few-Shot Prompting in LLMs

📘 Language Modeling Objectives (Causal vs Masked)

🔰 परिचय

Large Language Models (LLMs) को प्रशिक्षित करने के पीछे एक विशेष उद्देश्य होता है —
भविष्यवाणी करना कि किसी दिए गए Input के आधार पर अगला शब्द या कोई Missing शब्द क्या होगा।
इसे हम Language Modeling Objective कहते हैं।

इस अध्याय में, हम दो प्रमुख प्रशिक्षण उद्देश्यों की तुलना करेंगे:

Causal Language Modeling (CLM)
Masked Language Modeling (MLM)

🔎 Language Modeling Objective क्या है?

Language Model को “भाषा” सीखाने के लिए हम उसे करोड़ों शब्दों का डेटा देते हैं और एक Target सेट करते हैं:

🔁 “Input के आधार पर, अगला सही शब्द (Token) बताइए।”

इस प्रक्रिया में Model को सीखना होता है कि शब्द कैसे एक-दूसरे से जुड़े होते हैं, ताकि वह नई और सही भाषा जेनरेट कर सके।

⚡ 1. Causal Language Modeling (CLM)

✳️ परिभाषा

Causal Language Modeling का उद्देश्य होता है:

👉 Input के पिछले शब्दों के आधार पर अगला Token predict करना

इसे Auto-Regressive Modeling भी कहा जाता है।

🧠 कैसे कार्य करता है?

Model केवल पिछले Tokens को ही देखता है —
वर्तमान या भविष्य के किसी Token को नहीं।

Input: "The sun is"
Target: Predict next word → "shining"

🧮 गणितीय स्वरूप:

P(wₜ | w₁, w₂, …, wₜ₋₁)

जहाँ:

wₜ = अगला शब्द (Token)
w₁, w₂,… = अब तक के सभी शब्द

🏢 कौन-से Models इसका उपयोग करते हैं?

Model	Organization	Architecture
GPT-2, GPT-3, GPT-4	OpenAI	Decoder-only (Auto-regressive)
Claude	Anthropic	Decoder-based
LLaMA-2 Chat	Meta	Decoder-only

✅ लाभ

Natural language generation में उत्कृष्ट
Prompt → Completion जैसी Task के लिए उत्तम
High-quality creative writing, summarization, और chatbot applications में उपयोगी

❌ सीमाएँ

Sentence के किसी बीच के हिस्से को predict करना कठिन
Bidirectional context की कमी होती है

🧩 2. Masked Language Modeling (MLM)

✳️ परिभाषा

Masked Language Modeling का उद्देश्य होता है:

👉 Input Text में कुछ Tokens को Mask करके उनकी जगह सही शब्द predict करना

यह तरीका Bidirectional Context को उपयोग करता है —
यानी Masked शब्द के दोनों ओर के शब्दों से जानकारी ली जाती है।

Input: "The [MASK] is shining."
Target: Predict masked word → "sun"

🧮 गणितीय स्वरूप:

P(wₘ | w₁, …, wₘ₋₁, wₘ₊₁, …, wₙ)

जहाँ:

wₘ = Masked Token
w₁ से wₘ₋₁ = पूर्ववर्ती शब्द
wₘ₊₁ से wₙ = बाद के शब्द

🏢 कौन-से Models इसका उपयोग करते हैं?

Model	Organization	Architecture
BERT	Google	Encoder-only (Bidirectional)
RoBERTa	Facebook	Encoder-only
ALBERT	Google	Encoder-based

✅ लाभ

Text classification, Q&A, और sentiment analysis जैसे Tasks के लिए उपयुक्त
Semantic समझ बेहतर होती है क्योंकि दोनों ओर का संदर्भ होता है

❌ सीमाएँ

Output जेनरेट करना कठिन होता है (क्योंकि Training Objective Generation-First नहीं है)
Prompt-based generation के लिए कम अनुकूल

🆚 Causal vs Masked: तुलना सारणी

विशेषता	Causal (CLM)	Masked (MLM)
उद्देश्य	अगला Token predict करना	Masked Token को भरना
Context प्रकार	केवल पिछला (Left-to-Right)	दोनों ओर (Bidirectional)
Architecture	Decoder-only	Encoder-only
Output Generation	अत्यंत अनुकूल	सीमित
उपयोग के क्षेत्र	Chatbots, Text Generation	Classification, Q&A, NLU
प्रमुख मॉडल्स	GPT series, Claude	BERT, RoBERTa, ALBERT

🎯 Practical Insight

GPT-4 जैसे आधुनिक LLMs पूरी तरह Causal Objective पर आधारित होते हैं
Instruction Tuning और Prompt Engineering भी CLM पर आधारित ढांचे में की जाती है
MLM-based models बेहतर understanding देते हैं लेकिन Output generation की क्षमता सीमित होती है

📌 Key Takeaways

Language Modeling Objectives यह निर्धारित करते हैं कि Model को क्या सीखाया गया है
CLM: Creativity और Generation के लिए श्रेष्ठ
MLM: Semantic Understanding और Analysis के लिए श्रेष्ठ
GPT जैसे Models CLM पर आधारित होते हैं, जबकि BERT जैसे Models MLM पर
Prompting की रणनीतियाँ CLM के व्यवहार को ध्यान में रखकर बनाई जाती हैं