Mastering Zero-Shot & Few-Shot Prompting in LLMs

📘 Attention Mechanism को सरल भाषा में समझना

🔰 परिचय: “Attention” क्यों जरूरी है?

कल्पना कीजिए कि आप एक लंबा वाक्य पढ़ रहे हैं — पर केवल कुछ ही शब्द महत्वपूर्ण हैं। एक इंसान की तरह, LLM भी यह निर्णय लेता है कि किस शब्द पर अधिक ध्यान (attention) देना है और किस पर कम।

Attention Mechanism मशीन को यह क्षमता देता है कि वह इनपुट अनुक्रम (sequence) में हर शब्द के बीच के रिश्तों को गहराई से समझ सके।

🧠 Attention का मूल सिद्धांत क्या है?

➤ विचार कीजिए:

वाक्य: “The cat that the dog chased was black.”

यहाँ “was black” का संबंध “cat” से है, न कि “dog” से।
मशीन को यह समझने के लिए contextual clue की जरूरत है।
यहीं Attention Mechanism काम आता है।

🔄 Attention कैसे काम करता है?

🔹 Input → Vectors → Focus

प्रत्येक शब्द को एक वेक्टर (संख्यात्मक प्रतिनिधित्व) में बदला जाता है।
हर input word के लिए तीन वेक्टर बनाए जाते हैं:

नाम	उद्देश्य
Query (Q)	सवाल पूछने जैसा: “मुझे किस पर ध्यान देना है?”
Key (K)	पहचान बताता है: “मैं कौन हूँ?”
Value (V)	जानकारी देता है: “मेरे पास क्या डेटा है?”

फिर Attention Score इस सूत्र से निकलता है:

Attention(Q, K, V) = softmax(QKᵗ / √d_k) × V

जहाँ:

QKᵗ → Similarity Measure
softmax() → Score को 0–1 के बीच लाता है
V → Final output

📊 Visualization: Attention in Action

Word	Attention Weights (towards “black”)
The	0.01
cat	0.45 ✅
dog	0.15
chased	0.05
was	0.10
black	0.24

यह दर्शाता है कि “black” शब्द “cat” से सबसे ज्यादा जुड़ा हुआ है — और Attention Mechanism यही तय करता है।

🔁 Self-Attention: अपने ही input पर ध्यान

Self-Attention वह प्रक्रिया है जिसमें हर शब्द, बाकी सभी शब्दों के साथ अपना संबंध स्वतः तय करता है।

उदाहरण:

वाक्य: “John gave Mary a book because she asked for it.”

“She” किसे दर्शाता है? Self-Attention पता लगाता है कि यह “Mary” से संबंधित है — “John” से नहीं।

🔍 Multi-Head Attention: एक से ज्यादा नजरिया

Transformer में एक नहीं, बल्कि कई Attention Heads होते हैं।
हर Head अलग-अलग तरह के संबंध पहचानता है:

Head	ध्यान केंद्रित करता है	उदाहरण
Head 1	Subject-Verb संबंध	“cat” → “sat”
Head 2	Entity Linking	“he” → “doctor”
Head 3	Temporal Relation	“yesterday” → “went”

Multi-head Attention से Model एक ही Input को कई दृष्टिकोणों से देख सकता है।

🔁 Scaled Dot-Product Attention vs Additive Attention

पहलू	Scaled Dot-Product	Additive
गणना	तेज़ (Matrix Ops)	धीमी (MLP Based)
उपयोग	GPT, BERT, LLaMA	पुरानी Architectures (Bahdanau et al.)
दक्षता	High Performance	Less Efficient

🧩 Attention vs Memory: क्या फर्क है?

घटक	कार्य
Attention	Input में ही Relational Focus लाता है
Memory	पूर्व सूचना (past states) को संरक्षित करता है

GPT जैसे मॉडल में “Attention ही Primary Memory” की तरह काम करता है।

📌 Key Takeaways (सारांश बिंदु)

Attention Mechanism मशीन को यह तय करने देता है कि किस इनपुट पर कितना ध्यान देना है।
Self-Attention हर टोकन को अन्य टोकनों से contextual रूप से जोड़ता है।
Q (Query), K (Key), V (Value) के जरिए स्कोर निकलते हैं।
Multi-head Attention मशीन को एक ही वाक्य को विभिन्न दृष्टिकोणों से देखने की क्षमता देता है।
यह GPT और सभी Transformers की कोर शक्ति है।