📘 Attention Mechanism को सरल भाषा में समझना
🔰 परिचय: “Attention” क्यों जरूरी है?
कल्पना कीजिए कि आप एक लंबा वाक्य पढ़ रहे हैं — पर केवल कुछ ही शब्द महत्वपूर्ण हैं। एक इंसान की तरह, LLM भी यह निर्णय लेता है कि किस शब्द पर अधिक ध्यान (attention) देना है और किस पर कम।
Attention Mechanism मशीन को यह क्षमता देता है कि वह इनपुट अनुक्रम (sequence) में हर शब्द के बीच के रिश्तों को गहराई से समझ सके।
🧠 Attention का मूल सिद्धांत क्या है?
➤ विचार कीजिए:
वाक्य: “The cat that the dog chased was black.”
यहाँ “was black” का संबंध “cat” से है, न कि “dog” से।
मशीन को यह समझने के लिए contextual clue की जरूरत है।
यहीं Attention Mechanism काम आता है।
🔄 Attention कैसे काम करता है?
🔹 Input → Vectors → Focus
प्रत्येक शब्द को एक वेक्टर (संख्यात्मक प्रतिनिधित्व) में बदला जाता है।
हर input word के लिए तीन वेक्टर बनाए जाते हैं:
नाम | उद्देश्य |
---|---|
Query (Q) | सवाल पूछने जैसा: “मुझे किस पर ध्यान देना है?” |
Key (K) | पहचान बताता है: “मैं कौन हूँ?” |
Value (V) | जानकारी देता है: “मेरे पास क्या डेटा है?” |
फिर Attention Score इस सूत्र से निकलता है:
Attention(Q, K, V) = softmax(QKᵗ / √d_k) × V
जहाँ:
-
QKᵗ
→ Similarity Measure -
softmax()
→ Score को 0–1 के बीच लाता है -
V
→ Final output
📊 Visualization: Attention in Action
Word | Attention Weights (towards “black”) |
---|---|
The | 0.01 |
cat | 0.45 ✅ |
dog | 0.15 |
chased | 0.05 |
was | 0.10 |
black | 0.24 |
यह दर्शाता है कि “black” शब्द “cat” से सबसे ज्यादा जुड़ा हुआ है — और Attention Mechanism यही तय करता है।
🔁 Self-Attention: अपने ही input पर ध्यान
Self-Attention वह प्रक्रिया है जिसमें हर शब्द, बाकी सभी शब्दों के साथ अपना संबंध स्वतः तय करता है।
उदाहरण:
वाक्य: “John gave Mary a book because she asked for it.”
“She” किसे दर्शाता है? Self-Attention पता लगाता है कि यह “Mary” से संबंधित है — “John” से नहीं।
🔍 Multi-Head Attention: एक से ज्यादा नजरिया
Transformer में एक नहीं, बल्कि कई Attention Heads होते हैं।
हर Head अलग-अलग तरह के संबंध पहचानता है:
Head | ध्यान केंद्रित करता है | उदाहरण |
---|---|---|
Head 1 | Subject-Verb संबंध | “cat” → “sat” |
Head 2 | Entity Linking | “he” → “doctor” |
Head 3 | Temporal Relation | “yesterday” → “went” |
Multi-head Attention से Model एक ही Input को कई दृष्टिकोणों से देख सकता है।
🔁 Scaled Dot-Product Attention vs Additive Attention
पहलू | Scaled Dot-Product | Additive |
---|---|---|
गणना | तेज़ (Matrix Ops) | धीमी (MLP Based) |
उपयोग | GPT, BERT, LLaMA | पुरानी Architectures (Bahdanau et al.) |
दक्षता | High Performance | Less Efficient |
🧩 Attention vs Memory: क्या फर्क है?
घटक | कार्य |
---|---|
Attention | Input में ही Relational Focus लाता है |
Memory | पूर्व सूचना (past states) को संरक्षित करता है |
GPT जैसे मॉडल में “Attention ही Primary Memory” की तरह काम करता है।
📌 Key Takeaways (सारांश बिंदु)
-
Attention Mechanism मशीन को यह तय करने देता है कि किस इनपुट पर कितना ध्यान देना है।
-
Self-Attention हर टोकन को अन्य टोकनों से contextual रूप से जोड़ता है।
-
Q (Query), K (Key), V (Value) के जरिए स्कोर निकलते हैं।
-
Multi-head Attention मशीन को एक ही वाक्य को विभिन्न दृष्टिकोणों से देखने की क्षमता देता है।
-
यह GPT और सभी Transformers की कोर शक्ति है।