Mastering Zero-Shot & Few-Shot Prompting in LLMs

Prompt Input से Output तक की प्रक्रिया

🔰 परिचय: Prompt देने से Output आने तक क्या होता है?

जब आप किसी AI चैटबॉट (जैसे ChatGPT) को कोई सवाल पूछते हैं या निर्देश देते हैं —
उसे हम “Prompt” कहते हैं। लेकिन उसके पीछे का वैज्ञानिक तंत्र यह तय करता है कि:

🤖 “Model किस logic से Output बनाएगा?”

इस अध्याय में हम यह जानेंगे कि एक Prompt के Model तक पहुँचने से लेकर Final Output मिलने तक — किस चरणों से गुजरना होता है।

📌 Step-by-Step प्रक्रिया: Prompt से Output

🧩 चरण 1: Tokenization

सबसे पहले, Input Prompt को tokens में विभाजित किया जाता है
यह Model की समझ के लिए Raw Text को numerical IDs में बदलता है
यह काम Model का Tokenizer करता है (जैसे GPT का tiktoken)

उदाहरण:

Prompt: “Translate this sentence to French: Hello, how are you?”
Tokens: ["Translate", " this", " sentence", " to", " French", ":", " Hello", ",", " how", " are", " you", "?"]

🧩 चरण 2: Input Embeddings में रूपांतरण

प्रत्येक Token को एक Vector (अर्थात् एक संख्यात्मक रूप) में बदला जाता है —
जिससे Model को उनके semantic संबंध समझ में आएँ
इन Vectors को ही Input Embeddings कहा जाता है

यह वह Stage है जहाँ शब्दों का “Mathematical रूप” बनता है।

🧩 चरण 3: Positional Encoding जोड़ना

Transformer Architecture को शब्दों की “स्थिति” पता नहीं होती
इसलिए हर Token के साथ उसकी Position (स्थान) को encode किया जाता है —
ताकि Model यह समझ सके कि कौन सा शब्द पहले और कौन सा बाद में आया है

फायदा:
इससे Grammar, Syntax और Sequence से जुड़ी जानकारी Model को मिलती है

🧩 चरण 4: Attention Mechanism का प्रयोग

अब प्रत्येक Token बाकी सभी Tokens की ओर देखता है (Self-Attention)
Model यह निर्णय लेता है कि किस Token पर अधिक ध्यान देना है, किस पर कम
यह प्रोसेस कई Layers में दोहराई जाती है
→ जिससे गहराई से समझने की क्षमता आती है

उदाहरण:

“bank” शब्द का अर्थ — “river bank” है या “financial bank” — यह context के अन्य tokens पर निर्भर करेगा

🧩 चरण 5: Hidden Representations & Layers

प्रत्येक Layer के बाद, Input Vectors को Refine किया जाता है
जिससे प्रत्येक Token का “contextual meaning” मजबूत होता है
जितनी ज्यादा Layers → उतनी गहरी समझ

🧩 चरण 6: Output Prediction (Next Token Generation)

अब Model यह गणना करता है कि अगला Token कौन-सा होना चाहिए
यह एक प्रकार की Probability Distribution होती है
जो संभावित Tokens को एक score देती है

उदाहरण:
“The sun is” → Next probable tokens: [“shining”, “hot”, “yellow”, “setting”]

🧩 चरण 7: Sampling Technique लागू होती है

Model द्वारा Generated Tokens में से कौन-सा चुना जाए, यह निम्न तरीकों से तय होता है:

Technique	विवरण
Greedy Decoding	सबसे अधिक score वाला Token चुना जाता है
Temperature	Randomness नियंत्रित करता है (0 = deterministic, 1 = creative)
Top-k Sampling	Top-k संभावनाओं में से Random चुनाव
Top-p (Nucleus)	सबसे अधिक cumulative probability वाले tokens में से चयन

🧩 चरण 8: Loop चलता है (Auto-Regressive Prediction)

Output में एक Token जुड़ता है
अब नया Input = पिछला Input + नया Token
यह प्रक्रिया तब तक चलती है जब तक:
- Max Token Limit पूरी न हो जाए
- Stop Sequence आ जाए
- User-defined length पूरी हो जाए

🌀 Visualization: Input → Output Pipeline

flowchart LR
    A[Raw Prompt Input] --> B[Tokenization]
    B --> C[Input Embedding + Positional Encoding]
    C --> D[Multi-head Self Attention]
    D --> E[Feed Forward Neural Layers]
    E --> F[Probability Distribution of Next Tokens]
    F --> G[Token Sampling (Top-k, Top-p, Temp)]
    G --> H[Output Token Generated]
    H --> I{Next Token Needed?}
    I -- Yes --> B
    I -- No --> J[Final Output Displayed]

📌 Prompt Input से Output तक की प्रक्रिया का सारांश

चरण	कार्य
1. Tokenization	Input Text को Machine-readable Units में बदला जाता है
2. Embedding	प्रत्येक Token को Vector में बदला जाता है
3. Positional Info	Sequence को समझने के लिए Position Encode होता है
4. Attention	Relevant context को पहचाना जाता है
5. Output Prediction	अगला Token निर्धारित होता है
6. Sampling	Best या Random Tokens चुने जाते हैं
7. Auto-Regressive Loop	प्रक्रिया तब तक दोहराई जाती है जब तक Output पूरा न हो जाए

🔎 Practical उपयोग

Prompt को इस understanding से बेहतर design किया जा सकता है
Token Limit को ध्यान में रखते हुए compact और effective input बनाना संभव है
Output behavior को Sampling Settings से नियंत्रित किया जा सकता है (Creativity vs Determinism)

📌 Key Takeaways

Prompt से Output तक की प्रक्रिया में अनेक तकनीकी चरण शामिल हैं
Embedding, Attention और Sampling Core Components हैं
Output पर आपका Control “Prompt Design” और “Sampling Strategy” से संभव है
यह समझ Zero-shot & Few-shot prompting को डिज़ाइन करने के लिए आधार है