Course Content
Mastering Zero-Shot & Few-Shot Prompting in LLMs

Prompt Input से Output तक की प्रक्रिया


🔰 परिचय: Prompt देने से Output आने तक क्या होता है?

जब आप किसी AI चैटबॉट (जैसे ChatGPT) को कोई सवाल पूछते हैं या निर्देश देते हैं —
उसे हम “Prompt” कहते हैं। लेकिन उसके पीछे का वैज्ञानिक तंत्र यह तय करता है कि:

🤖 “Model किस logic से Output बनाएगा?”

इस अध्याय में हम यह जानेंगे कि एक Prompt के Model तक पहुँचने से लेकर Final Output मिलने तक — किस चरणों से गुजरना होता है।


📌 Step-by-Step प्रक्रिया: Prompt से Output


🧩 चरण 1: Tokenization

  • सबसे पहले, Input Prompt को tokens में विभाजित किया जाता है

  • यह Model की समझ के लिए Raw Text को numerical IDs में बदलता है

  • यह काम Model का Tokenizer करता है (जैसे GPT का tiktoken)

उदाहरण:

Prompt: “Translate this sentence to French: Hello, how are you?”
Tokens: ["Translate", " this", " sentence", " to", " French", ":", " Hello", ",", " how", " are", " you", "?"]

🧩 चरण 2: Input Embeddings में रूपांतरण

  • प्रत्येक Token को एक Vector (अर्थात् एक संख्यात्मक रूप) में बदला जाता है —
    जिससे Model को उनके semantic संबंध समझ में आएँ

  • इन Vectors को ही Input Embeddings कहा जाता है

यह वह Stage है जहाँ शब्दों का “Mathematical रूप” बनता है।


🧩 चरण 3: Positional Encoding जोड़ना

  • Transformer Architecture को शब्दों की “स्थिति” पता नहीं होती

  • इसलिए हर Token के साथ उसकी Position (स्थान) को encode किया जाता है —
    ताकि Model यह समझ सके कि कौन सा शब्द पहले और कौन सा बाद में आया है

फायदा:
इससे Grammar, Syntax और Sequence से जुड़ी जानकारी Model को मिलती है


🧩 चरण 4: Attention Mechanism का प्रयोग

  • अब प्रत्येक Token बाकी सभी Tokens की ओर देखता है (Self-Attention)

  • Model यह निर्णय लेता है कि किस Token पर अधिक ध्यान देना है, किस पर कम

  • यह प्रोसेस कई Layers में दोहराई जाती है
    → जिससे गहराई से समझने की क्षमता आती है

उदाहरण:

“bank” शब्द का अर्थ — “river bank” है या “financial bank” — यह context के अन्य tokens पर निर्भर करेगा


🧩 चरण 5: Hidden Representations & Layers

  • प्रत्येक Layer के बाद, Input Vectors को Refine किया जाता है
    जिससे प्रत्येक Token का “contextual meaning” मजबूत होता है

  • जितनी ज्यादा Layers → उतनी गहरी समझ


🧩 चरण 6: Output Prediction (Next Token Generation)

  • अब Model यह गणना करता है कि अगला Token कौन-सा होना चाहिए

  • यह एक प्रकार की Probability Distribution होती है
    जो संभावित Tokens को एक score देती है

उदाहरण:
“The sun is” → Next probable tokens: [“shining”, “hot”, “yellow”, “setting”]


🧩 चरण 7: Sampling Technique लागू होती है

Model द्वारा Generated Tokens में से कौन-सा चुना जाए, यह निम्न तरीकों से तय होता है:

Technique विवरण
Greedy Decoding सबसे अधिक score वाला Token चुना जाता है
Temperature Randomness नियंत्रित करता है (0 = deterministic, 1 = creative)
Top-k Sampling Top-k संभावनाओं में से Random चुनाव
Top-p (Nucleus) सबसे अधिक cumulative probability वाले tokens में से चयन

🧩 चरण 8: Loop चलता है (Auto-Regressive Prediction)

  • Output में एक Token जुड़ता है

  • अब नया Input = पिछला Input + नया Token

  • यह प्रक्रिया तब तक चलती है जब तक:

    • Max Token Limit पूरी न हो जाए

    • Stop Sequence आ जाए

    • User-defined length पूरी हो जाए


🌀 Visualization: Input → Output Pipeline

flowchart LR
    A[Raw Prompt Input] --> B[Tokenization]
    B --> C[Input Embedding + Positional Encoding]
    C --> D[Multi-head Self Attention]
    D --> E[Feed Forward Neural Layers]
    E --> F[Probability Distribution of Next Tokens]
    F --> G[Token Sampling (Top-k, Top-p, Temp)]
    G --> H[Output Token Generated]
    H --> I{Next Token Needed?}
    I -- Yes --> B
    I -- No --> J[Final Output Displayed]

📌 Prompt Input से Output तक की प्रक्रिया का सारांश

चरण कार्य
1. Tokenization Input Text को Machine-readable Units में बदला जाता है
2. Embedding प्रत्येक Token को Vector में बदला जाता है
3. Positional Info Sequence को समझने के लिए Position Encode होता है
4. Attention Relevant context को पहचाना जाता है
5. Output Prediction अगला Token निर्धारित होता है
6. Sampling Best या Random Tokens चुने जाते हैं
7. Auto-Regressive Loop प्रक्रिया तब तक दोहराई जाती है जब तक Output पूरा न हो जाए

🔎 Practical उपयोग

  • Prompt को इस understanding से बेहतर design किया जा सकता है

  • Token Limit को ध्यान में रखते हुए compact और effective input बनाना संभव है

  • Output behavior को Sampling Settings से नियंत्रित किया जा सकता है (Creativity vs Determinism)


📌 Key Takeaways

  • Prompt से Output तक की प्रक्रिया में अनेक तकनीकी चरण शामिल हैं

  • Embedding, Attention और Sampling Core Components हैं

  • Output पर आपका Control “Prompt Design” और “Sampling Strategy” से संभव है

  • यह समझ Zero-shot & Few-shot prompting को डिज़ाइन करने के लिए आधार है

0% Complete