في هذا الدليل الشامل ستجد كل ما تحتاجه لفهم آلية الانتباه (Attention Mechanism) بعمق — من المفاهيم الأساسية إلى التطبيق العملي خطوة بخطوة.
جدول المحتويات
- المحتويات
- ما هي آلية الانتباه ولماذا ظهرت؟
- مشكلة الشبكات التكرارية RNN وحلها
- المفاهيم الأساسية: Query وKey وValue
- Scaled Dot-Product Attention: الخطوات بالتفصيل
- Multi-Head Attention: قوة النظر من زوايا متعددة
- Self-Attention مقابل Cross-Attention
- Positional Encoding: كيف يفهم النموذج الترتيب؟
- KV Cache: سر سرعة نماذج LLM في الاستنتاج
- تطورات الانتباه في 2025-2026: GQA وMLA وFlashAttention
- التحدي الأكبر: التعقيد التربيعي O(n²)
- أمثلة عملية: كيف يُطبق الانتباه في نماذج حقيقية
- خرافات شائعة عن الانتباه يجب تصحيحها
- مستقبل الانتباه: ما وراء Transformer
- الأسئلة الشائعة
- الخلاصة
المحتويات
تخيّل أنك تقرأ الجملة: “أخذ علي الكتاب ووضعه على الطاولة”. عندما تقرأ “وضعه”، يعرف دماغك فوراً أن الضمير يعود على “الكتاب” وليس “علي”. هذه القدرة على ربط الكلمات ببعضها عبر مسافات طويلة في النص هي بالضبط ما تفعله آلية الانتباه (Attention Mechanism) في نماذج الذكاء الاصطناعي. منذ أن أعلن ورقة “Attention Is All You Need” (2017) عن هذه التقنية الثورية، أصبح الانتباه العمود الفقري لكل نموذج لغوي كبير — من GPT وClaude إلى Gemini وDeepSeek. في هذا الشرح الشامل، ستفهم كيف تعمل هذه التقنية، ولماذا هي مهمة، وكيف تطورت في 2026.
ما هي آلية الانتباه ولماذا ظهرت؟
مقال مرتبط: RLHF: شرح شامل لتقنية التعلم المعزز من ردود الفعل البشرية — السر وراء ذكاء ChatGPT وClaude — هل تساءلت يوماً كيف تعلّمت نماذج مثل ChatGPT وClaude أن تردّ بأسلوب إنساني، وأن تكون مفيدة وآمنة وص…
آلية الانتباه هي طريقة رياضية تُمكّن النموذج من تحديد أهمية كل كلمة (token) بالنسبة لكل كلمة أخرى في النص، بدلاً من معالجة جميع الكلمات بنفس القدر من الاهتمام.
حسب ورقة Wikipedia عن Attention in Machine Learning (فبراير 2026)، تعمل الآلية عبر تعيين “أوزان ناعمة” (soft weights) لكل token في التسلسل. هذه الأوزان تتغير مع كل خطوة استنتاج، مما يجعل النموذج يُعيد توزيع اهتمامه ديناميكياً.
لماذا يُسمى “انتباهاً”؟ الاستلهام جاء من علم الأعصاب: الدماغ البشري لا ينتبه لكل شيء في وقت واحد، بل يُركز على ما هو ذو صلة. عندما تقرأ نصاً طويلاً، تُركز عقلياً على الكلمات المفتاحية وتتجاهل الكلمات الحشوية. الانتباه في AI يُحاكي هذه العملية بشكل رياضي.
مقال مرتبط: شرح شامل لـ RAG: من التقسيم والتضمين إلى التقييم — تعلم كيف يُستخدم الانتباه ضمن منظومة RAG لاسترجاع المعلومات.
أبرز الحقائق:
- الانتباه ليس تقنية جديدة من الصفر — ظهرت فكرتها الأولى مع seq2seq + RNN عام 2014 على يد Bahdanau وزملائه.
- الورقة الثورية “Attention Is All You Need” (Vaswani et al., 2017) أزالت RNN كلياً واعتمدت الانتباه وحده.
- اليوم، في 2026، جميع النماذج الكبرى من DeepSeek R1 إلى Llama 4 تعتمد تحويلات على هذا المبدأ الأصلي.
مشكلة الشبكات التكرارية RNN وحلها
مقال مرتبط: هندسة البرومبت المتقدمة 2026: الدليل الشامل من Zero-Shot إلى ReAct — هل تكتب للذكاء الاصطناعي وتحصل على نتائج مخيبة للآمال؟ في تجربتي، الفجوة بين من يحصلون على مخرجات ا…
لفهم لماذا الانتباه ثوري، يجب أن نفهم المشكلة التي حلّها.
الشبكات التكرارية (RNN) وعيوبها:
قبل عام 2017، كانت الخيارات المتاحة لمعالجة النصوص هي الشبكات التكرارية (RNN) وتطوراتها كـ LSTM. تعمل هذه الشبكات بمعالجة الكلمات واحدة تلو الأخرى، وتُمرر “حالة خفية” (hidden state) من كلمة لأخرى.
المشكلة الجوهرية: نسيان السياق البعيد (Vanishing Gradient Problem). تخيّل جملة طويلة من 200 كلمة — بحلول الكلمة 200، لا تذكر RNN تقريباً ما قيل في الكلمة الأولى. المعلومات “تتلاشى” كلما اتسعت المسافة.
الحلول التي جاء بها الانتباه:
- ✅ كل token يمكنه الوصول مباشرة لأي token آخر (ليس فقط السابق)
- ✅ المسافة لا تُشكّل عائقاً — token رقم 1 يمكنه التأثير على token رقم 500
- ✅ المعالجة متوازية (parallel) بدلاً من تسلسلية، مما يُسرّع التدريب بشكل هائل
في تجربتي مع هذه التقنية، الفرق الأكثر إدهاشاً هو المعالجة المتوازية: ما كان يستغرق أياماً مع RNN أصبح يستغرق ساعات مع Transformer.
المفاهيم الأساسية: Query وKey وValue
هذا هو قلب آلية الانتباه. الفهم العميق لهذا الثالوث يكشف كيف تعمل الآلية بأكملها.
القياس القاموسي: تخيّل قاموساً إلكترونياً فيه:
- Key (المفتاح): الكلمة أو المدخل الذي تبحث به
- Value (القيمة): التعريف أو المحتوى المرتبط بالمفتاح
- Query (الاستعلام): سؤالك أو ما تحاول إيجاده
| المصطلح | الوصف | الوظيفة |
|---|---|---|
| Query (Q) | تمثيل “ما أريد أن أعرفه” | الكلمة الحالية التي تبحث عن سياقها |
| Key (K) | تمثيل “ما يمكنني تقديمه” | كل كلمة تُعلن عن نفسها للمقارنة |
| Value (V) | المعلومة الفعلية المُنقلة | المحتوى الذي يُضاف للسياق عند التطابق |
مثال عملي: في الجملة “اشترى أحمد سيارةً حمراء وقادها”.
عند معالجة كلمة “قادها”:
- Query: “قادها” تسأل: “ما الذي أعود إليه؟”
- Key: كل كلمة سابقة تُقدّم نفسها للمقارنة
- نتيجة حساب الانتباه: درجة “سيارة” عالية جداً، درجة “أحمد” منخفضة، درجة “حمراء” متوسطة
- Value: المعلومات من “سيارة” تُنقل لـ “قادها” بوزن كبير
مقال مرتبط: Mixture of Experts (MoE): شرح عملي لكيف تعمل نماذج الخبراء — تقنية أخرى تُغير بنية النماذج الكبيرة بشكل جذري.
Scaled Dot-Product Attention: الخطوات بالتفصيل
هذه هي الصيغة الرياضية الأساسية. دعنا نشرحها خطوة بخطوة بدون الغوص المفرط في الرياضيات.
الصيغة:
Attention(Q, K, V) = softmax(QK^T / √d_k) × V
شرح كل مكون:
الخطوة 1: حساب درجات التشابه (QK^T)
- نضرب مصفوفة Q بمصفوفة K المنقولة (transpose)
- النتيجة: مصفوفة من الأرقام تُمثل مدى “تشابه” كل query مع كل key
- كلما كانت الدرجة أعلى = اهتمام أكبر
الخطوة 2: التحجيم (÷ √d_k)
- لماذا نقسم على √d_k؟ لتجنب الأرقام الكبيرة جداً التي تُسبب مشاكل في الـ gradient
- d_k هو بُعد (dimension) مصفوفات Q وK
- القيمة الافتراضية في Transformer الأصلي: d_k = 64
الخطوة 3: Softmax
- تُحوّل الدرجات إلى احتمالات (مجموعها = 1)
- الكلمات الأكثر صلة تحصل على وزن أعلى
- النتيجة: “أوزان الانتباه” (attention weights)
الخطوة 4: الضرب في V
- نضرب أوزان الانتباه في مصفوفة V
- النتيجة: تمثيل جديد للكلمة يحتوي على سياق مُركّب من جميع الكلمات ذات الصلة
مثال مبسط لجملة 3 كلمات:
"القط نام هنا"
درجات الانتباه لكلمة "نام":
- "القط" → 0.7 (عالي: من نام؟)
- "نام" → 0.2 (متوسط: الفعل نفسه)
- "هنا" → 0.1 (منخفض: المكان أقل أهمية)
Multi-Head Attention: قوة النظر من زوايا متعددة
هل تساءلت لماذا تُسمى “Multi-Head”؟ الإجابة بسيطة وعميقة في نفس الوقت.
المشكلة مع Attention العادي:
آلية الانتباه الأحادية تنظر للنص من زاوية واحدة فقط. لكن النص يحمل طبقات متعددة من المعنى:
- طبقة نحوية: من يفعل ماذا؟
- طبقة دلالية: ما معنى الكلمة في هذا السياق؟
- طبقة مرجعية: إلى ماذا تعود الضمائر؟
الحل: عدة “رؤوس” موازية:
| الرأس | ما يُركّز عليه (تقريباً) | مثال |
|---|---|---|
| Head 1 | الترابط النحوي | الفاعل-الفعل |
| Head 2 | الإحالة الضميرية | هو/هي ← يعود على؟ |
| Head 3 | السياق الموضوعي | الكلمات ذات الصلة بالموضوع |
| Head 4-N | أنماط أخرى متعلمة | تتعلم النماذج كشف أنماط غير متوقعة |
كيف يعمل تقنياً:
- يتم إنشاء h نسخة (heads) مختلفة من مصفوفات Q وK وV
- كل رأس يُنفّذ Attention منفصل
- النتائج تُدمج (concatenate) ثم تُضرب في مصفوفة W_O
- في GPT الأصلي: 12 رأس، في النماذج الحديثة: 32-96 رأس
ملاحظة من الخبرة: النماذج الأكبر لا تُركّز كل رأس على نمط واضح — بعض الرؤوس تتخصص بأنماط غامضة يصعب تفسيرها بشكل بشري.
Self-Attention مقابل Cross-Attention
هناك نوعان رئيسيان من الانتباه يجب تمييزهما.
Self-Attention (الانتباه الذاتي):
- Q وK وV تأتي من نفس التسلسل
- النموذج “يُحاور” النص مع نفسه
- الاستخدام: الغالبية العظمى من عمليات Transformer الحديثة
- مثال: GPT يستخدم Self-Attention حصراً
Cross-Attention (الانتباه المتقاطع):
- Q يأتي من تسلسل واحد وK وV من تسلسل آخر
- يُتيح للنموذج “الاستماع” لمدخل مختلف
- الاستخدام: نماذج Encoder-Decoder (مثل الترجمة الآلية)
- مثال: عند ترجمة نص، يُعطي decoder اهتماماً للـ encoder عبر Cross-Attention
مقال مرتبط: هندسة البرومبت المتقدمة 2026: الدليل الشامل من Zero-Shot إلى ReAct — كيف تُصمّم مدخلات فعّالة للنماذج القائمة على Transformer.
Causal (Masked) Self-Attention:
- نوع خاص يُستخدم في نماذج اللغة التوليدية (مثل GPT)
- يمنع النموذج من “النظر للمستقبل” أثناء التدريب
- يعني: عند توقع الكلمة رقم 5، النموذج يرى فقط الكلمات 1-4
Positional Encoding: كيف يفهم النموذج الترتيب؟
هنا مشكلة خفية مهمة: آلية الانتباه في حد ذاتها لا تُميّز بين ترتيب الكلمات. إذا أعدنا ترتيب الكلمات عشوائياً، ستُنتج نفس النتيجة!
“أكل الأسد الغزال” و”أكل الغزال الأسد” — لغوياً معناهما مختلف تماماً، لكن بدون encoding للموضع، الانتباه لن يُميّز.
الحل: Positional Encoding
يتم إضافة vector يُمثّل موضع كل token في التسلسل. هناك عدة أساليب:
- Sinusoidal (الأصلي): استُخدم في الورقة الأصلية 2017
- يستخدم دوال sin وcos بترددات مختلفة
- يعمل مع أطوال غير مرئية أثناء التدريب
- Learnable (القابل للتعلم): النموذج يتعلم encoding الموضع
- مستخدم في GPT-2 والإصدارات المبكرة
- محدود بطول السياق المُدرَّب عليه
- RoPE (Rotary Position Embedding): الأحدث والأكثر انتشاراً في 2025-2026
- حسب تقرير Sebastian Raschka (فبراير 2026): معظم النماذج الحديثة تستخدم RoPE
- يُشفّر الموضع النسبي لا المطلق
- يعمل بشكل أفضل مع تمديد نافذة السياق
KV Cache: سر سرعة نماذج LLM في الاستنتاج
هذا مفهوم عملي حاسم لفهم كيف تعمل ChatGPT وClaude بسرعة أثناء توليد النص.
المشكلة: في كل خطوة توليد، النموذج يحتاج لحساب K وV لجميع الكلمات السابقة. إعادة الحساب في كل خطوة = بطء هائل!
الحل: KV Cache
النموذج يُخزّن مصفوفات K وV المحسوبة مسبقاً ولا يُعيد حسابها. في كل خطوة جديدة، يُضاف فقط الـ K وV للكلمة الجديدة.
التأثير العملي:
- توليد النص يصبح O(n) بدلاً من O(n²) مع كل خطوة
- توفير هائل في الحوسبة
- العيب: يستهلك ذاكرة GPU كثيرة — هذا أحد أسباب تحديات تمديد نافذة السياق
# بدون KV Cache (كل خطوة تعيد الحساب)
Step 1: Compute K,V for tokens [1]
Step 2: Compute K,V for tokens [1,2] # يُعيد حساب token 1
Step 3: Compute K,V for tokens [1,2,3] # يُعيد حساب tokens 1,2
# مع KV Cache (تراكمي)
Step 1: Compute K,V for token [1] → Cache
Step 2: Compute K,V for token [2] only → Cache += [2]
Step 3: Compute K,V for token [3] only → Cache += [3]
تطورات الانتباه في 2025-2026: GQA وMLA وFlashAttention
الانتباه لم يتوقف عند النموذج الأصلي. في 2025-2026، ثلاثة تطورات جوهرية أعادت تشكيل الحقل.
أولاً: Grouped-Query Attention (GQA)
المشكلة في MHA (Multi-Head Attention): كل head له مصفوفاته الخاصة من K وV، مما يُضاعف استهلاك الذاكرة.
الحل في GQA: تجميع عدة heads لتشارك نفس مصفوفات K وV.
حسب ورقة Sebastian Raschka المحدّثة (فبراير 2026): GQA أصبح المعيار الجديد بدلاً من MHA في معظم النماذج الحديثة. أداؤه مُقارب لـ MHA مع كفاءة ذاكرة أعلى بكثير.
ثانياً: Multi-Head Latent Attention (MLA) من DeepSeek
ابتكر DeepSeek V3 تقنية MLA كحل أكثر طموحاً:
- بدلاً من تخزين K وV كاملة، يتم ضغطها في بُعد أصغر عبر مصفوفات down-projection
- الفائدة: توفير ضخم في ذاكرة KV Cache
- التحدي: تعقيد أعلى في التنفيذ وأقل توافقاً مع بعض أدوات الأجهزة مقارنة بـ GQA
ثالثاً: FlashAttention
حسب GitHub الرسمي لـ FlashAttention (Dao-AILab): تُحسّن FlashAttention عمليات الذاكرة على GPU عبر “IO-aware exact attention”.
الفرق الجوهري: ليس تقريباً للانتباه بل إعادة هيكلة لكيفية الوصول للذاكرة:
- تُقلّل عمليات القراءة/الكتابة على HBM (High Bandwidth Memory)
- تُبقي الحسابات في SRAM (ذاكرة أسرع)
- النتيجة: سرعة 2-4× أعلى مع نفس النتائج الدقيقة
مقال مرتبط: DeepSeek R1: نموذج الذكاء الاصطناعي المفتوح الذي هز عالم التقنية في 2026 — كيف استخدم DeepSeek تقنيات مبتكرة مثل MLA.
التحدي الأكبر: التعقيد التربيعي O(n²)
هذا هو “عَرَق جبين” الانتباه — القيد الأساسي الذي يُحدّد كل شيء.
ما معنى O(n²)؟
عند حساب Attention لتسلسل طوله n:
- كل token يجب أن يُقارن مع كل token آخر
- عدد المقارنات = n × n = n²
| طول التسلسل | عدد المقارنات |
|---|---|
| 100 token | 10,000 |
| 1,000 token | 1,000,000 |
| 10,000 token | 100,000,000 |
| 100,000 token | 10,000,000,000 |
الأثر العملي: مضاعفة طول السياق → تربيع تكلفة الحوسبة.
كيف تتعامل النماذج الحديثة مع هذا؟
- Sliding Window Attention: كل token ينتبه فقط لنافذة محيطة (مثل Mistral)
- Sparse Attention: تُحسب Attention فقط لـ “tokens المهمة” (حسب ورقة arXiv يناير 2026)
- Linear Attention: تقريبات تُقلّل التعقيد إلى O(n) لكن بتضحيات في الدقة
- Mamba وSSMs: بدائل غير قائمة على Attention تعمل بـ O(n) — لكن لم تستطع حتى الآن منافسة Transformer في الأداء
أمثلة عملية: كيف يُطبق الانتباه في نماذج حقيقية
لنُلقِ نظرة على كيفية استخدام الانتباه في نماذج تعرفها.
GPT-4 / Claude / Gemini (نماذج Decoder-Only):
- يستخدمان Causal Self-Attention حصراً
- كل token ينتبه لجميع الكلمات السابقة فقط
- عدد الطبقات: عشرات أو مئات من layers متراكمة
نماذج الترجمة (Encoder-Decoder):
- Encoder: يستخدم Self-Attention الكامل (يرى كل الجملة)
- Decoder: يستخدم Causal Self-Attention + Cross-Attention مع الـ Encoder
مثال: كيف يفهم Claude سؤالك
السؤال: "ما هي عاصمة فرنسا وكيف يختلف طقسها في الشتاء؟"
طبقة 1 - Attention:
"عاصمة" → تنتبه بشدة لـ "فرنسا"
"طقسها" → تنتبه لـ "عاصمة" + "فرنسا" (إحالة ضميرية)
"الشتاء" → تنتبه لـ "طقسها" + "يختلف"
بعد 30+ طبقة متراكمة:
النموذج يفهم السؤال بكامل تعقيده ويُجيب بشكل مترابط
الفرق الذي يصنع التميّز: النموذج لا يُجيب عن “عاصمة فرنسا” و”طقس الشتاء” كسؤالين منفصلين — بل يفهم أنهما مترابطان نحوياً ودلالياً.
خرافات شائعة عن الانتباه يجب تصحيحها
الخرافة 1: “الانتباه يُريك ما يُفكر به النموذج”
الواقع: خرائط الانتباه (attention maps) ليست قراءة مباشرة لتفكير النموذج. أبحاث “BERTology” أثبتت أن الانتباه العالي لا يعني بالضرورة الأهمية السببية في النتيجة.
الخرافة 2: “كل رأس يتخصص في مهمة محددة”
الواقع: صحيح جزئياً. بعض الرؤوس تُظهر تخصصاً واضحاً، لكن أغلبها يُنفذ وظائف غامضة لا يمكن وصفها بسهولة.
الخرافة 3: “الانتباه هو الجزء الوحيد المهم في Transformer”
الواقع: Transformer يحتوي أيضاً على:
- Feed-Forward Networks (FFN) — تُعالج كل token منفردة وتُشكّل ذاكرة “الحقائق”
- Layer Normalization
- Residual Connections (skip connections)
كل هذه العناصر ضرورية.
الخرافة 4: “نماذج أطول السياق دائماً أفضل”
الواقع: زيادة نافذة السياق تزيد التعقيد تربيعياً وتُشتّت الانتباه على معلومات غير مهمة. أبحاث “Lost in the Middle” أظهرت أن النماذج تُعاني في استخدام المعلومات من منتصف السياق الطويل بكفاءة.
مستقبل الانتباه: ما وراء Transformer
هل سيظل الانتباه هو التقنية المهيمنة؟ حسب تحليل Sebastian Raschka (فبراير 2026): “من DeepSeek R1 إلى MiniMax-M2، أكبر النماذج وأكثرها قدرة لا تزال decoder-style transformers قائمة على multi-head attention”.
لكن الحقل لا يتوقف:
اتجاهات 2026:
- Hybrid Models: دمج Attention مع SSMs (مثل Jamba من AI21)
- Sparse Attention: تقليل الحسابات عبر اختيار ذكي للـ tokens
- Linear Complexity Attention: أبحاث مكثفة للوصول لـ O(n) بدقة مماثلة
- Multi-Modal Attention: توسيع الانتباه ليشمل الصور والصوت والنصوص معاً
مقال مرتبط: Function Calling في نماذج LLM: الدليل الشامل لتحويل الذكاء الاصطناعي من نصٍّ إلى فعل حقيقي (2026) — كيف يُستخدم Transformer لتحويل النص إلى أفعال حقيقية.
التوقع: الانتباه سيظل محور العمارات الكبيرة لفترة مطوّلة، مع تحسينات تدريجية في الكفاءة لا إحلال جذري.
الأسئلة الشائعة
س1: هل الانتباه هو نفسه في كل نماذج LLM؟
لا. الفكرة الجوهرية واحدة (Q, K, V)، لكن التفاصيل تختلف: نوع Positional Encoding (Sinusoidal, RoPE, ALiBi)، عدد الرؤوس، أسلوب GQA أو MLA، وغيرها. النماذج الحديثة في 2025-2026 تعتمد RoPE وGQA كمعيار.
س2: لماذا تُعيد بعض النماذج إلى “ضياع الانتباه” في النصوص الطويلة؟
التعقيد O(n²) يعني أن كل token في سياق 100,000 token يجب أن “يُوازن” اهتمامه بين 100,000 مدخل. من الناحية العملية، بعض المعلومات المهمة في المنتصف تحصل على وزن ضعيف. هذا ما وثّقته ورقة “Lost in the Middle” (بالانجليزية) وما تعمل FlashAttention وSparse Attention على تحسينه.
س3: كيف أُعظّم استفادتي من الانتباه عند كتابة البرومبت؟
المعلومات في البداية والنهاية تحصل على انتباه أعلى. للمعلومات المهمة: ضعها في البداية أو في آخر البرومبت. تجنّب “دفن” التعليمات الأساسية في منتصف نص طويل.
س4: هل يمكن تفسير قرارات النموذج من خلال خرائط الانتباه؟
جزئياً فقط. يمكن استخدام خرائط الانتباه كأداة استكشافية، لكنها ليست تفسيراً سببياً كاملاً. أبحاث Explainable AI تستخدم أساليب أكثر دقة مثل Integrated Gradients وCAM.
س5: ما الفرق الجوهري بين الانتباه والذاكرة في نماذج LLM؟
الانتباه هو “ذاكرة عمل” تُعيد تنظيم المعلومات داخل نافذة السياق. أما “ذاكرة المعرفة” (حقائق عن العالم) فتُخزَّن في أوزان الشبكة عبر التدريب. RAG وادوات الوصول الخارجي تُعزز الانتباه بمعلومات خارجة عن نافذة السياق.
س6: لماذا يصعب على النماذج حساب 1+1+1+1… 100 مرة؟
لأن الانتباه مُصمَّم للسياق اللغوي والعلاقات الدلالية، لا للعمليات الحسابية التراكمية. هذا القيد ظاهر بشكل خاص في المهام التي تتطلب تتبعاً دقيقاً لمتغيرات على مدى سياق طويل.
الخلاصة
آلية الانتباه ليست مجرد خوارزمية — إنها فلسفة في التعامل مع المعلومات: لا تُعامل كل شيء بالتساوي، بل وزّع اهتمامك بذكاء.
من نموذج Bahdanau البسيط عام 2014 إلى MLA في DeepSeek V3، قطعت هذه التقنية شوطاً هائلاً. وفي 2026، تستمر في التطور عبر GQA وFlashAttention وتقنيات Sparse Attention.
ما يجب أن تتذكره:
- Q, K, V هو قلب كل شيء — فهمها = فهم الانتباه
- Multi-Head يُتيح رؤية النص من زوايا متعددة في آن واحد
- KV Cache يُحوّل الانتباه من بطيء إلى عملي
- التعقيد O(n²) هو التحدي الأكبر الذي يُقيّد نافذة السياق
- النماذج الحديثة تستخدم RoPE + GQA كمعيار في 2025-2026
للمبتدئين الذين يريدون البدء: ابدأ بتجربة أداة كـ BertViz لتصور خرائط الانتباه — ستُساعدك على بناء حدس بصري قبل الغوص في الرياضيات.
عن الكاتب
علي – خبير تحسين محركات البحث (SEO) ومطور مهتم بالذكاء الاصطناعي. يدير موقع Lira Now المتخصص في أخبار وشروحات AI، ويساعد المواقع العربية على تحسين ترتيبها في نتائج البحث. شغوف باستكشاف أدوات الذكاء الاصطناعي الجديدة وتطبيقها عملياً.
المصادر
- Attention (machine learning)Wikipedia – فبراير 2026
- Transformer (deep learning)Wikipedia – فبراير 2026
- Attention Is All You NeedVaswani et al. (Google Brain) – NeurIPS 2017
- The Big LLM Architecture ComparisonSebastian Raschka, PhD – فبراير 2026
- Attention Mechanism in LLM Explained: A Deep DiveThe Thought Process – مايو 2025
- Efficient Attention Mechanisms for Large Language Models: A SurveyarXiv – فبراير 2026
- LLMOrbit: A Circular Taxonomy of Large Language ModelsarXiv – يناير 2026
- FlashAttention: Fast and Memory-Efficient Exact AttentionDao-AILab GitHub – 2025
- RoPE, Clearly ExplainedTowards Data Science – فبراير 2026
- Transformer Explainer: LLM Transformer Model Visually ExplainedPolo Club of Data Science
- Understanding and Coding Self-Attention, Multi-Head Attention in LLMsSebastian Raschka
- Queries, Keys, and Values — Dive into Deep Learningd2l.ai
مقالات ذات صلة
-
RLHF: شرح شامل لتقنية التعلم المعزز من ردود الفعل البشرية — السر وراء ذكاء ChatGPT وClaude
هل تساءلت يوماً كيف تعلّمت نماذج مثل ChatGPT وClaude أن تردّ بأسلوب إنساني، وأن تكون مفيدة وآمنة وصادقة في آنٍ واحد؟ الإجابة تكمن في تقنية ثورية…
-
هندسة البرومبت المتقدمة 2026: الدليل الشامل من Zero-Shot إلى ReAct
هل تكتب للذكاء الاصطناعي وتحصل على نتائج مخيبة للآمال؟ في تجربتي، الفجوة بين من يحصلون على مخرجات احترافية ومن يحصلون على ردود عشوائية لا تكمن ف…
-
Function Calling في نماذج LLM: الدليل الشامل لتحويل الذكاء الاصطناعي من نصٍّ إلى فعل حقيقي (2026)
هل تساءلت يومًا كيف يستطيع ChatGPT حجز موعد أو استدعاء API أو البحث في قاعدة بيانات؟ السر يكمن في Function Calling — التقنية التي تحوّل النموذج…
-
Agentic AI في 2026: الدليل الشامل لفهم وبناء أنظمة الذكاء الاصطناعي المستقلة
المحتويات 1. ما هو Agentic AI؟ (التعريف الدقيق) 2. Agentic AI مقابل Generative AI: ما الفرق الجوهري؟ 3. Agentic AI مقابل Autonomous AI: توضيح ال…
-
Mixture of Experts (MoE): شرح عملي لكيف تعمل نماذج الخبراء
في هذا الدليل ستفهم Mixture of Experts (MoE) أو «مزيج الخبراء» كأحد أهم أفكار التوسّع الذكي في نماذج اللغة الكبيرة: كيف تسمح لك ببناء نموذج يملك…

اترك تعليقاً