هل أحظى باهتمامك؟ حسنًا، ماذا يعني حقًا جذب انتباهك؟ يُعرَّف الانتباه بأنه «ملاحظة يتم التقاطها لشخص ما أو شيء ما؛ فيما يتعلق بشخص ما أو شيء مثير للاهتمام أو مهم». كبشر، نحن قادرون على التركيز بشكل انتقائي على جوانب - دعنا نقول - الصورة، وفهم السياق بكفاءة مع استخلاص النتائج في نفس الوقت. بدلاً من النظر إلى كل بكسل/تفاصيل الصورة، يختار الدماغ البشري التركيز على الأشياء الرئيسية أولاً.
يتم محاكاة سمة «الانتباه» البشرية هذه في مهام الرؤية الحاسوبية. بدلاً من الاضطرار إلى مسح الصورة بأكملها، تتيح رؤية الكمبيوتر لأجهزة الكمبيوتر التركيز على المناطق ذات الصلة.
أعلاه، يتم تركيز الانتباه على المناطق المميزة لإخراج كلمة معينة. «امرأة ترمي الفريسبي في الحديقة.»
يمكن تطبيق مفهوم الاهتمام هذا على مجالات أخرى من التعلم الآلي أيضًا. فكر في كتاب العلوم بالمدرسة الابتدائية. إذا سألك شخص ما «ما هي التصنيفات الثلاثة الرئيسية للصخور؟» ، للعثور على الإجابة، يمكنك الرجوع إلى الفصل الخاص بـ Rocks وعدم قراءة الكتاب المدرسي بأكمله من الغلاف إلى الغلاف. يتيح لك ذلك العثور على إجابة محددة بدلاً من التعميم بناءً على الكتاب بأكمله الذي قرأته للتو. هذا المنطق نفسه هو كيفية عمل آليات الانتباه ضمن مهام معالجة اللغة الطبيعية.
في عام 2017، أصدر Ashish Vaswani وآخرون في فريق Google Brain طريقة جديدة لمعالجة اللغة تسمى «شبكة Transformer» في ورقة بعنوان «الاهتمام هو كل ما تحتاجه». يستخدم المحول آليات الانتباه هذه (ومن هنا جاء اسم «الانتباه هو كل ما تحتاجه») لمعالجة تسلسلات طويلة من البيانات، أي سلاسل طويلة من النص، بشكل أسرع وأكثر دقة من ذي قبل.
بدلاً من التعامل مع اللغة من العدسة النموذجية لمعالجة كل كلمة واحدة تلو الأخرى، استمد فريق Google الإلهام من آليات الانتباه في الشبكات العصبية التلافيفية (CNN) وشاهد مجموعات النص تقريبًا كما لو كانت صورًا بحد ذاتها. استخدمت «الانتباه هو كل ما تحتاجه» الأفكار الرئيسية للانتباه في شبكات CNN لتعليم الآلات كيفية قراءة وكتابة وفهم اللغة البشرية (معالجة اللغة الطبيعية أو NLP) بطريقة أكثر كفاءة ودقة من أي وقت مضى. سعى Transformer إلى أن يصبح أداة حسابية أكثر نجاحًا تُستخدم لمعالجة اللغة وتفسيرها وتوليدها.
المشاكل التي تعالجها آليات الانتباه
مشاكل التبعية طويلة المدى للحل السابق (RNN)
الشبكة العصبية المتكررة (RNN) هي البنية التي تم استخدامها في الأصل لالتقاط التبعيات في الوقت المناسب في تسلسل/سلاسل النص عن طريق معالجة كل كلمة واحدة تلو الأخرى بالترتيب. يحتوي RNN على بنية تشفير/وحدة فك ترميز. فكر في برنامج التشفير وفك التشفير كأشياء تتحدث لغتين، لغة فريدة وأخرى مشتركة. يقوم المشفر بإدخال النص وترجمة الملخص إلى لغته المشتركة ثم تقوم وحدة فك الترميز بترجمته مرة أخرى إلى لغته الخاصة.
المشكلة في ذلك هي أنه إذا كان «الملخص» سيئًا، فستكون الترجمة سيئة. لدى RNNs «مشكلة تبعية طويلة المدى»؛ كلما طال النص (تذكر مثال الكتاب المدرسي)، كلما كان الملخص أسوأ. نظرًا لأن RNNs تعالج كل كلمة في كل مرة، فإنها تواجه أيضًا صعوبة في تذكر المعلومات الأساسية من وقت سابق في المقطع. وهذا ما يسمى بمشكلة التدرج المتلاشي. على سبيل المثال، إذا كان المقطع يشير في البداية إلى أن الرجل من أمريكا وبعد ذلك يحتوي على الجملة: يتكلم _______. تواجه RNNs صعوبة في استدعاء تلك المعلومات السابقة لملء الفراغ لأنه لا توجد طريقة لتحديد ما هو مهم للتذكر. في حين أن البشر سيعرفون أن الإجابة ستكون على الأرجح «الإنجليزية».
كيف يحاول المتحولون حل مشكلة التبعية طويلة المدى بآليات الانتباه
إن الاختراق الذي يدفع Transformers قبل الأساليب السابقة لـ NLP هو استخدام آليات الانتباه هذه. تذكر من وقت سابق أن آليات الانتباه تركز على الكلمات الرئيسية داخل نص النص بدلاً من النظر إلى جميع الكلمات ذات الوزن المتساوي. لذلك، في حالة «كان الرجل من أمريكا؛ ما اللغة التي يتحدث بها؟» ، فإن وجود آليات الانتباه سيحيط علما بكلمة «أمريكا» ويستخدمها كسياق لمعرفة أنه يتحدث الإنجليزية. تساعد هذه الإضافة في محاربة «مشكلة التدرج المتلاشي» التي عانت منها RNNs. على الرغم من التحسن الواضح من RNNs، تشير الأبحاث إلى أن Transformers لا تزال لا تتعامل مع التبعيات طويلة المدى بشكل جيد؛ من الواضح أن هناك مجالًا أكبر للتحسين.
الحساب الموازي
هناك اختلاف آخر يجب ملاحظته في Transformers مقارنة بـ RNNs وهو الطريقة التي تعالج بها كل طريقة اللغة. في الماضي، كان الحل هو معالجة كل كلمة واحدة تلو الأخرى، على غرار الطريقة التي يقرأ بها الإنسان. ولكن تقوم Transformers بمعالجة جميع الكلمات في نفس الوقت بالضبط، أي بالتوازي؛ وهذا ما يسمى الحساب المتوازي. يؤدي هذا إلى تسريع وقت المعالجة بشكل كبير ويسهل تدريب النماذج الكبيرة بجنون على كميات كبيرة جدًا من البيانات.
السياق
أثبتت حلول معالجة اللغة السابقة أنها غير فعالة ولم تأخذ في الاعتبار التبعيات في الوقت المناسب (أي عندما تحدث كلمة في جملة تؤثر على المعنى) الموجودة في اللغة. بعبارة أخرى، لفهم الجملة، لا يمكنك ببساطة حساب عدد المرات التي تظهر فيها الكلمة في تسلسل. يُطلق على هذا أسلوب «Bag of Words» الذي كان في السابق طريقة محاولة لمعالجة اللغة.
بالنسبة للبشر، فإن الجملتين في الشكل أعلاه لهما معان مختلفة تمامًا. ولكن في طريقة Bag of Words، يبدو أنها متطابقة. كانت الخطوة التالية الواضحة هي إيجاد حل يراعي ترتيب الكلمات بالإضافة إلى تكرار الكلمات.
تم تمرير النماذج السابقة في كل كلمة واحدة تلو الأخرى، لذلك لم تكن هناك مشكلة في معرفة مكان الكلمة في الجملة. ومع ذلك، نظرًا لأن Transformers تمرر الكلمات بالتوازي، يجب أن يكون هناك حل جديد لتوفير سياق للكلمات. عند معالجة كل كلمة، يقوم المحول بترجمة الكلمة إلى شيء يمكن للكمبيوتر فهمه، ثم يضيف أيضًا مرجع الموضع إلى الكلمة. لذلك، إذا كانت هناك مثيلات متعددة لكلمة «Omneky»، فإن مرجع الموضع سيتيح للكمبيوتر معرفة مكان كل من هذه المثيلات داخل النص. تقوم معادلة موضع الكلمة + هذه بإنشاء سياق للكمبيوتر.
نماذج اللغة الحالية التي تم تدريبها مسبقًا
تم بناء العديد من النماذج على المحول الأولي المنصوص عليه في «الانتباه هو كل ما تحتاجه» من Google. تقوم كل شركة كبرى بتدريب نموذج اللغة الكبير الخاص بها. لدى OpenAI GPT/GPT-2/GPT-3، وجوجل لديها بيرت/ألبرت/XLNET/T5، وفيسبوك لديها روبرت/XLM/بارت، ومايكروسوفت لديها تورينغ-NLG، وما إلى ذلك، ومع مرور الوقت، تواصل الشركات تطوير نماذج أكبر. ولكن هناك أيضًا تركيز على محاولة إنشاء نماذج يمكن تشغيلها بكفاءة على الأجهزة السلعية ويمكن الوصول إليها من قبل المجتمع الأوسع.
يمكنك اللعب مع نماذج مفتوحة المصدر ومدربة مسبقًا مع Huggingface هنا:
https://transformer.huggingface.co/
مستقبل المتحولون
هناك الكثير من الضجيج المحيط بواجهة برمجة تطبيقات GPT-3 الخاصة بـ OpenAI. جعلت واجهة برمجة تطبيقات GPT-3 من OpenAI نموذج OpenAI/Microsoft العملاق Transformer الذي تم تدريبه على الويب بالكامل في متناول المطورين العاديين. توافد المستخدمون على Twitter لعرض التطبيقات الإبداعية للنموذج الجديد. على سبيل المثال، قام مطور الويب شريف شميم (@sharifshameem) بتعديل GPT-3 حتى أنتج كود HTML، ونشر نتائجه على تويتر. باستخدام المطالبات فقط، تعلم GPT-3 إنتاج تخطيطات صفحات الويب. تطبيقات الإبداع لا حصر لها.

محولات اللغة وأونيكي
هدف Omneky هو الاستفادة من التعلم العميق لتسوية «مجال التسويق الرقمي» بين الشركات الكبيرة والصغيرة. يقول ريتشارد سوشر، كبير العلماء في Salesforce، «تعمل Omneky على جعل المحولات مفيدة لجميع الشركات التي تريد أن يساعدها الذكاء الاصطناعي في التسويق». باستخدام البرمجة اللغوية العصبية ومحولات اللغة، يقوم Omneky بصياغة نسخ إعلانية مخصصة مضمونة لدفع المحادثات. من خلال دمج التحليلات التنبؤية وأدوات إنشاء النصوص، يمكن لبرنامج Omneky المساعدة في إنشاء تصميمات إعلانية مخصصة على Facebook بنقرة زر واحدة. يتيح ذلك لـ Omneky إنشاء وإدارة الحملات الإعلانية بنصف تكلفة شركات التسويق التقليدية. نقدم حاليًا نسخة تجريبية مجانية لمدة أسبوعين لتجربة خدمتنا مجانًا - ما عليك سوى تحديد موعد تجريبي هنا!