الحقيقة التي لم يتحدث عنها أحد هي تلوث البيانات، وأصبح الأمر يؤرق شركات الذكاء الاصطناعي الكبرى مثل أنثروبيك وغيرها، حيث أصدرت شركة أنثروبيك تحذير قوي يتعلق بالخطر الذي يحدث وراء الكواليس في مختبرات الذكاء الاصطناعي.
ما المقصود بـ تلوث البيانات؟
الموضوع سهل لكنه خطير، حيث تتعلم نماذج الذكاء الاصطناعي الحديثة من ملايين الملايين من النصوص والمعلومات من الانترنت، والمشكلة إن الكثير من المعلومات يوجد بها أخطاء أو معلومات مضللة أو حتى معلومات ملغمة عن قصد بقصد، وأن تلوث البيانات في النموذج الذي يبدأ بتعلم المعلومات الخاطئة، ثم إصدار نتائج خاطئة.
تلوث البيانات والتأثير على النماذج
الخطورة ما تقف هنا، حذرت أنثروبيك من إن تلوث البيانات ليس مجرد موضوع أكاديمي نظري، وهو موضوع عملي يؤثر بشكل مباشر على كفاءة النماذج والقرارات التي تتخذ بناء عليها، تخيل لو نموذج ذكاء اصطناعي يتخذ قرارات طبية أو قانونية معتمد على تلوث البيانات، الكارثة هنا واضحة.
لماذا تلوث البيانات أصبح مشكلة الآن؟
الأول ما كان في قدر كبير من البيانات، لكن الآن مع انتشار الإنترنت والوسائط الاجتماعية، كمية البيانات التي تقوم الشركات بتجميعها ضخمة جدًا، ومع كثافة البيانات، كانت هناك فرصة دخول معلومات خاطئة أو مقصودة مثل الدعاية المضللة أعلى بكثير.
التداعيات العملية لتلوث البيانات
- النموذج يستخرج معلومات خاطئة بكل ثقة وكأنها صحيحة.
- المستخدمين يتخذون قرارات على أساس معلومات ليست دقيقة.
- الثقة في تلوث البيانات يقلل من موثوقية الذكاء الاصطناعي.
الشركات لديها خسائر اقتصادية كبيرة
لم تصدر أنثروبيك تحذير بذلك، لكنهم بدأوا يعملوا على آليات جديدة لفلترة البيانات قبل أن تدخل النموذج، بالإضافة إلى محاولتهم التطوير بمعايير أفضل لاكتشاف متى النموذج يتعامل مع تلوث البيانات بشكل مباشر؟
ختامًا، نحن نتوقع في المستقبل إن كل الشركات الكبرى في المجال تتجه في الاتجاه هذا، لأن المسؤولية لم تقع عليهم فقط، وليس من الناحية القانونية فقط، إنما من الناحية الأخلاقية

