0555333017

اهلا بكم فى الموقع الرسمى للمهندس خالد ابو ابراهيم

 المدير التنفيذي للمضيف الاول للاتصالات وتقنية المعلومات (ون هوست) والخبير في مواقع التواصل الاجتماعي 

البيانات الضخمة (big data ) و مجالات جديدة

 

 

البيانات الضخمة (big data ) و مجالات جديدة

 

البيانات الضخمة او كما هي معروفة بمصطلح (Big Data) هي مصطلح يشير إلى مجموعة بيانات تستعصي لضخامتها أو تعقيدها على التخزين أو المعالجة بإحدى الأدوات أو التطبيقات المعتادة لإدارة البيانات، أو ببساطة لتقريب الصورة، لا يُمكن التعامل معها على حاسوب عادي بمفرده من خلال قاعدة بيانات بسيطة. ومن سمات مجال ( البيانات الضخمة ) استعمال حواسيب عديدة لتقاسم الأعمال المطلوبة، ليس هذا وحسب بل أن هذا الحجم الضخم يتخطى قدرة البرامج التي يشيع استخدامها لالتقاط وإدارة ومعالجة البيانات في غضون فترة زمنية مقبولة، وبالنسبة لأحجام البيانات الضخمة فهي هدف متحرك باستمرار، فاعتباراً من عام 2012م، يتراوح حجمها بين بضع عشرات من تيرابايت إلي العديد من بيتابايت – البيتابايت تساوي 1000 تيرابايت - من البيانات في مجموعة واحدة فقط، ومع هذه الصعوبة، يتم تطوير منصات جديد من أدوات "البيانات الضخمة" للتعامل مع مختلف الجوانب الخاصة بالكميات الكبيرة من البيانات.

البيانات الضخمة ايضا مصطلح ينطبق علي الأجسام الضخمة للبيانات التي تتنوع في طبيعتها سواء أكانت منظمة، غير منظمة أو شبه منظمة، بما في ذلك المصادر الداخلية أو الخارجية للمنظمة، ويتم توليدها بدرجة عالية من السرعة مع نموذج مضطرب، والتي لا تتفق تماماً مع مخازن البيانات التقليدية والمنظمة وتتطلب نظام إيكولوجي قوي ومعقد مع منصة حوسبة عالية الأداء وقدرات تحليلية للالتقاط ومعالجة وتحويل وكشف واستخلاص القيمة والرؤى العميقة في غضون وقت زمني مقبول.

 

تُمثل تجارب مصادم الهدرونات الكبير : (Large Hadron Collider) حوالي 150 مليون جهاز استشعار تقدم بيانات 40 مليون مرة في الثانية الواحدة. وهناك ما يقرب من 600 مليون تصادم في الثانية الواحدة. وبعد تصفية وتنقيح تسجيلات أكثر من 99.999% من هذه التدفقات، نجد أن هناك 100 تعارض للفائدة في الثانية الواحدة.

ونتيجة لذلك، بالعمل مع أقل من 0.001% فقط من بيانات تيار الاستشعار، فإن تدفق البيانات من جميع تجارب LHC الأربعة يمثل 25 بيتابايت المعدل السنوي قبل النسخ المتماثل (اعتباراً من 2012). وهذا يصبح تقريباً 200 بيتابايت بعد النسخ المتماثل.

وإذا تصورنا أن جميع بيانات الاستشعار كان سيتم تسجيلها في LHC، فإن تدفق البيانات كان سيصعب العمل معه للغاية. حيث سيتجاوز تدفق البيانات 150 مليون بيتابايت المعدل السنوي، أو ما يقرب من 500 إكسابايت في اليوم الواحد، قبل النسخ المتماثل. وبالنظر للرقم بشكل نظري، فإنه يصبح مُعادل لـ 500 كوينتيليون بايت (5 x 1020) في اليوم، وهو رقم أعلي 200 مرة تقريباً من جميع المصادر الأخرى المجتمعة في العالم.

أما الفيسبوك فيعالج 50 مليار صورة من قاعدة مستخدميه. ويقوم نظام حماية بطاقات الائتمان من الاحتيال " FICO Falcon Credit Card Fraud Detection System"  بحماية 2.1 مليار حساب نشط في جميع أنحاء العالم.

لقد أثار هذا الأمر عدة مخاوف حول استخدام البيانات الضخمة في العلم، ولكنه أغفل عدة مبادئ مثل اختياره لعينة متمثلة في عدد من الأشخاص القلقين جداً من التعامل في الواقع مع كميات ضخمة من البيانات.

 وقد يؤدي هذا النهج الي تحيز في النتائج بطريقة أو بأخرى. فالتكامل بين موارد البيانات غير المتجانسة – يمكن أن يعتبره البعض "بيانات ضخمة" وقد لا يعتبره البعض كذلك – وهو ما يمثل تحديات هائلة، ولكن العديد من الباحثين يرون أن مثل هذه التكاملات من المحتمل أن تمثل الحدود الجديدة الواعدة في مجال العلوم.

وقد كانت مشكلة البيانات الضخمة ومعالجتها هي النواة التي أسس عليها فكرة العملات الإلكترونية في البداية وبالتحديد فكرة "التعدين" فالبيت كوين" مثلاً تعتمد على فكرة استخدام آلاف الحواسيب حول العالم للقيام بعملية معينة.

كمثال شركة ديزني لإنتاج الرسوم المتحركة عند بناء شخصيات وتحريكها في الأفلام ثلاثية الأبعاد تحتاج إلى ملايين العمليات لعمل "ريندر" للفيلم وهذه العملية تحتاج مئات الحواسيب وتستمر لشهور طويلة، أما بعد "البيت كوين" اصبحت العملية تحتاج لأيام فقط وذلك لاستخدام الشركة لملايين الحواسيب حول العالم للقيام بعملياتها وذلك بمقابل عملات إلكترونية تدفعها وهو ما يوفر الوقت والمجهود للشركة، ويوفر للعملاء الذي يسمحون للشركة باستخدام حواسيبهم العملات فيما يسمى بعملية التعدين.