# الحل المتوازي المتكرر لأنظمة المعادلات الخطية المتناثرة الموسعة وتنفيذها على معالجات إنتل زيون فاي ## سامية جمعان سعيد الزهراني ## بإشراف د. ایاد عدنان محمد امین کاتب د. راشد إبراهیم سلیمان محمود ### المستخلص إن عملية إيجاد حل لنظم المعادلات الخطية هي واحدة من أهم التحديات المشتركة والملحة التي تظهر بشكل أساسي في العديد من المشاكل العلمية والهندسية، والحياتية بشكل عام في مختلف المجالات. ومن أمثلة هذه المشاكل التنبؤ بالطقس وتوقعات سوق الأسهم ومحركات البحث على الإنترنت والرسم البياني الغير موجه وديناميكيات السوائل الحسابية والمشاكل المتعلقة بعمليات الرسومات والرؤية الحاسوبية. وكما نعلم فإن اللبنة الأساسية لحل مجموعة متنوعة من المشاكل العلمية والهندسية أو عمل نظام محاكاة لها متاح في علم الجبر الخطي. الجبر الخطي يوفر حلاً للأنظمة الخطية الكثيفة أو المتناثرة (الصفرية). وبالتالي فإيجاد حل للنظام الخطي المتفرق من شأنه أن يهيمن على معظم زمن التنفيذ مما دفع بعجلة التطوير المستمر لخوارزميات تكرارية من شانها أن تحسن الأداء. وعلى الرغم من أن القدرة الحاسوبية لمعالج واحد تستمر في النمو، إلا أن المعالجة المتسلسلة لم تحقق الأداء المقبول في حل أنظمة المعادلات الخطية المتناثرة الكبيرة. ونتيجةً لذلك فإن الجمع بين قوة المعالجة المتوازية على الأبنية متعددة النوى والخوارزميات العددية يمكن أن يُسهم في تحسين أداء حل المعادلات الخطية المتناثرة الكبيرة بشكل أفضل وتسريع الحصول على الحل الصحيح في أقل وقت ممكن. حل المعادلات الخطية المتناثرة الكبيرة يعتمد على عملية ضرب المتجهات (SpMV). وبالتالي، فإن تحسين أداء عملية ضرب المتجهات مطلوبة للحد من الوقت اللزم لحساب الحل لأنظمة المعادلات الخطية المتفرقة والكبيرة في حجمها. وقد وجدنا أن (SpMV) تقدم أداءً ضعيفاً على البنى الحديثة مثل إنتل زيون خواى، محققةً أقل من ١٠٪ من ذروة أداء وحدات المعالجة المركزية. في هذه الرسالة، قمنا باختيار طريقة جاكوبي التكرارية لحل الأنظمة المتفرقة الكبيرة من المعادلات الخطية القطرية. وقد تم تنفيذ النسخة التي تعمل على التوازي على وحدات المعالجة المركزية التقليدية؛ ثم قمنا بنقل التعليمات البرمجية إلى إنتل زيون فاي القائم على وحدة التشغيل إنتل العديد من النوى المتكاملة (MIC). وقد استخدمنا نوع خاص من صبيغ تخزين المصفوفات المتفرقة لتخزين القيم الغير صفرية أثناء الحساب وهي صبيغة تخزين الصف المتفرق المضغوط (CSR). وأخيراً، قمنا بتقديم تقييم الأداء على اثنين من المعماريات. وتمت المقارنة بين نتائج التنفيذ عليهما من حيث زمن التنفيذ. وكانت النتيجة تظهر أن هناك ضعفاً كبيراً في أداء الحل على إنتل زيون فاي القائم على وحدة التشغيل إنتل العديد من النوى المتكاملة (MIC)، وقد يعود سبب ذلك إلى أن أعباء العمل لنقل المصفوفة المتقرقة الكبيرة الى ذاكرة (MIC) يستغرق الكثير من الوقت. # Parallel Iterative Solution of Large Sparse Linear Equation Systems on Intel Xeon Phi Coprocessors ### Samiah Jamaan Saeed Alzahrani ### Supervised By Dr. Iyad Katib Prof. Rashid Mehmood #### **ABSTRACT** Solving systems of linear equations is one of the common and pressing challenges that appear fundamentally in numerous scientific, engineering, and real-world problems in various domains. Examples of these problems include weather prediction, stock market forecast, Internet search engines, undirected Graph, computational fluid dynamics problems, circuit simulation problem, and computer graphics/vision problems. The building blocks for solving a variety of the scientific and engineering problems or simulation codes is available in the linear algebra. The linear algebra offers a solution for dense or sparse linear systems. For the sparse linear system solution that dominates the time of execution; prompting the ongoing development of highly optimized iterative algorithms and high-performance parallel implementations. Even though the computing power of a single processor continues to grow, but the sequential processing did not achieve acceptable performance in solving large sparse linear equations systems. Through combining the power of the parallel processing on multicore/manycore architectures and numerical algorithms; the problem of solving large sparse linear equations systems can be reached better performance perfectly. The solution of large sparse linear equations systems relies on sparse matrixvector multiplication (SpMV). Hence, the high-performance implementations of SpMV are required to reduce the computation time for the solution of large sparse linear equations systems. The SpMV commonly performs poorly on modern architectures such as Intel Xeon Phi, attaining less than 10% of the peak performance of CPUs. In this thesis, we implemented the serial and the parallel version of the Jacobi iterative method to solve large sparse systems of diagonally dominant linear equations on conventional CPUs; then offload the code to the Intel Xeon Phi coprocessor-based Intel Many Integrated Core (MIC). We have implemented Compressed Sparse Row (CSR) storage format for storing values of the matrix during computation, to gain efficiency both regarding arithmetic operations and memory usage. Finally, the performance evaluation of the code on two architectures; Intel Xeon Phi coprocessor-based Intel MIC and traditional Intel Xeon CPUs are reported with a comparison regarding the execution time, the number of threads impact, the memory transfer time (offload time), and the matrix density. Our experiments results showed that by using the Intel Xeon Phi Coprocessor based Intel MIC for solving the diagonally dominant large sparse linear equations systems under the same suggested circumstances in this thesis; gave us that around 70% of the execution time on Intel MIC spent in the offloading and data transfer from the host memory (CPU) to the device memory (MIC). So, there was substantial degradation in the performance once it came to sparse matrix workloads, to a degree where the traditional Intel Xeon CPUs based execution was an order of magnitude faster.