قابل اطمینان بودن سیستم یا Reliability چیه؟

itpourya

اولین پست این وبلاگ بالاخره در حال نوشته‌شدن است. در ابتدا می‌خواستم از مباحثی شروع کنم که بیشتر جنبه‌ی تئوری دارند. این موضوعات همچنین برای زمانی که با یک برنامه‌نویس دیگر ملاقات می‌کنید و می‌خواهید گفت‌وگویی کوتاه اما مفید داشته باشید، گزینه‌های خوبی هستند. می‌توانید از این پرسش‌ها استفاده کنید و یکدیگر را به چالش بکشید.

وقتی می‌گوییم یک سیستم قابل‌اطمینان است (Reliability)، منظور چیست؟ 🤔

قابل‌اطمینان بودن یعنی سیستم بتواند در هر شرایطی، از جمله شرایط سخت، به کارایی خود ادامه دهد. اما این به چه معناست؟ یعنی اگر سیستم ما در محیط پروداکشن دچار خطا (error) شود، نباید از کار بیفتد. بلکه باید همچنان به فعالیت خود ادامه دهد و زیرسیستم‌های آن به اجرای وظایف خود پایبند بمانند.

برای مثال، اگر بخش جست‌وجوی محصول با مشکلی مواجه شود، نباید بخش‌های دیگر، مانند تسویه‌حساب یا انتخاب محصول، تحت تأثیر قرار بگیرند. این بخش‌ها باید بدون اختلال به کار خود ادامه دهند.

یکی دیگر از نکاتی که باید به آن توجه کنیم، امنیت سیستم در برابر این خطاها است. نباید اجازه دهیم که این خطاها منجر به افشای اطلاعات حساس شوند یا امکان دسترسی غیرمجاز را فراهم کنند. برای مثال، اگر هنگام اجرای یک کوئری خطایی رخ دهد، نباید اجازه دهیم که کاربر یا مهاجمی که ممکن است در قالب یک کاربر عادی باشد، جزئیات این خطا را مشاهده کند یا به اطلاعاتی درباره‌ی ساختار داخلی سیستم دست یابد.

به همین دلیل، همواره باید تلاش کنیم که سیستم‌هایی مقاوم در برابر خطا (Fault-Tolerant) بسازیم تا در مواجهه با مشکلات، همچنان پایدار و ایمن باقی بمانند.

قبل از هر چیز، باید بدانیم که خطا (Fault) و شکست (Failure) چه معنایی دارند و تفاوت آن‌ها در چیست.

خطا به معنای انحراف از رفتار مورد انتظار و اصلی سیستم است. یعنی اگر انتظار داریم یک سیستم فرایند A را انجام دهد، اما در حین انجام این فرایند دچار مشکل شود و از مسیر اصلی منحرف گردد، یک خطا رخ داده است.

در مقابل، شکست زمانی اتفاق می‌افتد که سیستم نتواند سرویس اصلی مورد انتظار را به کاربر ارائه دهد.

هدف اصلی همیشه می‌تواند این باشد که شکست‌ها را به خطا تبدیل کنیم تا قابل‌کنترل باشند و باعث نشوند که سیستم از کار بیفتد یا به پایان عمر عملیاتی خود نزدیک شود.

در بسیاری از سرویس‌ها و سیستم‌هایی که طراحی می‌کنیم، سعی داریم فرآیندهایی را پیاده‌سازی کنیم که به‌صورت عمدی و دستی خطاهایی در سیستم ایجاد کنند. این کار به ما کمک می‌کند تا میزان تحمل سیستم در برابر خطاها را ارزیابی کنیم و نقاط ضعف آن را شناسایی کنیم.

ممکن است این سؤال در ذهنتان شکل بگیرد که چرا اصلاً اجازه دهیم خطاها رخ دهند؟ چرا از ابتدا پیشگیری نکنیم تا نیازی به این روش‌ها نداشته باشیم؟

در اینجا یاد جمله‌ی معروف «پیشگیری بهتر از درمان است» می‌افتیم. اما در دنیای طراحی و معماری سیستم‌های کامپیوتری و وب، از نظر شخصی من، بهترین راهکار ترکیبی از پیشگیری و تحمل خطا است. این رویکرد هم میزان بروز خطاها را کاهش می‌دهد و هم به سیستم اجازه می‌دهد که در برابر خطاهای غیرمنتظره و دور از دید ما مقاوم باشد.

خطاها به چند دسته تقسیم می‌شوند و بهتر است درباره‌ی هرکدام توضیح دهیم تا دقیق‌تر بفهمیم که چه چیزهایی را شامل می‌شوند.

خطاهای سخت افزاری (Hardware Fault)
خطاهای نرم افزاری (Software Fault)
خطاهای انسانی (Human Errors)

اول از همه، از خطاهای سخت‌افزاری شروع می‌کنیم.

خطای سخت‌افزاری به چه معناست؟ به مشکلات فیزیکی در اجزای سیستم، مانند هارد دیسک، حافظه (RAM)، منبع تغذیه و سایر قطعات سخت‌افزاری، خطای سخت‌افزاری گفته می‌شود.

برای مثال، هارد دیسک‌ها معمولاً بین ۱۰ تا ۴۰ سال عمر مفید دارند. حالا فرض کنید در یک سیستم تنها یک هارد دیسک داشته باشیم؛ ممکن است این دیسک تا ۴۰ سال بدون مشکل کار کند. اما اگر سیستمی با ۱۰ هزار دیسک داشته باشیم، به‌طور میانگین ممکن است هر روز یکی از آن‌ها خراب شود، که این یک خطای سخت‌افزاری محسوب می‌شود.

حالا که متوجه شدیم خطای سخت‌افزاری چیست، چه اقداماتی می‌توانیم انجام دهیم تا از این خطاها جلوگیری کنیم؟

استفاده از RAID برای هارد دیسک
استفاده از cpu های قابل تعویض
استفاده از ژنراتور یا باتری برای منبع تغذیه سیستم

حالا می‌رسیم به خطاهای نرم‌افزاری (Software Errors).

خطاهای نرم‌افزاری معمولاً به مشکلاتی در سیستم و سرویس گفته می‌شود که در نرم‌افزار رخ می‌دهند. این نوع خطاها اغلب نسبت به سایر خطاها پیش‌بینی‌ناپذیرتر هستند و به دلیل وابستگی به اجزای مختلف سیستم، می‌توانند باعث ایجاد خرابی‌های گسترده شوند.

از انواع خطاهای نرم‌افزاری می‌توان به موارد زیر اشاره کرد:

• انواع باگ‌ها: برای مثال، در سال ۲۰۱۲، ثانیه‌ی کبیسه باعث کرش بسیاری از سیستم‌ها شد.

• مصرف بیش از حد منابع: مانند نشت حافظه (Memory Leak) که باعث کندی و در نهایت از کار افتادن سیستم می‌شود.

• مشکلات در سیستم‌های وابسته: وقتی یک سرویس به درستی پاسخ نمی‌دهد و باعث اختلال در سرویس‌های دیگر می‌شود.

این‌ها تنها بخشی از خطاهای نرم‌افزاری هستند که می‌توانند بر پایداری سیستم تأثیر بگذارند.

برای مقابله با خطاهای نرم افزاری چه راهکار هایی سراغ داریم؟🤔

تست نویسی
ایزوله کردن فراینپ های مختلف سیستم
مانیتورینگ و تحلیل رفتار سیستم
اجازه دادن برای کرش سیستم و راه اندازی مجدد
چک و بررسی داخلی

توضیح هر یک از این موارد به‌تنهایی بحث مفصلی است و می‌توان برای هرکدام یک پست جداگانه نوشت.

برای اینکه این مطلب بیش از حد طولانی نشود و بتوانید آن را راحت‌تر بخوانید و از آن لذت ببرید (امیدوارم!)، بهتر است ادامه‌ی این بحث را به پست‌های آینده موکول کنم. 🙂

قابل اطمینان بودن سیستم یا Reliability چیه؟

دیدگاهتان را بنویسید لغو پاسخ