Failover Cluster در Windows Server چیست و چه تفاوتی با Load Balancing دارد؟

در زیرساخت‌های سازمانی قطعی سرویس‌ها می‌تواند خسارت‌های جدی مالی و عملیاتی ایجاد کند. Failover Cluster یکی از مهم‌ترین راهکارهای مایکروسافت برای دستیابی به High Availability در Windows Server است که با توزیع سرویس‌ها بین چند سرور، از توقف خدمات در زمان بروز خطا جلوگیری می‌کند و پایداری سیستم را به‌طور چشمگیری افزایش می‌دهد.

Failover Cluster چیست؟

Failover Cluster مجموعه‌ای از چند سرور مستقل (Node) است که به‌صورت یک سیستم واحد عمل می‌کنند تا در صورت بروز مشکل در یکی از سرورها، سرویس‌ها به‌طور خودکار به سرور دیگر منتقل شوند. هدف اصلی این فناوری، حفظ دسترس‌پذیری سرویس‌ها بدون نیاز به دخالت دستی مدیر سیستم است.

در محیط‌های مبتنی بر Windows Server، Failover Clustering معمولاً برای سرویس‌های حیاتی مانند SQL Server، Hyper‑V، File Server و Application Server استفاده می‌شود و نقش کلیدی در افزایش پایداری، کاهش Downtime و تضمین تداوم کسب‌وکار ایفا می‌کند.

Failover Clustering چگونه کار می‌کند؟

Nodeها در کلاستر

هر Failover Cluster از چند سرور فیزیکی یا مجازی به نام Node تشکیل شده است که به‌صورت هم‌زمان فعال هستند و آماده می‌باشند تا در صورت از کار افتادن یکی از Nodeها، مسئولیت اجرای سرویس‌ها را بر عهده بگیرند.

مانیتورینگ سلامت (Health Monitoring)

Nodeهای کلاستر به‌صورت مداوم وضعیت یکدیگر و سرویس‌های در حال اجرا را بررسی می‌کنند تا هرگونه اختلال، قطع سرویس یا خرابی سخت‌افزاری در کوتاه‌ترین زمان شناسایی شود.

Heartbeat بین Nodeها

ارتباطی دائمی به نام Heartbeat بین Nodeها برقرار است که از طریق شبکه انجام می‌شود و نشان‌دهنده فعال بودن هر Node است؛ قطع Heartbeat معمولاً به‌عنوان نشانه‌ای از خرابی Node در نظر گرفته می‌شود.

مکانیزم Failover

در صورت شناسایی خرابی، کلاستر به‌صورت خودکار فرآیند Failover را اجرا می‌کند و منابع و سرویس‌ها را از Node مشکل‌دار به Node سالم منتقل می‌نماید، بدون اینکه کاربران نهایی اختلال جدی احساس کنند.

استفاده از Storage مشترک

اطلاعات و داده‌ها معمولاً روی Storage مشترک ذخیره می‌شوند تا پس از Failover، Node جدید بتواند بدون از دست رفتن داده‌ها، سرویس را ادامه دهد.

نقش Quorum در تصمیم‌گیری

Quorum مکانیزمی برای تصمیم‌گیری در کلاستر است که مشخص می‌کند کدام Nodeها مجاز به ادامه فعالیت هستند و از بروز مشکلاتی مانند Split‑Brain جلوگیری می‌کند.

انواع Failover Cluster

Failover Cluster On‑Premises

در این نوع تمام Nodeها در یک دیتاسنتر یا شبکه محلی قرار دارند و از Storage مشترک مانند SAN استفاده می‌کنند. این مدل بیشترین کاربرد را در سازمان‌ها دارد و برای سرویس‌هایی مانند File Server و SQL Server بسیار مناسب است، اما وابستگی بالایی به زیرساخت فیزیکی دارد.

Hyper‑V Failover Cluster

این نوع کلاستر برای افزایش دسترس‌پذیری ماشین‌های مجازی Hyper‑V استفاده می‌شود و در صورت خرابی یک Host، ماشین‌های مجازی به‌طور خودکار روی Host دیگر اجرا می‌شوند. Hyper‑V Failover Cluster یکی از رایج‌ترین روش‌های پیاده‌سازی High Availability در مجازی‌سازی ویندوزی است.

مقایسه کامل Hyper-V و VMware: کدام گزینه برای شما بهتر است؟

SQL Server Failover Cluster

در این مدل Failover Cluster برای افزایش پایداری سرویس SQL Server به کار می‌رود و تضمین می‌کند که در صورت از کار افتادن Node اصلی، دیتابیس بدون از دست رفتن داده‌ها روی Node دیگر در دسترس باقی بماند. این روش بیشتر بر تداوم سرویس تمرکز دارد تا مقیاس‌پذیری.

Stretch Cluster

Stretch Cluster برای سناریوهای چند دیتاسنتری طراحی شده است که Nodeها در دو یا چند موقعیت جغرافیایی مختلف قرار دارند. این نوع کلاستر امکان تحمل خرابی در سطح دیتاسنتر را فراهم می‌کند و بیشتر در سناریوهای Disaster Recovery مورد استفاده قرار می‌گیرد.

Quorum در Failover Cluster چیست؟

Quorum مکانیزمی حیاتی در Failover Cluster است که مشخص می‌کند کدام Nodeها مجاز به ادامه فعالیت هستند و از بروز شرایط خطرناکی مانند Split‑Brain جلوگیری می‌کند. Quorum با استفاده از رأی Nodeها و در برخی موارد Witness، تضمین می‌کند که فقط بخشی از کلاستر که اکثریت را دارد فعال بماند و تصمیم‌گیری‌ها به‌صورت پایدار و ایمن انجام شوند.

انواع Quorum

Node Majority

در این نوع Quorum، هر Node یک رأی دارد و کلاستر زمانی فعال باقی می‌ماند که اکثریت Nodeها در دسترس باشند. این مدل ساده‌ترین و رایج‌ترین نوع Quorum است و معمولاً برای کلاسترهایی با تعداد فرد Node استفاده می‌شود.

Node and Disk Majority (Disk Witness)

در این حالت علاوه بر رأی Nodeها، یک Disk Witness نیز وجود دارد که نقش رأی‌دهنده اضافی را ایفا می‌کند. این نوع Quorum بیشتر در کلاسترهای با تعداد زوج Node به کار می‌رود و به افزایش پایداری تصمیم‌گیری کمک می‌کند.

Node and File Share Majority

در این مدل یک File Share Witness به‌عنوان رأی کمکی استفاده می‌شود که معمولاً روی یک سرور جداگانه یا Domain Controller قرار دارد. این روش برای محیط‌هایی مناسب است که امکان استفاده از Disk مشترک وجود ندارد.

Cloud Witness

Cloud Witness از Azure Blob Storage به‌عنوان Witness استفاده می‌کند و گزینه‌ای ایده‌آل برای محیط‌های Hybrid و Stretch Cluster محسوب می‌شود. این نوع Quorum هزینه کم، پایداری بالا و پیاده‌سازی ساده‌تری نسبت به Witnessهای سنتی دارد.

پیش‌نیازهای راه‌اندازی Failover Cluster

Windows Server سازگار
Active Directory
شبکه پایدار و قابل اطمینان
Storage مناسب
DNS و تنظیمات نام‌گذاری صحیح
دسترسی‌های مدیریتی لازم

تفاوت Failover Cluster با Load Balancing

Failover Cluster و Load Balancing هر دو در دستیابی به High Availability نقش دارند، اما رویکرد متفاوتی را دنبال می‌کنند؛ Failover Cluster بر تداوم سرویس (Continuity) تمرکز دارد، به این معنی که هدف اصلی آن جابه‌جایی سرویس‌ها در صورت خرابی یک مؤلفه (Failover) است و معمولاً یک سرویس در لحظه تنها روی یک Node فعال است (Active/Passive).

لود بالانسر یا Load Balancer چیست و چرا به آن نیاز داریم؟ تفاوت Load Balancer با Reverse Proxy

در مقابل Load Balancing (مانند Network Load Balancing یا NLB) بر توزیع ترافیک ورودی در بین چندین Node فعال (Active/Active) تمرکز دارد تا ظرفیت پردازشی را افزایش داده و بار را به‌طور مساوی تقسیم کند؛ در این حالت، اگر یکی از Nodeها از کار بیفتد، ترافیک فقط به Nodeهای سالم هدایت می‌شود اما سرویس اصلی تغییر مکان نمی‌دهد، بلکه توزیع بار می‌شود.

	Failover Cluster	Load Balancer
هدف اصلی	High Availability (HA) و تداوم سرویس	افزایش توان عملیاتی (Throughput) و مقیاس‌پذیری
وضعیت Nodeها	عمدتاً Active/Passive (یک سرویس در یک زمان)	Active/Active (همه Nodeها فعال هستند)
واکنش به خرابی	جابه‌جایی کامل سرویس به Node سالم (Failover)	هدایت ترافیک به Nodeهای باقی‌مانده
وابستگی به Storage	نیاز به Storage مشترک (مانند SAN/iSCSI)	معمولاً نیازی به Storage مشترک ندارد
سطح ترافیک	کنترل جریان (Flow Control) در سطح Resource	توزیع ترافیک در سطح شبکه/پورت

جمع‌بندی…

Failover Cluster یک ستون فقرات حیاتی برای هر زیرساخت ویندوزی است که به دنبال دستیابی به بالاترین سطح تداوم کسب‌وکار (BC/DR) است؛ این فناوری با مدیریت هوشمند Nodeها، Quorum و Storage مشترک، تضمین می‌کند که سرویس‌های حیاتی مانند Hyper‑V و SQL Server حتی در صورت خرابی سخت‌افزاری، بدون قطعی محسوس برای کاربران نهایی در دسترس باقی بمانند.

سوالات متداول

1. آیا برای استفاده از Failover Cluster حتماً باید از SAN استفاده کرد؟

خیر اگرچه SAN رایج است، اما امروزه می‌توان از راهکارهایی مانند Storage Spaces Direct (S2D) برای کلاسترهای نرم‌افزاری تعریف‌شده (S2D) یا از File Share Witness برای Quorum استفاده کرد.

2. اصطلاح Split-Brain در Failover Cluster به چه معناست؟

Split-Brain زمانی رخ می‌دهد که ارتباط بین Nodeها قطع شده اما هر دو Node همچنان فعال باقی بمانند و هر دو سعی کنند کنترل منابع مشترک (مانند Storage) را به‌دست بگیرند، که این امر منجر به فساد داده‌ها می‌شود؛ Quorum برای جلوگیری از این وضعیت طراحی شده است.

3. طول زمان Failover چقدر است؟

بسته به سرویس، نوع Storage و پیکربندی شبکه، زمان Failover معمولاً بین چند ثانیه تا حدود یک دقیقه متغیر است.

4. آیا کلاستر کردن هزینه بیشتری دارد؟

بله، راه‌اندازی Failover Cluster نیازمند حداقل دو Node، Storage مشترک و پیکربندی پیچیده‌تر است که هزینه‌های اولیه و مدیریتی را نسبت به یک سرور مستقل افزایش می‌دهد.

5. بهترین گزینه برای Witness در کلاسترهای دو Node چیست؟

در کلاسترهای دو Node، استفاده از Disk Witness یا Cloud Witness (Azure) بهترین گزینه است تا از ایجاد تساوی در رأی‌گیری جلوگیری شده و Quorum به درستی حفظ شود.

6. آیا می‌توانیم در یک کلاستر هم Hyper-V و هم SQL Server را اجرا کنیم؟

بله، اما برای مدیریت بهتر، توصیه می‌شود از Cluster Roles مجزا برای هر سرویس استفاده کنید و برای سرویس‌های نیازمند دیسک مشترک اختصاصی (مانند SQL) به‌درستی تنظیمات Storage را انجام دهید.

7. آیا Failover Cluster به Active Directory نیاز دارد؟

بله، Failover Cluster برای ایجاد و مدیریت منابع کلاستر و اعتبارسنجی Nodeها به Active Directory وابسته است.