Posts filed under ‘שרידות’
פסי צבירה (Bus bar or Bus way) לחדרי מחשב
בעת יישום שינויים ותוספות ( MAC -Modifications, Additions, Changes ) בחדרי מחשב, המכשלה העיקרית היא תשתית החשמל. בישראל, בה מרבית חדרי המחשב נבנו טלאי על טלאי, זו מכשלה רצינית שמונעת ממנהל חדר המחשב את האפשרות להגיב במהירות לצרכי הארגון.
בביקורי האחרון בארה"ב אהבתי לראות את הסדר והגמישות התפעולית שמקנים להם פסי צבירה מודולאריים. כל כך אהבתי שיצרתי קשר מיידי עם החברה ( Starline ) ואנו מייצגים אותה בארץ בתחום חדרי המחשב.
זו מערכת המאפשרת חלוקת חשמל באופן מודולארי, בטיחותי וגמיש מאוד לכל ארונות השרתים. זו מערכת שניתנת להרכבה קלה מלמעלה או מתחת לרצפה הצפה. מאפשרת יתירות בצורה קלה מאוד ושינויים ניתנים לביצוע במהירות ובקלות גם על ידי עובדים שאינם חשמלאים.
בניגוד לחיבורי חשמל point to point, במערכת זו ניתן בעת שינוי או מעבר חדר , לפרק ולחבר מחדש בתצורה אחרת, כך שההשקעה נשמרת לאורך שנים. כמו כן ניתן ליישם high density בקלות יחסית.
מערכות אלו מותקנות בחדרי המחשב של יבמ, סיסקו וסאן.
ראו סרט הדגמה. אשמח לקבל תגובות!
הגדרות היתירות של חדרי מחשב ( Tier System )
חברות שלהן חדרי מחשב צריכות לאזן בין שני צרכים. הצורך ברציפות עסקית לעומת הצורך בחיסכון בהשקעות ( CAPEX) ובהוצאות התפעול ( OPEX ) .
מחד גיסא, הצורך בזמינות מידע ורציפות עסקית מכתיב יתירות בתכנון תשתית חדר המחשב. מאידך גיסא, יתירות עולה כסף. יתירות מכתיבה השקעות משמעותיות בחומרה והוצאות תפעול גבוהות יותר בחשבון החשמל ובחוזי שירות. על כן, על המנמ"ר להגדיר במדויק מה רמת היתירות הנדרשת בחדר שלו ולהבין את ההשלכות העסקיות כולן.
רמת היתירות מוגדרת על פי 4 רמות ( Tiers ): מרמה 1 ( Tier I ) עד רמה 4 ( Tier IV ) . הגדרת הרמות נעשתה על יד מכון האפטיים ( www.uptimeinstitute.org ) שהוא האורים והתומים בתחום חדרי המחשב.
חדרי מחשב ברמות I ו II נועדו לתת מענה לטווח קצר ולתמוך בטכנולוגיה הנוכחית בלבד. אלו פתרונות טקטיים שבהם שיקול העלות הוא שיקול כמעט בלעדי. במקומות בהם ל IT חשיבות אסטרטגית נחוץ פתרון ברמות III ו IV שנותנים מענה לרציפות העסקית ומאפשרים קליטת טכנולוגיה חדישה בקלות יחסית.
Tier I: בחדר מחשב ברמה I ניתן ביטוי לרצון החברה להכיל את ציוד ה IT בתחום בו יש תשתית מתאימה (בניגוד, למשל, לתשתית משרדית). חדר רמה 1 טיפוסי יהיה חדר מחשב סגור, מערכת אל-פסק ( UPS ) שתייצב את המתח ותיתן מענה להפסקות חשמל קצרות, מערכת מיזוג אוויר 24/7 וגנראטור להפסקות חשמל ארוכות יותר. אין יתירות ( רמה N ). אין אפשרות לביצוע טיפולים בציוד התשתית ללא השבתה. כמו כן, במקרה של תקלה בציוד התשתית, יסבול האתר מהשבתות.
Tier II: בחדר מחשב ברמה II תהיה יתירות כלשהי למערכות קריטיות של חשמל ומיזוג אוויר. בדרך כלל היתירות ( N+1 ) תהיה במערכות כגון UPS, צ'ילרים, משאבות וגנראטור. טיפולי שירות תקופתיים יגרמו להשבתות. תקלות חומרה במרכיבי התשתית יכולים גם הם לגרום לקריסת החדר באופן זמני.
Tier III: בחדר מחשב ברמה III התכנון מאפשר טיפולי שירות לתיקון ומניעה ללא השבתה ( concurrent maintenance ). כלומר, ניתן להשבית כל רכיב תשתית כגון UPS, ארון חשמל או יחידת מיזוג ללא השבתה של ציוד IT. לכל מוליך תשתית פעיל יהיה "תאום" פסיבי שיכנס לעבודה במקרה של כשל במוליך הפעיל. גם כאן היתירות במערכות היא ברמה של ( N+1). ההבדל הגדול הוא שבאתר זה ניתן לבצע עבודות שירות תקופתיות מה שיקטין בודאי גם את מס' התקלות.
Tier IV : חדר מחשב ברמה IV הוא אל-כשל ( Fault Tolerant ) . יש בו את כל מה שנכלל ברמה III אך שום כשל בודד אינו יכול לגרום להשבתה מליאה או חלקית. כל מרכיבי התשתית פעילים בו זמנית.
ברור שאם מערכת המיזוג מתוכנת לפי רמה II אך מערכת החשמל לפי רמה I, חדר המחשב הוא ברמה I. דירוג חדר ברמה 2.5 זו המצאה ישראלית שאין לה אחיזה בתורה המקצועית.
בעת תכנון ושדרוג חדרי מחשב, חשוב שהמנמ"ר יגדיר במדויק את צרכי הארגון בכל הקשור לרציפות העסקית. שיטת הדרוג ל 4 רמות מאפשרת למנמר בחינה מסודרת של עלות מול תועלת.
טעויות נפוצות בהעברת חדרי מחשב
כל פרויקט של העברת חדר מחשב ממיקום אחד למיקום אחר הוא שונה ומיוחד. בכנס המנמרים בבולגריה ריכלנו על חברת סלקום שבצעה לא מזמן פרויקט העברה מצוין שזכה להערכה רבה. עם זאת, פרויקטים אחרים רבים נכשלים או נתקלים בבעיות שגורמות לעיכובים, הוצאות ו downtime ארוך מהמתוכנן.
לדוגמא, פרויקט אחד התעכב משום שבעת ההעברה הסתבר שפסי השקעים שהותקנו באתר החדש לא היו מתאימים. נושא זה עיכב את ההעברה שהייתה אמורה להתרחש במהלך סוף השבוע עד לאספקת והחלפת פסי השקעים. במקרה אחר, סימון לא מדויק של כבלים אופטיים גרם לחיווט לא נכון של מערכות תקשורת ולעיכובים ופגיעה ברציפות העסקית. במקרה שלישי , נהג מלגזה לא מנוסה ( וגם ללא רישיון) הפיל מתג והחל מחול מטורף להחלפת החומרה. מאחר והחברה לא חזתה סיכון זה, עברו מס' ימים עד להחלפת החומרה.
קל אם כך להבין מדוע פרויקטים של העברה נכשלים. בסופו של דבר נמצא הפתרון אך התהליך הלא מושלם יקר וגורם להפרעות ברציפות העסקית.
אנו, באלכסנדר שניידר זיהינו 5 טעויות נפוצות שיכולות לטרפד פרויקט העברה
1. חברות לא יודעות מה נקודת הפתיחה שלהן. חברות לא יודעות במדויק מה יש להן ומה הן מעבירות. אין מיפוי של התלות בין היחידות השונות.
2. לא מתוכנן המיקום המדויק של כל הציוד שעובר. ההנחה שיש מקום להכל וש"זה יסתדר" אינה עובדת בד"כ.
3. היעדר תוכנית העברה מפורטת כולל מי אחראי למה ומתי.
4. היעדר זיהוי סיכונים והיעדר תוכנית מניעה והורדת סיכונים.
5. ביצוע לקוי בשל יועצים, מובילים וקבלנים לא מנוסים ובחירת ספקים לפי קריטריון מחיר. פרויקטים של העברת חדרי מחשב נכשלים בגלל סיבות רבות אך ניתן למנוע כמעט את כולן. דבר אחד בטוח: זהו פרויקט חשוב ורגיש שיש לו השפעה רבה על הרציפות העסקית של הארגון ועל יוקרת המנמר.
אנו בחברת אלכסנדר שניידר ממליצים על המתודולוגיה הבאה:
1. דע מה נקודת המוצא. החל בסקר מפורט של חדר המחשב הישן. ערוך רשימת מצאי וקישורים. בחן מה סדרי העדיפויות של הארגון ומה האילוצים. בחן היטב את תשתית החשמל והמיזוג של האתר החדש לפני ההעברה.
2. תכנן את האסטרטגיה של ההעברה. הגע להסכמה עם הלקוחות הפנימיים מה ניתן להשבית ומתי. הבן את יכולות אתר ה DR אם הוא קיים. ערוך סקר סיכונים. הבן את הסיכונים והכן אלטרנטיבה לכל תקלה.
3. הכן תוכנית מפורטת כולל לו"ז וקבע אחריות שמית לכל משימה. תכנן ברמת תוכנית העמדה לחדר וברמת התקנות בכל ארון. בדוק מה התלות ההדדית שבין השלבים השונים. צפה סיכונים וערוך תוכנית לצמצום הסיכונים.
4. כנס את הצוות ועבור על תוכנית הסיכונים. יתכן ששיקולי עלות יגרמו לך לקחת סיכון מחושב. זה בסדר כל עוד זה נעשה במחשבה תחילה.
5. מנה מנהל מנוסה לתיאום בין הקבלנים, הספקים וצוות ה IT. בפרה-פרזה על דברי אפרים קישון, מחקר של סוציולוגים סקנדינביים מצא שעבודה רצופה במשך 36 שעות גורמת לעייפות וטעויות. הכן צוותי גיבוי רעננים והחלף עובדים כל 12 שעות לכל היותר .
פרויקט העברה של חדר מחשב חשוב מידי מכדי לסמוך על המזל. ארגונים שיקפידו על יישום חמש הנקודות הנ"ל ישפרו במידה ניכרת את סיכויי הצלחת הפרויקט.
הקמה מהירה של אתרי DR – disaster recovery
הסרט ממחיש יכולת פריסה מהירה של חדר מחשב מבוסס קונטיינר בשטח. לאחר הכנה מתאימה, ניתן לשנע לפרוס ולהעלות חדרי מחשב בגדלים שונים ( עומס כולל מ 100 קילווואט עד 350 קילו-וואט ) תוך שעות ספורות. מתאים מאוד ליישומי DR.
חדר המחשב בסרטון זה מחולק לשני קונטיינרים: אחד ל IT ובו ארונות שרתים ואחסון והקונטיינר השני מיועד למערכות תשתית כגון צ'ילר ואל-פסק ( services ) . שני הקונטיינרים מצוידים במערכות גילוי וכיבוי, מערכות בקרה והתראה, שו"ב, והתקנים שונים כמצופה מחדר מחשב שתוכנן לפי best practices.
יש אפשרות גם לגנרטור בקונטיינר ( containerized generator ) או לאחד את שני הקונטיינרים בקונטיינר ארוך יותר של 40 רגל או 53 רגל.
פתרון זה דומה מאוד ל PMDC של חברת יבמ.
FSTS /ATS / STS : מענה לצרכי היתירות של שרתים בעלי ספק כוח אחד
התקנות של שרתים בעלי ספק כוח יחיד עדיין מתבצעות בחדר המחשב של היום, בשל תאימוּת למערכות ותיקות וסוגיות עלות. יש להביא בחשבון התקנים אלה.
מתגי העברה אוטומטיים (Automatic transfer switches) (ATS) ומכשירים למיתוג מתחים
(fail-safe transfer switches) (FSTS) ניזונים משני שקעים ומפיצים חשמל לשרתים בעלי ספק כוח יחיד. אם יש הפרעה בזרם החשמל לאחד מהשקעים מכניסות המתח, מתג ההעברה האוטומטי או מכשיר למיתוג מתחים מעביר את העומס משקע לשקע.
מנהלי חדרים מנוסים רבים נרתעים ממכשירי STS בשל ניסיון עבר לא סימפטי. מכשירי FSTS המודרנים פותרים את בעיות העבר.
כשמחפשים מתג ההעברה האוטומטי או מכשיר למיתוג מתחים, יש להביא בחשבון שני מאפיינים עיקריים.
• יכולתו של מתג ההעברה האוטומטי או מכשיר למיתוג מתחים להעביר עומסים משני ספקי כוח בעלי פאזות לא מסונכרנות. מתגי העברה שאינם ניחנים במאפיין זה יקרסו כשהעומס יועבר. זו הסיבה שרבים בתעשייה נרתעו בעבר משימוש ב STS . ישוב לבחור במכשירים מסוג FSTS עם יכולות הזנה מפאזות לא מסונכרנות
• יכולתו של המוצר להפיץ חשמל משני המקורות בו זמנית (ידוע כהתחלקות במקור מתח -infeed sharing). הדבר מפחית את העומס שיש להעביר במקרה של הפסקת חשמל או נפילת מתח (brownout). מאפיין תכנון זה מאפשר להאריך את חיי המוצרים מפני שרק מחצית מהעומס הכולל מועבר והתוצאה היא פחות בלאי על רכיבי המיתוג.
10 דרכים לשיפור היעילות בחדר המחשב בזמן המיתון ב-2009
המיתון הקרב (הוא כבר כאן?), הפאניקה בשווקים הפיננסיים, מחנק האשראי , כל אלו ישפיעו בוודאי על ההתנהלות העסקית ותקציבי ה IT. עם זאת, המצב בשוק חדרי המחשב שונה לחלוטין מהמיתון הקודם בתחילת העשור.
בשנת 2001, בעת מפולת הבורסות, היה עודף גדול של קיבולת בחדרי המחשב. בעת ימי הבועה נבנו חדרי מחשב רבים ורובם עמדו ריקים. שטח רצפה, מערכות מיזוג אוויר, מערכות הספק, כל אלו עמדו לרשותנו בשפע.
המצב היום הוא שרוב חדרי המחשב נמצאים במצוקה. ריבוי השרתים, צריכת האנרגיה הגוברת , צפיפות השרתים, כל אלו גורמים למצוקה של חום, שטח רצפה וחוסר הספק, כמו גם לצמיחה מהירה בהוצאות התפעול , בעיקר בסעיף האנרגיה.
כיצד אם כן, להתמודד עם מצוקות אלו בזמן שתקציבי ה IT מתהדקים? להלן 10 הצעות:
1. בחירה במערכות בצפיפות גבוהה כגון שרתי להב מאפשרת תשתית יעילה יותר בצריכת החשמל ואת הצורך בהשקעות בחדר מחשב חדש. גם אם יש צורך בשדרוג כלשהו של החדר, מדובר בהוצאה שהיא זניחה כמעט יחסית להשקעה בחדר מחשב חדש.
2. ערוך סקר מוקדם לקביעת סדרי עדיפויות – ההשקעה נמוכה מאוד ודרכה ניתן ללמוד מה חולשות התשתית ברמת יתירות, זמינות ויעילות אנרגטית. ניתן באמצעות הסקר להסביר גם להנהלה לא טכנית את המצב לאשורו וחלופות פעולה.
3. בעקבות הסקר, ערוך תוכנית מסודרת שתאפשר הכפלת העומס במינימום השקעה התחלתית ובאופן מודולארי. האויב הגדול של חדרי המחשב היא גישת אד-הוק הנפוצה. ולראייה, שלל האלתורים ו"פתרונות" זמניים שהביאו את חדר המחשב להיראות כפי שהוא נראה.
4. בדוק את היעילות האנרגטית של חדר המחשב. מדוד את ה PUE (ראו מאמר קודם) . יתכן שתגלה שעל כל שקל שאתה משקיע בחשמל ל IT, אתה משקיע עוד 2 שקלים בתפעול התשתית. פרויקט של SVLG ( Silicon Valley Leadership group ) , ארגון המונה 300 חברות מעמק הסיליקון מצא שניתן להגיע לאותן תוצאות ברמת צריכת האנרגיה ותפעול מקצועי בחדרים ישנים ששודרגו כמו בחדרי מחשב חדשים. גם אם חשבון החשמל אינו משולם מתקציב הIT , התייעלות תאפשר לך להפיק הרבה יותר מן התשתית הקיימת.
5. סגור את המעבר הקר (ראו תמונה) . הפרדת אוויר חם מהאוויר הקר היא היסוד של קירור אפקטיבי ויעיל באנרגיה. אם החדר אינו מאורגן לפי מעברים קרים וחמים, בצע זאת ללא דיחוי. לאחר מכן, סגור את המעבר הקר. צריכת האנרגיה תרד, מערכות הקירור יעבדו בניצולת גבוהה. זוהי דרך מעולה להפיק את המקסימום מהשקעות שכבר בוצעו. זו שיטה הרבה יותר אפקטיבית מסגירת המעבר החם ומאפשרת סביבת עבודה הרבה יותר נעימה.
6. חפש הזדמנויות להוריד את העומס ממערכת החשמל שלך. לדוגמה, בדוק אם ניתן לשדרג את יחידות הקירור של החדר ל VFD ( Variable Frequency Drive ) שדרוג זה מאפשר למערכות להגיב ליניארית לצורכי החדר וחוסכת צריכת חשמל רבה.
7. האם כל השרתים בחדר באמת נחוצים? השבתה ופינוי של שרתים לא פעילים חוסכת אנרגיה. ישנם חדרי מחשב בהם 10% מהשרתים אינם מביאים תועלת כלל. פנה את השרתים המיותרים (ותרום אותם למוסדות חינוך).
8. בקרה – בקרה – בקרה . דע בכל זמן מה קורה בחדר המחשב שלך. מה הטמפרטורה בנקודות קריטיות ומה צריכת האנרגיה של כל ארון שרתים בכל זמן. פסי שקעים מתקדמים מאפשרים ניטור צריכת האנרגיה באופן מדויק ושוטף וההוצאה זעומה. כך תכיר צרכיך בדיוק נקודתי ותדע היכן התיקון יהיה אפקטיבי יותר.
9. במקום לשדרג את כל חדר המחשב, בנה אזור High density בחדר. אם בעבר היה נהוג לפזר את העומס בחדר, היום מומלץ לרכז את העומס הכבד ביותר באזור אחד ולטפל בו נקודתית. זה יותר יעיל, יותר אפקטיבי תקציבית ומקל על פעולת שאר החדר.
10. ברמה הפילוסופית – דע להתנתק מרעיונות ישנים. חוקי התכנון של חדרי המחשב השתנו ללא הכר. צפיפות הספק, ארונות מקוררי מים, אל פסק מודולארי, תצורת אל פסק בשיטת IEC ) Intelligent Eco Mode -במאמר הבא) . אלו הם פתרונות טכנולוגיים מתקדמים שחלקם לפחות יכול לחסוך הרבה צרות והרבה כסף.
ואם בזמן שחסכנו כסף לארגון ושיפרנו את תשתית מערך ה IT גם מנענו פגיעה באיכות הסביבה, גם זה בסדר.
כלים לחישוב חשמל
ערכי צריכת החשמל הנומינליים הכתובים על לוחית ציוד ה IT הם הגזמה פרועה ביחס לצריכת החשמל בפועל. זאת משום שהיצרנים מניחים תצורה מליאה עם כל האופציות, עבודה ב 100% ושדרוגים ותוספות עתידיים. כדי לחשב את צריכת החשמל העתידית של היצרנים מספקים "מחשבונים". להלן לינקים למחשבונים.
סיסקו
http://tools.cisco.com/cpc/
דל
http://www.dell.com/calc
HP
http://www.hp.com/go/bladesystem/powercalculator
יבמ
http://www.ibm.com/systems/bladecenter/powerconfig
סאן
החברה מספקת מחשבוני כוח אך הללו אינם מרוכזים מיקום בעמוד אחד. ניתן להשתמש באפשרות החיפוש באתר www.sun.com ולהציג את השאילתא "power calculator".
מי שרוצה ללכת "על בטוח" ללא עבודת מחקר יכול לקחת פקטור של 60% מהנומינאלי.
חדרי מחשב ורעידות אדמה
רבות מדובר על הסיכון של רעידות אדמה ליציבות מבנים. אני רוצה לדבר על מרכיב חשוב לא פחות והוא עמידות חדרי חדרי מחשב ברעידות אדמה.
חברות התקשורת, הבנקים, שרותי החירום וההצלה, משרדי ממשלה, הצבא – לכולם אולמות מחשב גדולים ובהם מחשבים הקרויים שרתים ומערכות אחסון נתונים. שרתים אלו מאוחסנים בארונות הקרויים ארונות שרתים.
שרותי התקשורת הקוית והסלולרית, שרותי הבנקאות, הרמזורים, שרותי הבריאות , הביטחון, ההצלה והכיבוי, משרדי ממשלה, עיריות, חברות הייטק ומפעלי תעשייה, כולם ישותקו במידה רבה אם ייפגעו חדרי המחשב של הארגונים הללו.
בתמונות הללו הלקוחות ממצגת של חברת בואינג בארה"ב, אנו רואים מה קרה בחדרי המחשב של בואינג לאחר רעידת אדמה NISQUALLY בפברואר 2001. זו הייתה רעידת אדמה של 6.8 בסולם ריכטר, בעומק 52 ק"מ. בתמונות רואים כיצד ארונות השרתים קרסו ונפלו. עם זאת, הבניין נשאר עומד ואפילו התקרה האקוסטית במקומה.
אנו מאמינים שבמקרה של רעידת אדמה דומה בישראל ( בין 6 ל 7 בסולם ריכטר) , מרבית חדרי המחשב באזור הרעש יקרסו, גם אם לא יגרם נזק משמעותי לבנינים בהם הם מאוחסנים. אחת הסיבות לכך היא שארונות השרתים הם כבדים וגבוהים ובדרך כלל מוצבים על רצפה צפה דרכה מועבר אוויר קר החיוני לקירור המחשבים. הרצפה הצפה הזו תקרוס בעת רעידת אדמה משמעותית ואיתה יקרסו ארונות השרתים. במקרים בהם מבריגים את הארונות לרצפת הבטון, אותם ארונות עוברים אירוע אלים בזמן רעידת האדמה, כך שארונות רגילים פשוט יתפרקו.
במקרה כזה, יש סיכון שהרמזורים, שרותי הבנקאות, התקשורת, משרדי ממשלה ומערכות ההצלה והביטחון ישותקו. צפוי גם נזק משמעותי לחומרת מחשבים יקרה. נתונים חשובים יאבדו. זמן ההתאוששות יכול להיות חודשים. להערכתנו, הנזק לחומרה יכול להיות במאות מיליונים והנזק למשק במיליארדים.
מדוע אם כך הארגונים אינם עושים דבר כדי למגן את חדרי המחשב? הסיבות הן
1. חוסר מודעות לסיכון
2. חוסר ידע כיצד למגן את חדרי המחשב
3. ההנחה המוטעית שהדבר דורש השקעות ענק
4. ההנחה השגויה שיש לשתק את חדר המחשב לזמן ממושך כדי להתקין את המיגון. מי שמכיר ארגונים שבהם המידע הוא קריטי יודע שרבים מחויבים לזמינות מידע של 99.999% מהזמן ( 5 תשיעיות) והשבתה אינו דבר שמתקבל על דעתם.
העניין הוא שניתן למגן את ארונות השרתים מפני רעידות אדמה באופן קל יחסית.
הפתרון הוא קל ליישום, אינו עולה ממון רב, וניתן להתקנה גם בזמן שהשרתים עובדים, כלומר ללא השבתה.
המתקן נקרא Isolation Base והוא מאפשר לבודד את השפעות רעידת האדמה מארון השרתים. גם כשמדובר בארון שרתים סטנדרטי.
בסיס הבידוד נבחן לפי תקן 63-Core Bellcore האמריקאי ( NEBS ) לפי אזור 4 ( zone 4 ) המחמיר (באיזור זה לדוגמא כלולה קליפורניה) . הבסיס נבדק ואושר על ידי ה Department of Energy למרכזי חירום 911. המבחן מדמה רעידות אדמה עד לעוצמה של 8.3 בסולם ריכטר.
בעת רעידת אדמה, בעוד שהלחץ של ארון השרתים הכבד ( 500-1000 ק"ג) על כל נקודת רצפה צפה יכול לגדול פי 2.5, הרי בשל הבסיס המיוחד, הלחץ על נקודת הרצפה יורד לעשירית.
הבסיס הזה בשימוש במדינות כגון ארה"ב, יפן, טורקיה וטייואן. חדרי מחשב שבהם הוא הותקן עברו רעידות אדמה קשות ללא הפרעה לתפקודם.
למי שמעוניין ביותר מידע מוזמן לכתוב לי.
CDU ( או PDU ): הסרת עומסים חכמה מבטיחה רציפות עסקית
רציפות עסקית (uptime) או אפס זמן השבתה (zero downtime) היא הגורם המניע החשוב ביותר בתכנון ובהפעלה של מרכזי נתונים כיום, מפני שהעלות של כל דקה שהמערכות מושבתות היא אלפי דולרים. חברות המפעילות מרכזי נתונים ברמה 3 וברמה 4 מחזיקות גם באתרים מרוחקים וגם באתרים משותפים (co-location facilities) שרתים אשר חיוניים לתפקודה השוטף לא פחות מהשרתים הממוקמים באתר הראשי. כדי להבטיח רציפות עסקית יש צורך בפתרונות חדשים וחדשניים. אחד הפתרונות הוא יחידות חכמות לחלוקת זרם בארון (CDU – Cabinet Power Distribution Units) שיכולות לספק יכולת הסרת עומסים חכמה (Smart Load Shedding). הפתרון מבוסס על CDU של חברת Server Technology
הסרת עומסים חכמה מאפשרת למפעיל להסיר עומסים על סמך שלושה משתנים תפעוליים חשובים:
1) האם האל-פסק פועל מהמצברים
2) הטמפרטורה בארון עולה מעל המותר
3) העומס הנוכחי עולה על המותר
משתני המפתח הללו מאפשרים למשתמש לקבוע מראש אילו מכשירים אינם חיוניים לפעילות השוטפת, להסיר אותם במקרים שמתעוררת בעיה ובכך להבטיח רציפות עסקית ולהגן על המכשירים החיוניים שבתוך הארון.
מי שמעונין ב white paper המלא שכתבנו בנושא זה מוזמן לכתוב לי ל yigals@schneider.co.il ואשלח לו / לה במיידי. כמו כן יש דיון בנושא יישום נכון של יתירות ב PDU בפוסט קודם
חג שמח
Metered PDU : יישום נכון של יתירות בחדרי המחשב
האם ספקי כוח כפולים בשרת משפרים את שרידות חדר המחשב?
אספקת חשמל היא יסוד בסיסי בתשתית חדר המחשב. הפסקת חשמל, או מערכת חשמל באיכות ירודה היא הסיבה העיקרית ל"נפילת" חדרי המחשב. לעיתים קרובות, קריסת מערכות החשמל של החדר מתקיימת לא בעת הפסקת חשמל אלא כתוצאה מטעות מקומית או תכנונית, אך בעיקר בשימוש בנוהגים (Practices) לא עדכניים.
מערכת אספקת החשמל של חדר המחשב מורכבת משש רמות:
1. הגריד – חברת החשמל וארון מרכזי
2. גנראטור גיבוי ומתג העברה אוטומטי ( ATS )
3. מערכת גיבוי אל פסק ( UPS ) ומתג BYPASS
4. ארון החשמל
5.PDU - Power Distribution Unit ברמת הארון
6. ספקי הכוח של השרתים עצמם
מנהלי אולם המחשב בדרך כלל אינם מעורבים ב 4 הרמות הראשונות, אך יש להם אחריות למדיניות ויישום של רמות 5 ו 6 . לא מעט נפילות מביכות מתרחשות כתוצאה ישירה מיישום שגוי של ה PDU.
כמעט לכל השרתים הנמכרים היום יש שני ספקי כוח. עובדה זו יכולה לשפר מאוד את זמינות המידע אם היישום הפיזי הוא נכון. במקרים רבים, בשל יישום שגוי, שני ספקי כוח אינם מוסיפים ערך כלל ויתרון זה מתבזבז או אף הופך לחיסרון.
בחדר מחשב ברמה 4 ( Tier 4 ) יש שתי מערכות של אספקת החשמל ובכל מערכת (ענף) מצויים כל 6 המרכיבים שהוזכרו מעלה. כל ענף יכול לתמוך ב 100% מצרכי החדר. זוהי יתירות של 2N וזה גם המחיר: עלות כפולה.
בשל שיקולי עלות, מעטים חדרי המחשב של Tier 4 ולכן אין לנו בד"כ יתירות של 2N. אנו מתפשרים משיקולי עלות- תועלת ואילוצים אחרים.
נתמקד אם כך בשיפור היתירות בעלות נמוכה ובדרכים שאפשריות לנו כמנהלי אולמות המחשב ליישם בקלות ובמהירות כלומר בסעיפים 5 ו 6.
במקרים בהם מותקן PDU אחד ברמת הארון, הרי שהיתירות מוגבלת רק למקרה של כשל באחד מספקי הכוח של השרת. ברור שזו לא חוכמה גדולה וזה גם לא מקרה מעניין.
ברוב המקרים מותקנים שני PDU בארון. תקוותנו השלמה היא שכל ספק כוח מחובר ל PDU אחר. במקרים כאלו כל ספק כוח עובד ב 50% מהעומס. במקרה של כשל בספק אחד, עובר כל העומס לספק השני. תצורה זו נוטעת במנהל החדר תחושה של בטחון בזכות היתירות. עם זאת, רבים אינם מודעים לנוהגים הנכונים ( best practices ) ומיישמים זאת בצורה לא נכונה.
לדוגמא, ראיתי מקרים רבים בהם ה PDU מועמס ל 60% מיכולתו. ובכן מה הבעיה?
הבעיה היא שבמקרה של כשל בענף A, כל העומס מועבר ל PDU B . במקרה כזה, PDU B סופג עומס של 120% והארון נופל.
נוהגים נכונים:
חוק מס 1: העומס על שני ה PDU ( ביחד) בארון צריך להיות לא יותר מ 80% מהעומס המקסימאלי של הארון
חוק מס' 2: העומס המקסימלי על כל PDU צריך להיות לא יותר מ 40% מהעומס המקסימאלי של הארון.
כלומר, אם הנקודה מאפשרת 20A לארון , כל PDU יכול להיות מועמס ל 8A לכל היותר , ושניהם ביחד 16A ( כלומר 80% מ 20A)
מומלץ מאוד להתקין PDU שהוא Metered , כלומר ניתן לראות מהו העומס על ה PDU באמפר. בישראל קוראים לזה בדרך כלל PDU חכם (להבדיל מ PDU מנוהל שמאפשר גם כיבוי והדלקה מרחוק)
מומלץ מאוד לבחור ב Meterd PDU (חכם) שמאפשר גישה מרחוק דרך IP ולקבל התראות ב SNMP במקרה והעומס עובר את רמת הסף המותרת. זה מוריד מאוד את עומס העבודה הכרוך בפיקוח על נושא זה ומשפר מאוד את אמינות חדר המחשב. דוגמאות לפסי שקעים חכמים ומנוהלים והנה PDU חדש וחכם במיוחד