Posts filed under ‘Tier 1’

PDU לארונות שרתים: מבוקר או מנוהל?

האם יש עדיין טעם להצטייד בפסי שקעים "בסיסיים" לארונות שרתים?

פס השקעים הידוע בכינוי RPDU, הפך לחלק משמעותי ומעניין בחוות השרתים. כיום נהוגים מס' סוגים של פסי שקעים:
1. פסי שקעים מנוטרים – כאלו שמודדים ומציגים באמצעות צג מקומי את צריכת החשמל
2. פסי שקעים חכמים – מודדים ומציגים את צריכת החשמל ושולחים התראות דרך הרשת
3. פסי שקעים מנוהלים- יש בהם את יכולות הפסים החכמים + מאפשרים כיבוי והדלקה מרחוק

במה לבחור אם כך?
אני מאמין שהתשתית הפיזית של חוות השרתים חייבת לתמוך בשלושת יעדי העל:
1. רציפות עסקית
2. זמינות ( קיבולת בכל זמן)
3. עלות כוללת
לטעמי, פסי שקעים חכמים הם המינימום ההכרחי:

1. רציפות עסקית – כמעט כל חוות שרתים רצינית משקיעה ביתירות כלשהי. עם פס שקעים בסיסי, אין ערובה לשום יתירות. וזאת משום שללא בקרה, קל מאוד להעמיס את פסי השקעים בעומס העובר את ה 50%. במקרה של קריסת אחת ה"רגליים" יועמס פס השקעים הנותר ביותר מ 100% ויקרוס. עמו יקרוס גם ארון השרתים (במקרה הטוב). כלומר ההשקעה העצומה ביתירות (שרתים בעלי שתי הזנות המובילות לשני פסי שקעים ומשם לשני לוחות חשמל, לשתי מערכות אל פסק וכו) מתבזבזת בשל חיסכון תמוה על פס השקעים.

לאנגלים יש ביטוי טוב לתאר זאת:
"penny wise and pound foolish"

פס שקעים חכם יתן לנו התראה כאשר נעבור רמת סף של עומס אותה נגדיר אנחנו. לדוגמא 45%. לדיון מעמיק ראו פוסט קודם.
2. זמינות: השקענו בחוות שרתים ואנו רוצים לנצל את ההשקעה במלואה. איך זה שמרבית הארונות ריקים למחצה ומנהל החווה מתלונן שאין לו יכולת לקלוט ציוד חדש? ובכן, בכדי לדעת אם ארון השרתים מולנו יכול לקלוט ציוד נוסף הצורך, נניח, עוד 2 קילו-וואט, עלינו לדעת כמה צורך הארון שלפנינו. פס שקעים חכם המחובר לתוכנת שליטה כגון Power IQ , יציג את צריכת הארון שלפנינו לאורך זמן. כך נדע ברמת ביטחון גבוהה אם נוכל להוסיף ציוד לארון וכמה.
3. עלות כוללת: ניטור צריכת החשמל ברמת הארון נותן לנו את האפשרות ליזום שיפורים בתחום היעילות האנרגטית ולחסוך כסף רב לארגון אותו ניתן לנצל להתעצמות. בנוסף, ניטור מאפשר ניתוח עלות-תועלת של רכישת שרתים חדשים.

טיפים נוספים לבחירה נבונה:
– הטמפרטורה בחלקו האחורי של הארון יכולה היום להגיע ל 50 מעלות. ולכן, חשוב לבחור פסי שקעים חכמים העומדים בטמפרטורות של 60 מעלות.
-תכנון המאפשר מינימום טעויות אנוש:
כיסוי למפסקים, קליפים למניעה של ניתוק לא מכוון של כבלים , לדים וסימון צבעים לפאזות השונות.

ינואר 21, 2014 at 3:29 pm כתיבת תגובה

טעות קטנה בדטה סנטר..

ידיעה קטנה בעיתונות תפסה את עיני:  במשך כשעה פחות או יותר, משתמשים ברחבי העולם לא הצליחו להעלות פוסטים ולסמן לייקים בפייסבוק בשל בעיה בדטה סנטר של פייסבוק.  מפייסבוק נמסר ש"מוקדם יותר היום הבוקר (שעון ארה"ב), בזמן ביצוע עבודות תחזוקה, חווינו אירוע אשר מנע מחלק מהמשתמשים להעלות פוסטים לפייסבוק לפרק זמן קצר. פתרנו את הבעיה במהירות והמערכת שבה לפעול בתפקוד מלא. אנו מתנצלים על אי הנוחות אשר נגרמה".

למרות היותי חובב גאדג'טים וטכנולוגיה אינני מנוי בפייסבוק, כנראה בשל הפרעת אישיות כלשהי.  נפילת פייסבוק אם כך לא הפריעה לי מאוד במישור האישי, שגרת יומי לא הופרעה ומצב רוחי לא נפגע. אך דבר מה קטן נוסף לכד את עיני:  מניית פייסבוק נפלה עקב האירוע ב- 0.6%.  לא נורא, נכון?  ובכן, בשווי שוק של  כ-100 מיליארד דולר, 0.6% זה 600 מיליון דולר.  קצת הרבה בשביל טעות טכנאי בזמן תחזוקה.

ידוע ש 60% מהאירועים המביאים לנפילה של חוות שרתים הם תוצאה של בעיות בתכנון ותפעול של התשתית הפיזית, כלומר, מיזוג אוויר , חשמל ותשתית תקשורת. לא סוד הוא שבישראל מרבית חוות השרתים מיושנות ברמת התשתית וסובלות מרעב תקציבי מתמשך. זה מתבטא במיזוג אוויר לא יעיל, בניהול כבילה בעייתי, בחוסר מוכנות לרעידות אדמה, ובמערכות חשמל מאולתרות. התוצאה הישירה היא סיכון לרציפות העסקית.  נשאלת השאלה אם כך, האם ניתן לכמת את הסיכון?

רבות נכתב על הערכת העלות של זמן דמימה ( downtime ) של חוות שרתים.  הערכת העלות לשעה של זמן דמימה נעה בין אלפי דולרים לארגונים קטנים ועד לעשרות מיליונים לשעה עבור ארגונים פיננסיים גדולים. הערכת הנזק מחושבת בדרך כלל על בסיס ערך העסקאות שעורך הארגון בתקופת זמן יחד עם הערכה גסה של עלות אובדן מוניטין ואיבוד לקוחות. המקרה של פייסבוק מאיר צד נוסף של הבעיה. הנזק לבעלי המניות עקב הפגיעה במחיר המניה. לא אתפלא אם העלות של מניעה אפקטיבית של הבעיה שהתעוררה בפייסבוק היא אלפית מהנזק שספגו בעלי המניות. 600 מיליון דולר כבר אמרנו?

לא אחת אני שותף לתסכולו של סמנכ"ל הטכנולוגיות בארגון, אשר מזהה את הסיכון אך לא מצליח להשיג תקציב למזעור הסיכונים. מקרה פייסבוק מאפשר למנמ"ר לפנות למנכ"ל ולחברי הדירקטוריון ולשאול אותם: " מה יקרה למחיר המניה, אם חוות השרתים, חוט השדרה של העסק שלנו, תידום לשעה? יום? שלושה ימים?"

סקר ביצועים וסיכונים בחוות שרתים הכרחי כדי לחשוף בעיות שיכולות לסכן את הרציפות העסקית. בחברת אלכסנדר שניידר אנו מבצעים סקר של חדרי שרתים ומזהים

1. סיכונים לרציפות העסקית
2. פוטנציאל לשיפור ביעילות האנרגטית ובהוצאות התפעול
3. דרכים למקסם את התשתית הקיימת כדי לתמוך בעוד מערכות ( Hidden Capacity )

נובמבר 6, 2013 at 1:23 pm כתיבת תגובה

תכנון חדרי מחשב וחוות שרתים

In Rack cooling Emerson Knurr

זה הסטנדרט המומלץ של אלכסנדר שניידר

הדרך ל Best Practices קלה יותר משחשבתם…

למנמ"ר המתכנן את מרכז המחשוב ( datacenter ) החדש של הארגון, יש הזדמנות לנצל נוהגים מתקדמים ( Best Practices ) בתכנון חדרי שרתים, ולשפר את התשתית עליה נשען מערך ה IT תוך חיסכון בעלות כוללת. להלן "עשר הדיברות"

1.TCO – הגדירו את רמת היתירות הנדרשת וחשבו את העלות כוללת ל 10 עד 15 שנים. השקעה ראשונית גדולה במס' אחוזים יכולה לחסוך עשרות אחוזים ב TCO.

2.בחירת השרתים גם על פי צריכת האנרגיה – עלות התפעול (בעיקר אנרגיה חשמלית) של שרת לאורך שלוש שנים גבוהה יותר מעלות השרת עצמו. בחרו בחוכמה שכן השוני בין השרתים הוא משמעותי.

3.וירטואליזציה – שימוש בוירטואליזציה מאפשר חיסכון משמעותי ברכש חומרה ובעלות התפעול של חוות השרתים. עם זאת, צריכת האנרגיה של שרת פיזי שעליו 5-20 שרתים וירטואליים גבוהה משמעותית מבעבר ויש צורך בחשיבה עדכנית בתשתית החשמל ומיזוג האוויר.

4.צפיפות מחשוב גבוהה – העלות הכוללת של חדר שרתים עם צפיפות מחשוב גבוהה ( high density ) נמוכה משמעותית ממרכזי מחשוב המפזרים את המחשוב על שטח רצפה נרחב. עם זאת, נדרשת חשיבה מקצועית וחדשנית להתמודדות עם כבילה צפופה, תשתית חשמל ומיזוג אוויר לצפיפות גבוהה. כדאי להתגבר על הנטייה להיצמד לשיטות עבר – החיסכון הוא משמעותי.

5.מודולאריות בתכנון – השקעה בציוד תשתית לעומס מקסימאלי כבר בתחילת חיי חדר המחשב היא מתכון לבזבוז ולשיתוק היכולת לאמץ טכנולוגיות חדשות עם הזמן. תכנון מודולארי מאפשר מדרוג ההשקעה לאורך שנים ( pay as you grow ) וחיסכון משמעותי ב TCO. מודולאריות מאפשרת גם שימוש אופטימאלי בטכנולוגיות מתקדמות ובמוצרים חדישים.

6. מיזוג אוויר חדשני וממוקד. המיזוג הממוקד מאפשר התמודדות עם כל עומס, חיסכון באנרגיה חשמלית וניצול מיטבי של ההשקעה בתשתית. עם זאת, היזהרו ממוכרנים שממוקדים רק במה שכדאי להם למכור . ישנן מגוון שיטות כגון קירור פנים-ארון, קירור חדר, קירור שורה ולכל אחת מאלו ואריציות שונות. מה נכון? כל פרויקט לגופו על פי הדרישות, הצרכים והאילוצים. טיפ חשוב: בחדרים בהם מיזוג האוויר מבוסס על צ'ילרים: דרשו ממתכנן מיזוג האוויר לתכנן לפי טמפ' מים קרים של לפחות 12 מעלות צלזיוס. רצוי אף יותר. זה יביא לחיסכון עצום בצריכת החשמל ותקבלו הרבה יותר מהמערכות שהתקנתם.

7. הפרדה מוחלטת של אוויר קר ואוויר חם – אחת הסיבות העיקריות לבזבוז העצום במיזוג אוויר ובחשמל בחוות שרתים הוא חוסר ההפרדה בין אוויר קר לחם. שימוש בפנלים עיוורים הוא חובה בסיסית עם החזר השקעה של יומיים בערך. הפרדה בין המעבר הקר למעבר החם יכולה גם היא להביא לחיסכון משמעותי. גם כאן יש כר נרחב של אפשרויות: סגירת מעבר הקר (עם או בלי מערכות קירור מים), סגירת המעבר החם ( רק בשילוב מערכות קירור מים), שיטה היברידית ועוד.

8.ניהול בזמן אמת באמצעות כלי תוכנה – קצת עצוב שהתשתיות הפיזיות של חוות השרתים בישראל מנוהלות בדרך כלל בגיליונות אקסל. קיימים כלי תוכנה ( SPM, DC Track, Power IQ ) קלים לשימוש המאפשרים ניצול מיטבי של ההשקעה בתשתית, הצגת לוח מחוונים ( Dashboard ) בזמן אמיתי והעיקר: יכולת תגובה מהירה לשינויים.

9. מדידה ובקרה – אי אפשר לנהל ולייעל את מה שאינו נמדד. חיישנים וכלי תוכנה מתקדמים מודדים את יעילות צריכת האנרגיה ( PUE ) ומידת השימוש בתשתיות ומאפשרים קבלת החלטות ניהוליות מושכלות. לדוגמא: חישוב קל של החזר השקעה של IT Refresh .

10. הסמכה מבצעית של חדרי שרתים – טבען של תקלות בתכנון וביצוע של חדרי שרתים חדשים, הוא שהן מתגלות זמן רב לאחר העלייה לאוויר עם הצמיחה הטבעית בעומס. תקלות אלו גורמות לזמן דמימה ( downtime ) של חדרי שרתים קריטיים לארגון. ההסמכה המבצעית של אלכסנדר שניידר בוחנת תחת עומס אמיתי את כל מערכות חדר השרתים: מיזוג אוויר, חשמל , יתירות ויעילות אנרגטית. הבדיקה היא באמצעות אמולטורים של חומרה , חיישנים מתקדמים ותוכנת בקרה ייעודית. ההסמכה המבצעית מורידה דרמטית את ההסתברות לתקלות תשתית ומגלה את כל הבעיות לפני הכנסת מערכות האמת של ה IT לחדר השרתים החדש כאשר כל המערכות עדיין באחריות וכל המתכננים והקבלנים עדיין זמינים.

ארגון אשר יישם את עשרת הנוהגים המתקדמים הללו ויפנים את העקרונות שעיצבו אותם, ישפר משמעותית את יכולת חוות השרתים להגיב לצרכי הארגון, ויוכל לחסוך לארגון כספים רבים שישמשו אותו להקצאת משאבים להתעצמות.

אנו מקיימים ימי עיון לעיתים קרובות בנושא תכנון וניהול חדרי שרתים. למעוניינים כתבו לטלי שרון tali@schneider.co.il

ינואר 25, 2012 at 10:01 pm כתיבת תגובה

שינויים ב Tier system של מכון ה Uptime

בשנה שעברה הודיע ה Uptime  Institute שהוא עובד על שינויים בהגדרת רמות השרידות  בעזרת ועדה המורכבת ממנהלי DATA CENTER.  לאחרונה פורסם השינוי הראשון.

הסבר קצר על רמות השרידות:  Tier System


הגדרת רמות השרידות מ רמה 1 ( Tier 1 ) הבסיסית עד רמה 4  (Tier 4  הגבוהה ביותר) של מכון ה Uptime  הפכה כבר לפני שנים להיות הסטנדרט בפועל של התעשייה להגדרת רמות השרידות.

השינוי הוא הגדרה לאחסנה מינימאלית של 12 שעות סולר לגנראטורים לגיבוי.  השינוי חוצה את כל הרמות, מ 1 עד 4.

השינוי התקבל בעזרת הועדה המייעצת הכוללת 29 חברות שלהן חדרי מחשב בגדלים וברמות שונות.  מס' הצעות עלו לוועדה ולא התקבלו, ביניהן החלטה על זמן גיבוי מינימאלי של מערכות UPS.

המתבונן מן הצד יכול לתמוה מדוע גם Tier 1  – שהוא חדר מחשב בסיסי , הוא חלק מן ההחלטה.  ובכן אחד היעדים של המכון הוא לבדל גם את חדרי Tier 1  מחדרים מאולתרים בסגנון שאנו רואים לא מעט בישראל ( לדוגמא מזגני קיר  משרדיים שמזעזעים אותי כל פעם מחדש) או מסתם ארון שרתים המוצב באיזו פינה.

אוגוסט 9, 2010 at 4:35 pm כתיבת תגובה

לקחים מתקלות בחדרי מחשב – 1 #

האם במקרה של אזעקת אש/עשן בבנין, יש להשבית מייד את מערכות המיזוג של חדר המחשב?

מנהל חדר המחשב, אחד מהיותר מקצועיים בארץ, שיתף אותי במקרה הבא:  מאזור המשרדים המצוי באותה קומה בה נמצא חדר המחשב המתקדם שלו, נתקבלה התראת אש ממערכת הגילוי.  עפ"י הנוהל, הופסקה פעולת המזגנים בבניין מיידית. גם מערכות המיזוג הנפרדות של חדר המחשב הושבתו עם האזעקה. כתוצאה הושבת חדר המחשב. התראת האש היתה התראת שווא.

אמנם הכל עבד כראוי לפי הנוהל, אך הנוהל עצמו נמצא לקוי.  בעקבות ניתוח הארוע הוחלט שמערכות המיזוג בחדר המחשב לא יושבתו  אלא רק אם התקבלה ההתראה מחדר המחשב עצמו.

יש לכם לקחים שתרצו לחלוק עם הקהילה?  כתבו לי.

יגאל שניידר

יולי 1, 2010 at 8:06 pm כתיבת תגובה

הגדרות היתירות של חדרי מחשב ( Tier System )

 חברות שלהן חדרי מחשב צריכות לאזן בין שני צרכים.  הצורך ברציפות עסקית לעומת הצורך בחיסכון בהשקעות ( CAPEX) ובהוצאות התפעול ( OPEX ) .

מחד גיסא, הצורך בזמינות מידע ורציפות עסקית מכתיב יתירות בתכנון תשתית חדר המחשב.  מאידך גיסא, יתירות עולה כסף. יתירות מכתיבה השקעות משמעותיות בחומרה והוצאות תפעול גבוהות יותר בחשבון החשמל ובחוזי שירות.  על כן, על המנמ"ר להגדיר במדויק מה רמת היתירות הנדרשת בחדר שלו ולהבין את ההשלכות העסקיות כולן.

רמת היתירות מוגדרת על פי 4 רמות ( Tiers ): מרמה 1 ( Tier I ) עד רמה 4 ( Tier IV ) .  הגדרת הרמות נעשתה על יד מכון האפטיים ( www.uptimeinstitute.org ) שהוא האורים והתומים בתחום חדרי המחשב.

חדרי מחשב  ברמות  I ו II נועדו לתת מענה לטווח קצר ולתמוך בטכנולוגיה הנוכחית בלבד. אלו פתרונות טקטיים שבהם שיקול העלות הוא שיקול כמעט בלעדי. במקומות בהם ל IT חשיבות אסטרטגית נחוץ פתרון ברמות III ו IV שנותנים מענה לרציפות העסקית ומאפשרים קליטת טכנולוגיה חדישה בקלות יחסית.

Tier I:  בחדר מחשב ברמה I ניתן ביטוי לרצון החברה להכיל את ציוד ה IT בתחום בו יש תשתית מתאימה (בניגוד, למשל, לתשתית משרדית).  חדר רמה 1 טיפוסי  יהיה חדר מחשב סגור, מערכת אל-פסק ( UPS ) שתייצב את המתח ותיתן מענה להפסקות חשמל קצרות, מערכת מיזוג אוויר 24/7 וגנראטור להפסקות חשמל ארוכות יותר. אין יתירות ( רמה N ).  אין אפשרות לביצוע טיפולים בציוד התשתית ללא השבתה. כמו כן, במקרה של תקלה בציוד התשתית,  יסבול האתר מהשבתות.

Tier II: בחדר מחשב ברמה II תהיה יתירות כלשהי למערכות קריטיות של חשמל ומיזוג אוויר. בדרך כלל היתירות ( N+1 ) תהיה במערכות כגון UPS, צ'ילרים, משאבות וגנראטור. טיפולי שירות תקופתיים יגרמו להשבתות.  תקלות חומרה במרכיבי התשתית יכולים גם הם לגרום לקריסת החדר באופן זמני.

Tier III: בחדר מחשב ברמה III התכנון מאפשר טיפולי שירות לתיקון ומניעה ללא השבתה ( concurrent maintenance ).  כלומר, ניתן להשבית כל רכיב תשתית כגון UPS, ארון חשמל או יחידת מיזוג ללא השבתה של ציוד IT. לכל מוליך תשתית פעיל יהיה "תאום" פסיבי שיכנס לעבודה במקרה של כשל במוליך הפעיל. גם כאן היתירות במערכות היא ברמה של ( N+1). ההבדל הגדול הוא שבאתר זה ניתן לבצע עבודות שירות תקופתיות מה שיקטין בודאי גם את מס' התקלות.

Tier IV : חדר מחשב ברמה IV הוא אל-כשל ( Fault Tolerant ) . יש בו את כל מה שנכלל ברמה III אך שום כשל בודד אינו יכול לגרום להשבתה מליאה או חלקית. כל מרכיבי התשתית פעילים בו זמנית.

ברור שאם מערכת המיזוג מתוכנת לפי רמה II אך מערכת החשמל לפי רמה I, חדר המחשב הוא ברמה I. דירוג חדר ברמה 2.5 זו המצאה ישראלית שאין לה אחיזה בתורה המקצועית.

בעת תכנון ושדרוג חדרי מחשב, חשוב שהמנמ"ר יגדיר במדויק את צרכי הארגון בכל הקשור לרציפות העסקית.  שיטת הדרוג ל 4 רמות מאפשרת למנמר בחינה מסודרת של עלות מול תועלת.

יוני 17, 2009 at 5:56 pm 2 תגובות


רשומות אחרונות

Feeds

הבלוג הוקם ומנוהל בסיוע: