SUPERCHŁODZONA SUPERMASZYNA

    Dla SGI opracowanie superszybkiego komputera było proste. Sztuka polegała na zapewnieniu chłodzenia. Oto jak udało im się pokonać przeszkodę

    CO OTRZYMAMY, KIEDY UMIEŚCIMY 256 PROCESORÓW W JEDNYM WĘŹLE KOMPUTEROWYM?

    Odpowiedź brzmi: architektura dla jednego z najszybszych superkomputerów na świecie to potężne wyzwanie w zakresie zarządzania ciepłem.

    To właśnie odkryli inżynierowie firmy Silicon Graphics (SGI), kompletując projekt nowego superkomputera SGI® Altix® 3700 Bx2 , który został wprowadzony na rynek pod koniec 2004 roku. Ich rozwiązanie na pokonanie ciepła – to płaszczyznowy projekt zapewniający niezakłócony przepływ powietrza oraz nowe projekty wentylatorów i radiatorów. Poszukując rozwiązań, inżynierowie opracowali również technologię pomagającą użytkownikom w rozpraszaniu ciepła generowanego w pomieszczeniach z komputerami.

    Celem SGI związanym z Bx2 była radykalna modernizacja superkomputera 3700, który znajdował się na rynku od roku. Był szybki, ale gęstością mocy obliczeniowej nie dorównywał konkurencji. Ponadto obsługa zaledwie 32 procesorów na stojak była czynnikiem ograniczającym, zaliczanym do wad maszyny. Nowy Bx2 miał obsługiwać 64 procesory na stojak w projekcie współużytkowanej pamięci oraz zawierać nowy ruter SGI – NUMAlink 4 ASIC, tablicę rozdzielczą, która ukierunkowuje przepływ informacji pomiędzy różnymi procesorami, co skutecznie podwoiłoby wydajność komputera. Projekt współużytkowania pamięci umożliwiłby bezpośredni dostęp do wszystkich danych w pamięci systemu. Według SGI klastry – inny wspólny element konstrukcji superkomputerów – produkują przewężenia I/O lub sieci, które mogą spowodować spowolnienie lub wręcz utratę danych.

    – Naszym celem było pozwolenie inżynierom na rozważenie symulacji problemów dotyczących wielkości i złożoności, o możliwości wdrożenia jakich nawet nie myśleli – mówi lider zespołu wdrożeniowego Steve Dean. Pierwsze próby dowiodły, że koncepcja była słuszna. Podczas testów nowego projektu inżynierowie z firmy Boeing odkryli, że za jednym razem mogą wykonać symulację całego kadłuba, a nie tylko jednego skrzydła. NASA, posługując się programem ANSYS, rozwiązała problem symulacji 117 milionów stopni swobody. Inżynierowie wierzyli, że przykłady te stanowiły zaledwie początek. Własne wyniki analiz porównawczych SGI wykazały, że Bx2 był 200 razy szybszy niż produkty konkurencji.

    Nadmierna ilość watów

    TESTY SGI wskazują, że nowy superkomputer Altix® 3700 Bx2 jest 200 razy szybszy od rozwiązań oferowanych przez konkurencję

    Jednak podobnie jak w przypadku samolotów latających z prędkością machów Bx2 generował bardzo duże ilości ciepła. Konieczne było rozproszenie mocy 1000 watów wewnątrz każdej kostki o wymiarach 271×44,45×1778 cm. Kostka to termin, jakim SGI określa modularne opakowanie elementu, zawierającego całą elektronikę. W systemie występuje osiem kostek komputerowych na stojak. Aby zrozumieć, czym jest ciepło o wartości 1000 W, proszę sobie wyobrazić ciepło generowane przez 10 żarówek 100-watowych. Gdyby nie było chłodzenia, temperatura komponentów osiągnęłaby setki stopni Celsjusza w ciągu zaledwie kilku minut, zmieniając maszynę w drogi piekarnik.

    Istnieje wiele sposobów pozbywania się ciepła z urządzeń elektronicznych. Najbardziej popularne jest chłodzenie płynami, powietrzem oraz wypromieniowanie, głównie zarezerwowane dla zastosowań astronautycznych. Chłodzenie płynami, chociaż wydajne – to hydrauliczny koszmar, do tego kosztowny. Inżynierowie SGI zdecydowali się więc na chłodzenie powietrzem, najtańsze a jednak bardzo wydajne rozwiązanie w przypadku takich wartości mocy.

    KOMPUTEROWA KOSTKA w Altix 3700 Bx2 to szczelna, modularna osłona, w której znajdują się wszystkie elementy elektroniczne. Typowa kostka o wymiarach 71×44,45×17,78 cm rozprasza moc o wartości 1000 W. Odpowiada to ciepłu generowanemu przez 10 sztuk żarówek 100 W umieszczonych w jednej przestrzeni. Bez chłodzenia temperatura mogłaby skoczyć do setek stopni Celsjusza w ciągu zaledwie kilku minut. Systemy Altix mogą się składać z maksymalnie 8 kostek

    Powietrze musi być w ruchu

    Pierwszy krok polegał na zaprojektowaniu systemu, który zapewniłby jak najmniejsze zakłócenia w przepływie powietrza chłodzącego maszynę. Ograniczenia powodowałyby gromadzenie się ciepła. Rozwiązanie: koncepcja płaszczyznowej obudowy. Wszystkie komponenty kostki, łącznie z procesorami, pamięcią i ruterami miały zostać umieszczone na krawędzi. Kiedy ciepło gromadziłoby się tylko na krawędzi komponentów, przepływ powietrza byłby względnie swobodny. SGI wcześniej przygotowało płaszczyznowy projekt, więc krok ten był łatwy.

    Kiedy nie było już ograniczeń w przepływie powietrza, kolejnym krokiem było zapewnienie cyrkulacji powietrza w środku kostki. SGI współpracuje z kilkoma dostawcami wentylatorów, zdecydowało się wybrać niemiecką firmę ebm Papst do realizacji projektu Altix 3700 Bx2. Stosując modele projektu superkomputera SGI – Pro/ ENGINEER, ebm dostarczyła po trzy wentylatory tunelowe o wysokiej wydajności, 127 mm dla każdej kostki. Powietrze jest wciągane na łopatki wentylatora, a wyprowadzane równolegle do wału silnika. W porównaniu z konkurencyjnymi wentylatorami tej samej wielkości, te wybrane pracują z wyższym przepływem powietrza oraz niższym poziomem akustycznym.

    Po ukończeniu projektu wentylatora kolejnym etapem był projekt radiatora. Zadanie to należało do inżyniera SGI – Ricka Salmonsona. Zbudował on model symulacyjny obliczeniowej dynamiki płynów (computational fluid dynamics – CFD) we Flotherm, w oparciu o modele Pro/ENGINEER CAD swojej koncepcji radiatora, po czym wprowadzał wiele poprawek w celu uzyskania optymalnej wysokości i rozmieszczenia żeberek.

    Zadanie to nie było tak łatwe, jak by się mogło wydawać. Jednym z podstawowych wzorów używanych w projektowaniu radiatorów jest ten, w którym powierzchnie żeberek są przymocowywane do procesorów i odprowadzają ciepło od urządzenia: Q=hA(Tb-Ta)n, gdzie Q – prędkość transferu ciepła, h jest współczynnikiem cieplnym, A jest obszarem powierzchni radiatora, a Tb jest podstawową temperaturą radiatora, Ta to temperatura otaczających płynów, a n stanowi wydajność radiatora.

    Wzór pomaga inżynierom prognozować wydajność radiatorów. Podczas prób wykonywanych we Flotherm Salmonson musiał podjąć fundamentalną decyzję: wybrać jeden lub dwa radiatory. Procesor Intel rozprasza 130 W, a ASIC rozprasza 30 W. SGI mogła zaoszczędzić, stosując taki sam radiator do obu elementów, co oczywiście zawsze jest atrakcyjnym rozwiązaniem, jednak byłoby mało wydajne. Radiator ASIC nie wystarczałby dla procesora, a z kolei radiator procesora byłby zbyt mocny dla ASIC. Znalezienie rozwiązania pośredniego mogłoby trwać za długo i byłoby zbyt ryzykowne. Zamiast tego Salmonson zaprojektował osobny radiator dla każdego. Na podstawę i żebra procesora wybrał czystą miedź. Podstawa tych radiatorów ma następujące wymiary: 91×71×6 mm. Wysokość żeber wynosi 49 mm, liczba 23, grubość 0,4 mm, a odległości pomiędzy żebrami 2,8 mm. Radiator ASIC jest wykonany z aluminium, jego wymiary to: 73×58×6,5 mm. Żebra aluminiowe to 20 sztuk o grubości 1,0 mm, wysokość każdego żebra wynosi 41 mm, a odległości pomiędzy żebrami wynoszą 2,9 mm.

    Ciepło przechodzi do tylnej części układu elektroniki. Spadek temperatury na radiatorze procesora wynosi 40°C. Dla ASIC spadek temperatury wynosi 25°C.

    INŻYNIEROWIE POSŁUŻYLI się programem symulacyjnym Flotherm na bazie obliczeniowej dynamiki płynów (computational fluid dynamics – CFD) do wykonania symulacji przepływu powietrza przez kostkę komputera. Rysunek pokazuje, w jaki sposób powietrze wychodziło z wentylatorów. Inżynierowie chcieli zobaczyć, czy powietrze było równomiernie rozprowadzone na górnej i dolnej części PCB, czy nie było miejsc, do których powietrze nie dopływało lub takich, w których następowała recyrkulacja powietrza. Ich celem było zapewnienie nieograniczonego przepływu powietrza

    W TEJ CZĘŚCI PROGRAMU Flotherm inżynierowie badali temperatury powierzchniowe komponentów, takich jak: chipy procesorów, chipy ASIC, chipy ruterów, pamięci DIMMS oraz komponenty konwersji mocy. Radiatorów nie widać, ponieważ nie były przedmiotem badania. Widok pokazuje płaszczyznę przekroju mniej więcej na środku kostki. Można zauważyć wektory przepływu: to właśnie chcieli zobaczyć inżynierowie w prawdziwej kostce. Płaszczyznę przekroju można umieścić w dowolnym miejscu. Zmieniając jej położenie w komputerze, inżynierowie mogli sprawdzić, czy mają równomierny i wystarczający przepływ powietrza w kostce oraz właściwe chłodzenie. Kostki znajdujące się na środku, w kolorze niebieskim, to blokady powietrza służące do zapewnienia przepływu powietrza przez radiatory, a nie dookoła nich

    Chłodne pomieszczenie

    Technika płaszczyznowa, wybór wentylatorów oraz zaprojektowanie radiatorów rozwiązały problem zapewnienia chłodzenia komputerów. Jednak inżynierowie SGI wiedzieli, że po odprowadzeniu ciepła z komputerów klienci będą musieli znaleźć sposób na wyprowadzenie go z pomieszczenia z komputerami. – Instynktownie czuliśmy, że klienci, u których pracować będą duże konfiguracje, mieliby szczególnie poważny problem – mówi lider zespołu inżynieryjnego Dean. Przeczucia okazały się uzasadnione. Kiedy NASA zamówiła kilka systemów Bx2, zespół SGI wykonał obliczenia, które wykazały, że chłodzenie systemów przerosłyby możliwości klimatyzacyjne zakładów NASA.

    Do gry wkroczyli więc inżynierowie Tim McCann i Dave Collins. Zaprojektowali chłodzone wodą drzwi do szaf komputerowych, które odbierałyby ciepło od urządzeń i wprowadzały do systemu chłodzenia budynku. Na skutek tego ciepło przechodziłoby do tylnej części stojaków z elektroniką i wychodziło poprzez wodną wężownicę znajdującą się w tylnych drzwiach.

    Rozwiązanie opierało się na umieszczonym na zawiasach wymienniku ciepła w postaci wężownicy, bardzo podobnej do wężownic stosowanych w przemyśle HVAC w wielkich klimatyzatorach. Współpracując z firmą ThermoDyne Inc., będącą konsultantem w zakresie projektowania wężownic, oraz firmą Outokumpu Heatcraft USA, producentem wężownic, w ciągu sześciu tygodni McCann i Collins sporządzili kilka projektów wężownic. Ich celem było pochłonięcie 90% ciepła wyprowadzanego z systemów komputerowych.

    INŻYNIEROWIE SGI zastosowali chłodzenie płynami w drzwiach w celu odprowadzenia ciepła od superkomputerów

    Ale sprawa nie kończyła się na właściwym projekcie wężownicy. – Wydmuchiwanie gorącego powietrza nad zimnym powietrzem stwarza zagrożenie kondensacji – mówi Collins. Kondensacja mogłaby naruszyć równowagę wilgotności, a jej utrzymanie w pomieszczeniu było bardzo ważne, aby wyeliminować problemy z elektrycznością statyczną. Rozwiązanie? Wielkość wężownicy została tak dobrana, aby uzyskać temperaturę dochodzącą do 60°F, co łączyło się ze zredukowanym środowiskowym zakresem operacyjnym dla wilgotności 40–55% RH. To rozwiązanie zapobiegłoby kondensacji. Następnie, w celu uzyskania całkowitej pewności, uwzględnili w projekcie dren odprowadzający skropliny w sytuacji, gdy warunki środowiskowe znacznie odbiegałyby od specyfikacji.

    Chłodzone wodą drzwi pomagają NASA zaoszczędzić na elektryczności. Ale kiedy inżynierowie zakładów NASA chcieli zastosować ten sam system do chłodzenia budynku, McCann i Collins nie zgodzili się. To wymagałoby obniżenia temperatury wody chłodzącej, zwiększenia wydajności wężownicy, ale również zwiększenia ryzyka kondensacji.

    NASA – 10 240–procesorowy superkomputer Columbia jest zbudowany z 20 systemów Altix, z których każdy zawiera 512 procesorów Intel Itanium 2. System znajduje się w zakładzie NASA Advanced Supercomputing w Mountain View, CA. Superkomputer to największy system Linux na świecie

    Podczas gdy inżynierowie mający dostęp do nowego Bx2 i wykonujący na nim symulacje będą mogli rozwiązywać większe problemy w jeszcze krótszym czasie, inżynierowie SGI skorzystali z doświadczeń zdobytych podczas realizacji projektu. Lider zespołu inżynieryjnego, Dean, mówi: – sami zdaliśmy sobie sprawę, że musimy brać pod uwagę całość rozwiązania, a nie tylko część projektu. Dean stwierdził, że przerzucenie problemów z chłodzeniem na NASA czy innych klientów byłoby łatwe, ale nie do przyjęcia, mimo że temperatura w pomieszczeniu leży w gestii samego zakładu. – Wielu klientów nie rozumie, że chłodzenie systemów o wyższej gęstości przerasta możliwości układów klimatyzacji zakładów. Zdecydowaliśmy się rozwiązać ten problem w celu zapewnienia niezawodnej pracy systemu.

    Specyfikacja systemu dla SGI Altix 3700 Bx2

    Procesory

    16 do 2048; 8 do 256 na węzeł

    Pamięć

    12 GB do 24 TB

    Wymiary stojaka systemu

    190,5 x 134,62 x 76,2 cm

    Waga stojaka systemu

    632 kg maksymalnie

    Środowiskowe warunki pracy

    +5oC do + 35oC, wysokość 5000 n.p.m.

    10 % do 90% wilogtności, bez kondensacji

    Autor: PAUL E. TEAGUE