Skocz do zawartości

szatkus

Użytkownik
  • Liczba zawartości

    1756
  • Rejestracja

  • Ostatnia wizyta

Wpisy na Blogu dodane przez szatkus

  1. szatkus
    Sprawa jest prosta, o ile w przypadku procesorów ogólnego użytku Intelowy dwurdzeniowiec czasem jest lepszym wyborem niż czteromodułowiec AMD, a Apple A7 zwykle sprawdza się lepiej niż wielordzeniowi konkurenci to procesory graficzne rządzą się innymi prawami. Zadania wykonywane przy renderowaniu grafiki 3D zazwyczaj bardzo dobrze się skalują i decydująca dla wydajności GPU jest ilość tranzystorów. To jak te tranzystory rozstaną wykorzystane oczywiście też ma wpływ na wydajność, ale nawet najbardziej dopieszczona architektura nie ma szans z układem, który posiada np. 2 razy więcej tranzystorów.
     
    Dlatego właśnie najważniejszą rzeczą dla rozwoju GPU jest prawo Moore'a. Od lat schemat jest podobny, producenci robią shrinka, wrzucają więcej zasobów, podnoszą zegary, czasem zmieniają architekturę i rodzaj pamięci. Często też wraz z poprawiającą się jakością procesu technologicznego wypuszczają kolejną generację o jeszcze większej ilości zasobów. Dlatego wszyscy entuzjaści wyczekują 20nm, żeby po raz kolejny wydarzyło się to, co dzieje się od prawie 20 lat.
     
    Ale to się nie wydarzy.
     

     
    Jeśli kiedykolwiek zastanawiałeś się dlaczego Nvidia i AMD zamiast wypuszczać układy w 20nm dalej żyłują 28nm ten obrazek pokazuje odpowiedź. Oczywiście koszt tranzystora to tylko jeden z czynników wpływający na koszt produkcji układu, ale raczej nie zanosi się, żeby pozostałe w najbliższym czasie dorównały tym przy 28nm. Ej, wspominałem, że

    No dobra, ale poza tym z każdym shrinkiem wzrasta energooszczędność i można podnieść zegary, więc chyba da się pokonać tą drobną niedogodność związaną z kosztem pojedyńczego tranzystora, prawda? Jak najbardziej, ale to tylko jedna z dostępnych możliwości.
     
    Inną jest użycie FD-SOI. Aktualnie licencję na tę technologię mają GlobalFoundries i Samsung, masowa produkcja powinna być możliwa w przyszłym roku. Co to daje? Poprawę w zużyciu energii porównywalną z normalnym shrinkiem. Koszty produkcji są podobne co przy zwykłym bulku, a przeportowanie istniejących układów dość proste. Niektórzy proponują nawet całkowite pominięcie 20nm.
     
    Jak wcześniej wspomniałem GlobalFoundries ma licencję na ten proces, więc naturalnie bliżej tego jest AMD, który obecne układy przeportował na proces 28nm z TSMC na GF przy okazji Kaveri. Nvidia oczywiście nie jest uwiązana do TSMC i mogą zrobić to samo tylko będą potrzebować czasu, żeby zapoznać się z innym procesem. Czy z tego skorzystają? Pewnie dowiemy się w przyszłości...
  2. szatkus
    W przyszłym roku możemy się spodziewać premiery czwartej generacji APU od AMD. Patrząc na to ile w przeszłości zajmowała im egzekucja dotychczasowych generacji obstawiam drugi kwartał. Planowane są modele Toronto (dla serwerów), Carrizo (dla laptopów) i wersja dla desktopów o nieznanej publicznie nazwie. Tak jest, po raz pierwszy wersje laptopowe i desktopowe będą miały różne nazwy kodowe. Nie znam przyczyn, ale podejrzewam, że powodem jest brak zintegrowanego FCH w wersji desktopowej (ze względu na kompatybilność z FM2+, gdzie FCH jest na płycie głównej). Pozostałe wersje będą pełnymi SoCami.
     
    Wpis ma na celu zebranie wszystkich informacji w jednym miejscu. Będzie się roiło od moich analiz, spekulacji i innych głupot.
     
    Proces technologiczny
     
    Ostatnio pojawiły się doniesienia o użyciu przy produkcji tych APU procesu 28nm. Nie ma jednak nic prawdopodobnego na ten moment, nawet slajdy, które wyciekły razem z tą informacją nie mówią nic o procesie. Myślę, że wcześniejsze obietnice o 14XM od GlobalFoundries możemy spokojnie porzucić. Na "prawdziwe" 14nm nie pozwalają ramy czasowe (sorry, do zobaczenia w 2016 roku). Poza tym nic nie wskazuje, żeby te układy były produkowane przez TSMC. AMD nigdy nie produkowało u nich swoich "dużych" procesorów. Poza tym patrząc na LinkedIn wygląda na to, że AMD ma Excavatora zarówno w 28nm jak i 20nm, dlatego ostatecznie ograniczyłem się do trzech opcji.
     
    28nm bulk
     
    Zakładamy, że Carrizo powstanie w tym samym procesie, w którym jest produkowane Kaveri. Wszystko wskazuje na to, że przyszłe układy będą zużywały mniej energii (bo jak wytłumaczyć te 30% wzrostu wydajności CPU jak nie wyższymi zegarami?) niż obecne. Rozszerzony zostanie przez to zakres TDP (do nawet 12W) i to pomimo integracji FCH, który powinien dodać wat lub dwa to zużycia energii. Dokonanie dość trudne zostając przy tym samym procesie technologicznym, ale biorąc pod uwagę, że 28nm od GF będzie pewnie bardziej dopracowane (w dniu premiery Kaveri to był świeżak, a procesy technologiczne są ulepszane z czasem) i że AMD potrafiło coś takiego zrobić w przypadku Trinity (Richland) jest to wykonalne.
     
    20nm bulk
     
    W 2015 roku możliwa będzie produkcja z użyciem 20nm. Patrząc na to, że zejście z procesem o jeden stopień zwykle zmniejsza zużycie energii o około 30% (co nie oznacza, że można podnieść zegary o 30%!), co tłumaczyłoby wcześniej wymienione przeze mnie zmiany. Ogólnie to shrink jak każdy inny, nie ma co się nad tym głębiej rozpisywać
     
    28nm FD-SOI
     
    To jest najciekawsza opcja. GlobalFoundries zamierza wprowadzić ten proces w tym roku. Ten magiczny proces został stworzony przez STMicro i miał nam przynieść 3.0 GHz w komórkach. Obecnie większość świata jest skupiona FinFET i niewiele fabów poza GF go oferuje. Energetycznie użycie tego procesu daje podobne korzyści co shrink (czyli 30% mniejsze zużycie energii przy takim samym taktowaniu). Poza tym łatwo przenieść na niego projekt tworzony pod bulk, dlatego go uwzględniłem pomimo braku jakichkolwiek przesłanek. Być może prototypy są tworzone na sprawdzonym i gotowym procesie. Przeciw jednak przemawia to, że FD-SOI słabo się nadaje do wysokotaktowanych układów (Kaveri dobijał do 4.0 GHz w turbo).
     
    Excavator
     
    Co się mogło zmienić? Raczej niewiele. Dalej to po prostu kolejna iteracja starego, dobrego (heh) Bulldozera. Patrząc na poprzednie generacje możemy się spodziewać nudnego 5-15% ze starego slajdu niż jakiegoś "Powrotu Króla". Standardowo można się spodziewać, że w niektórych miejscach będzie pozytywnie zaskakiwał, ale w pozostałych przypadkach bez rewolucji. Na poparcie tego przypominam, że AMD zapowiedziało 30% większą wydajność przy 15W. Część tego wyniku to na pewno wyższe taktowanie (w tym stuleciu nie zdarzyło się, żeby jakikolwiek rdzeń miał ulepszone IPC o 30% z generacji na generację), reszta to efekt ulepszonej mikroarchitektury. Nie wiadomo jak z zegarami w desktopowej wersji, bo były też przesłanki o zmniejszeniu TDP do 65W co może się wiązać z obniżeniem zegarów (w zależności od tego jaki proces technologiczny wybrali). Gdyby jednak zostali przy 95W to patrząc na poprawę w zużyciu energii możemy się spodziewać nieco wyższych zegarów (być może nawet porównywalnych z A10-6800K). Dodatkowo ma też obsługiwać zestaw instrukcji AVX2 (poza tym też BMI2 and RDRAND, ale to akurat mało ważne) co implikuje powiększenie FPU niemal dwukrotnie. Już teraz dwa razy większy od tego w K10, przez co potrafić przetworzyć dwa razy więcej instrukcji (zwykle tak się nie dzieje, ale to przez wąskie gardła w innych częściach modułu). Przez to możemy się spodziewać w programach zawierających dużo operacji zmiennoprzecinkowych nieco większego wzrostu wydajności niż w innych przypadkach.
     
    GCN
     
    W przyszłorocznym APU zostanie użyta trzecia generacja GCN. O ile w drugiej generacji zmiany były raczej śladowe tu może być nieco lepiej. Dlaczego? Wedle tego co do tej pory wypłynęło twórcy GCN obrali podobny kierunek co Nvidia w przypadku Maxwella (nie ma się co dziwić, decyzje podejmowane w konkurencyjnych firmach często są zadziwiająco zbieżne). To znaczy, że możemy się spodziewać, że nowy GCN będzie dobrze się czuł w środowisku o niskim TDP jakim jest APU. Jeśli chodzi o ilość jednostek to, o ile pozostaną w 28nm, będzie podobno jak w Kaveri (do 8 CU czyli 512 jednostek cieniujących). A co z ostateczną wydajnością? Tutaj dochodzimy...
     
    Stacked DRAM
     
    Kupiłeś A10-7850K? Słaby wybór, trzeba było wziąć A10-7700K. Dlaczego? Bo w Kaveri praktycznie nie ma różnicy między GPU z 384, a 512 jednostek. Teoretycznie to powinno być tak wydajne jak Radeon 7750, ale tak nie jest. Dlaczego? Bo głównym ograniczeniem tego GPU jest przepustowość pamięci. Ostatnio pojawiły się doniesienia o dodaniu do Carrizo Stacked DRAM (konkretnie podejrzewam HBM). Co to jest? Po prostu pamięć ułożona w kilku warstwach. Przepustowość rośnie liniowo z każdą dodaną warstwą (2-4 w przypadku HBM). Nie znamy szczegółów, ale sądzę, że będzie to wyglądać podobnie jak zrobił Intel w Iris czyli DRAM będzie kolejnym cachem, współdzielonym między CPU, a GPU. To pozwoli zniwelować wolny transfer zwykłych DDR3 czy nawet DDR4. Dodatkowo może to poprawić nieco (kilka procent) wydajność CPU w niektórych przypadkach. Być może to było powodem dlaczego zdecydowali się zmniejszyć L2 z 2MB do 1MB. Ilość pamięci nie jest znana, ale patrząc na charakterystykę HBM obstawiam 256MB.
     
    HSA
     
    Na ten moment wiadomo, że obsługa HSA będzie rozszerzona. Nie wiem jednak czy to już będzie pełne HSA (wbrew temu co twierdzi marketing AMD Kaveri nie spełniało w pełni definicji HSA). Jeśli chodzi o wydajność to ze względu dodanie HBM i ulepszenia w GCN będzie na pewno o wiele lepiej niż wcześniej. Tak, wiem, i tak nikt nikt tego nie używa...
×
×
  • Dodaj nową pozycję...