Skocz do zawartości

Recommended Posts

Późno już, więc po krótce :P

 

Czy Cayman ma za mało za małą przepustowość pamięci, by spożytkować tyle SP? :P To dlatego odblokowywanie dodatkowych 9% SPu daje zaledwie 2,3% większą wydajność? ;)

 

Z ciekawości sprawdziłem skalowanie wyników względem taktowania RAMu:

 

http://img33.imageshack.us/img33/9112/skalowanieram.png

 

Też nie ma szału, proporcje takie same dla 6950 i 6970, podniesienie taktów o 24% daje 10x mniejszy efekt :P

 

Wychodzi na to, że ROPów jest za mało, za niskie zegary by zaspokoić taki głód SPu :D Taką samą bolączkę miał Cypress, dlatego 68xx tak dobrze sobie dawały radę, mimo drastycznego wycięcia sporej liczby SP ;)

 

Tak więc czas na zmiany, HD 78xx i 79xx muszą mieć już 48 ROPów (12 RBE), albo jakieś zmiany w RBE, żeby mógł więcej operacji na cykl zegara robić i udawać te 48 ROPów przy 8 RBE i 256-bitowej szynie :D

 

 

Ehh... ale mi SPAM wyszedł :rotfl:

Pozdro dla tych, co czytali :D

Link to post
Share on other sites

Nie, nie... ROP absolutnie nie brakuje. ROP zasadniczo pomijając MSAA nie mają nawet w fullhd za dużo do roboty. 800MHz * 32ROP to fillrate kilkunastu mld pikseli! 1 klatka fullhd ma ok 2mln pikseli. Jak widać nawet mając 5x więcej pikseli do przeliczenia ROP mają spory zapas. Nawet gdyby zapodać im fp32 to wtedy jest bodajże 25% szczytowej wydajności - a to i tak jest sporo więcej niż potrzeba do super płynności sceny fullhd.

256bit? Ale kolego, przecież przepustowość magistrali to szerokość*taktowanie, czyli nie ruszając 256bit a zwiększając o 10% taktowanie to o 10% zwiększa się przepustowość - a większego efektu brak.

Link to post
Share on other sites

Przede wszystkim w błędzie są wszyscy ci co myślą iż 1536 SPU w HD6970, to 3x więcej niż 512 w GTX 580. Jednostki w architekturze VLIW4 wylicza się ze wzoru (liczba rzeczywista procesorów strumieniowych) *4 (uproszczonym językiem liczba operacji jakie są w stanie w jednej chwili wykonać) ... tak więc fizycznie Cayman XT ma "tylko" 384 shader'y, które potrafią jednak wykonać aż 4 operacje w jednym cyklu zegara (podobnie działa 7 "rdzeni" procesora PowerPC w PS3).

 

Rozwiązanie takie świetnie sprawdza się we wszelkich obliczeniach OpenCL, gdzie wielowątkowość SPU zdaje egzamin. Dlatego też karty AMD mają tak ogromną wydajność po przeliczeniu na FLOP'y. W grach Radosławy muszą nadrabiać wysokimi taktowaniami rdzenia... które osiągnąć mogą dzięki jego mniej skomplikowanej strukturze i mniejszej powierzchni... Jak im to wychodzi oceńmy sami :)

Link to post
Share on other sites

Nie, nie... ROP absolutnie nie brakuje. ROP zasadniczo pomijając MSAA nie mają nawet w fullhd za dużo do roboty. 800MHz * 32ROP to fillrate kilkunastu mld pikseli! 1 klatka fullhd ma ok 2mln pikseli. Jak widać nawet mając 5x więcej pikseli do przeliczenia ROP mają spory zapas. Nawet gdyby zapodać im fp32 to wtedy jest bodajże 25% szczytowej wydajności - a to i tak jest sporo więcej niż potrzeba do super płynności sceny fullhd. 256bit? Ale kolego, przecież przepustowość magistrali to szerokość*taktowanie, czyli nie ruszając 256bit a zwiększając o 10% taktowanie to o 10% zwiększa się przepustowość - a większego efektu brak.

Jednak użytkownik mlCh@eL ma tu całkowitą rację :] >>>

 

http://www.xbitlabs.com/articles/graphics/display/sapphire-radeon-hd-6950-toxic_5.html

Link to post
Share on other sites

@ivanos - to co pokazałeś nie potwierdza tezy miCh@eLa. SP mają się nijak to ROP (RBE) a nawet ich większa ilość pozwala wykonać dany problem szybciej. A skoro reszta podzespołów jest taka sama i tak samo taktowana (dobra, tmu jeszcze) to nawet gdyby ROP blokowały to równo taktowane 6950 i 6970 nie miałyby jednakowej wydajności, a 6970 byłoby jednak ciut szybsze. Tutaj wyszedł najwidoczniej inny problem "na wierzch" i nie byłby to pierwszy raz gdzie słabsza karta na takich samych taktach wyprzedza niby wyzszy model.

 

@gtxxor -

Rozwiązanie takie świetnie sprawdza się we wszelkich obliczeniach OpenCL

RGBA, XYZ(W) - to wg Ciebie jest powód nadrabiania wysokimi zegarami u AMD? To ile te shadery są taktowane ? 800-900MHz? A u NV ile? 1600? Aaaa... to kto nadrabia taktowaniem ? :> Większa część danych wysyłanych do SP to wektory, czy to vec3, czy vec4. A przy okazji jest jakaś skalarna wartość przeliczana - dlatego starsze układy AMD były VLIW5. Niemniej GPGPU czy to w formie OpenCL, czy DirectCompute oczekuje ciut innego podejścia. I dlatego nieefektywność przeliczania skalarów we VLIWx teraz AMD będzie łatać przy użyciu olbrzymich SIMD.
Link to post
Share on other sites

Dołącz do dyskusji

Możesz dodać zawartość już teraz a zarejestrować się później. Jeśli posiadasz już konto, zaloguj się aby dodać zawartość za jego pomocą.

Gość
Odpowiedz w tym wątku...

×   Wklejono zawartość z formatowaniem.   Usuń formatowanie

  Dozwolonych jest tylko 75 emoji.

×   Odnośnik został automatycznie osadzony.   Przywróć wyświetlanie jako odnośnik

×   Przywrócono poprzednią zawartość.   Wyczyść edytor

×   Nie możesz bezpośrednio wkleić grafiki. Dodaj lub załącz grafiki z adresu URL.

  • Ostatnio przeglądający   0 użytkowników

    Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...