mICh@eL 335 Napisano 31 Sierpnia 2011 Udostępnij Napisano 31 Sierpnia 2011 Późno już, więc po krótce Czy Cayman ma za mało za małą przepustowość pamięci, by spożytkować tyle SP? To dlatego odblokowywanie dodatkowych 9% SPu daje zaledwie 2,3% większą wydajność? Z ciekawości sprawdziłem skalowanie wyników względem taktowania RAMu: http://img33.imageshack.us/img33/9112/skalowanieram.png Też nie ma szału, proporcje takie same dla 6950 i 6970, podniesienie taktów o 24% daje 10x mniejszy efekt Wychodzi na to, że ROPów jest za mało, za niskie zegary by zaspokoić taki głód SPu Taką samą bolączkę miał Cypress, dlatego 68xx tak dobrze sobie dawały radę, mimo drastycznego wycięcia sporej liczby SP Tak więc czas na zmiany, HD 78xx i 79xx muszą mieć już 48 ROPów (12 RBE), albo jakieś zmiany w RBE, żeby mógł więcej operacji na cykl zegara robić i udawać te 48 ROPów przy 8 RBE i 256-bitowej szynie Ehh... ale mi SPAM wyszedł Pozdro dla tych, co czytali Cytuj Link to post Share on other sites
gtxxor 3481 Napisano 31 Sierpnia 2011 Udostępnij Napisano 31 Sierpnia 2011 69xx to VLIW4, 68xx to VLIW5... ciężko to porównać... Cytuj Link to post Share on other sites
mICh@eL 335 Napisano 31 Sierpnia 2011 Autor Udostępnij Napisano 31 Sierpnia 2011 Wykazałem, że to nie RAM blokuje wydajność karty, więc cała wina spada na ROP'y Ale 68xx i 58xx to VLIW5, udoskonalenia architektury nie było, tylko cięcia Cytuj Link to post Share on other sites
voxcordi 294 Napisano 31 Sierpnia 2011 Udostępnij Napisano 31 Sierpnia 2011 @mICh@el. Takie rzeczy tylko w... Fire GL. ;-) Nie będziesz narzekał na wydajność ROP. Chyba, że Quadro... Cytuj Link to post Share on other sites
Znawca 6 Napisano 1 Września 2011 Udostępnij Napisano 1 Września 2011 (edytowane) ROP i szyna 256bit Edytowane 1 Września 2011 przez Znawca Cytuj Link to post Share on other sites
Promilus 25 Napisano 1 Września 2011 Udostępnij Napisano 1 Września 2011 Nie, nie... ROP absolutnie nie brakuje. ROP zasadniczo pomijając MSAA nie mają nawet w fullhd za dużo do roboty. 800MHz * 32ROP to fillrate kilkunastu mld pikseli! 1 klatka fullhd ma ok 2mln pikseli. Jak widać nawet mając 5x więcej pikseli do przeliczenia ROP mają spory zapas. Nawet gdyby zapodać im fp32 to wtedy jest bodajże 25% szczytowej wydajności - a to i tak jest sporo więcej niż potrzeba do super płynności sceny fullhd. 256bit? Ale kolego, przecież przepustowość magistrali to szerokość*taktowanie, czyli nie ruszając 256bit a zwiększając o 10% taktowanie to o 10% zwiększa się przepustowość - a większego efektu brak. Cytuj Link to post Share on other sites
gtxxor 3481 Napisano 1 Września 2011 Udostępnij Napisano 1 Września 2011 Przede wszystkim w błędzie są wszyscy ci co myślą iż 1536 SPU w HD6970, to 3x więcej niż 512 w GTX 580. Jednostki w architekturze VLIW4 wylicza się ze wzoru (liczba rzeczywista procesorów strumieniowych) *4 (uproszczonym językiem liczba operacji jakie są w stanie w jednej chwili wykonać) ... tak więc fizycznie Cayman XT ma "tylko" 384 shader'y, które potrafią jednak wykonać aż 4 operacje w jednym cyklu zegara (podobnie działa 7 "rdzeni" procesora PowerPC w PS3). Rozwiązanie takie świetnie sprawdza się we wszelkich obliczeniach OpenCL, gdzie wielowątkowość SPU zdaje egzamin. Dlatego też karty AMD mają tak ogromną wydajność po przeliczeniu na FLOP'y. W grach Radosławy muszą nadrabiać wysokimi taktowaniami rdzenia... które osiągnąć mogą dzięki jego mniej skomplikowanej strukturze i mniejszej powierzchni... Jak im to wychodzi oceńmy sami Cytuj Link to post Share on other sites
ivanos 112 Napisano 1 Września 2011 Udostępnij Napisano 1 Września 2011 Nie, nie... ROP absolutnie nie brakuje. ROP zasadniczo pomijając MSAA nie mają nawet w fullhd za dużo do roboty. 800MHz * 32ROP to fillrate kilkunastu mld pikseli! 1 klatka fullhd ma ok 2mln pikseli. Jak widać nawet mając 5x więcej pikseli do przeliczenia ROP mają spory zapas. Nawet gdyby zapodać im fp32 to wtedy jest bodajże 25% szczytowej wydajności - a to i tak jest sporo więcej niż potrzeba do super płynności sceny fullhd. 256bit? Ale kolego, przecież przepustowość magistrali to szerokość*taktowanie, czyli nie ruszając 256bit a zwiększając o 10% taktowanie to o 10% zwiększa się przepustowość - a większego efektu brak. Jednak użytkownik mlCh@eL ma tu całkowitą rację >>> http://www.xbitlabs.com/articles/graphics/display/sapphire-radeon-hd-6950-toxic_5.html Cytuj Link to post Share on other sites
Promilus 25 Napisano 2 Września 2011 Udostępnij Napisano 2 Września 2011 @ivanos - to co pokazałeś nie potwierdza tezy miCh@eLa. SP mają się nijak to ROP (RBE) a nawet ich większa ilość pozwala wykonać dany problem szybciej. A skoro reszta podzespołów jest taka sama i tak samo taktowana (dobra, tmu jeszcze) to nawet gdyby ROP blokowały to równo taktowane 6950 i 6970 nie miałyby jednakowej wydajności, a 6970 byłoby jednak ciut szybsze. Tutaj wyszedł najwidoczniej inny problem "na wierzch" i nie byłby to pierwszy raz gdzie słabsza karta na takich samych taktach wyprzedza niby wyzszy model. @gtxxor - Rozwiązanie takie świetnie sprawdza się we wszelkich obliczeniach OpenCLRGBA, XYZ(W) - to wg Ciebie jest powód nadrabiania wysokimi zegarami u AMD? To ile te shadery są taktowane ? 800-900MHz? A u NV ile? 1600? Aaaa... to kto nadrabia taktowaniem ? Większa część danych wysyłanych do SP to wektory, czy to vec3, czy vec4. A przy okazji jest jakaś skalarna wartość przeliczana - dlatego starsze układy AMD były VLIW5. Niemniej GPGPU czy to w formie OpenCL, czy DirectCompute oczekuje ciut innego podejścia. I dlatego nieefektywność przeliczania skalarów we VLIWx teraz AMD będzie łatać przy użyciu olbrzymich SIMD. Cytuj Link to post Share on other sites
Recommended Posts
Dołącz do dyskusji
Możesz dodać zawartość już teraz a zarejestrować się później. Jeśli posiadasz już konto, zaloguj się aby dodać zawartość za jego pomocą.