bgdev-free: "neon"

Създадено на 18.11.2024 , видяно: 1039 пъти.

Създадено на 18.11.2024 , видяно: 1015 пъти.

Да, llvm е доста добър във векторизацията на такива елементарни цикли. Проблемите са с многомерни масиви. Донякъде ми се иска да видя какви биха били резултатите със SVE(2) и SME, но вероятно ще ме домързи. Ако си спомням правилно, инструкциите на SVE няма да крашнат ако данните които четеш излязал от валидното адресно пространство и с разни хватки с предикати скоростта може би ще е бърза и без да се дава дължината на стринга.

#127770

BIGBUGEX

Последно редактирано на 18.11.2024 от BIGBUGEX, видяно: 996 пъти.

#include <immintrin.h>
#include <cstdio>

int spcalc( const char *data ) {
	long long idata32 = (long long)data & -32LL;
	unsigned offset = (unsigned)(unsigned long long)data & 31, valid, zerof, sf, pf;
	__m256i *ym_data = (__m256i*)idata32,
		ym_s = _mm256_broadcastb_epi8( *(__m128i*)"s" ),
		ym_p = _mm256_broadcastb_epi8( *(__m128i*)"p" ),
		ym_z = _mm256_xor_si256( ym_s, ym_s ),
		ym_c;
	;
	int res;
	
	valid = -1 << offset;
	ym_c = *ym_data++;
	zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
	valid &= zerof ^ (zerof - 1);
	sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
	pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
	res = __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	zerof &= valid;
	
	while( !zerof ) {
		ym_c = *ym_data++;
		zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
		valid = zerof ^ ( zerof - 1 );
		sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
		pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
		res += __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	}
	
	return res;
}

int main() {
	printf( "%i\n", spcalc( "eeeeesssssppppp" ) );
	
	return 0;
}

Тва е за х64 с - mavx2. Не съм го мерил за скорост. Би трябвало да изрине всеки арм заради 256 битовите вектори и специфичните инструкции.

ПС: Взех домейн. Остава да напиша форум на С++ като съм по-свободен. Рабина там ще е позволен дивеч.

#127773

Rabin

Създадено на 18.11.2024 , видяно: 980 пъти.

BIGBUGEX
ПС: Взех домейн. Остава да напиша форум на С++ като съм по-свободен. Рабина там ще е позволен дивеч.

https://github.com/Azareal/cppforo

TIR Урсула село ерген чекии.

#127777

waldorf

Създадено на 18.11.2024 , видяно: 974 пъти.

BIGBUGEX

#include <immintrin.h>
#include <cstdio>

int spcalc( const char *data ) {
	long long idata32 = (long long)data & -32LL;
	unsigned offset = (unsigned)(unsigned long long)data & 31, valid, zerof, sf, pf;
	__m256i *ym_data = (__m256i*)idata32,
		ym_s = _mm256_broadcastb_epi8( *(__m128i*)"s" ),
		ym_p = _mm256_broadcastb_epi8( *(__m128i*)"p" ),
		ym_z = _mm256_xor_si256( ym_s, ym_s ),
		ym_c;
	;
	int res;
	
	valid = -1 << offset;
	ym_c = *ym_data++;
	zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
	valid &= zerof ^ (zerof - 1);
	sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
	pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
	res = __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	zerof &= valid;
	
	while( !zerof ) {
		ym_c = *ym_data++;
		zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
		valid = zerof ^ ( zerof - 1 );
		sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
		pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
		res += __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	}
	
	return res;
}

int main() {
	printf( "%i\n", spcalc( "eeeeesssssppppp" ) );
	
	return 0;
}

ПС: Взех домейн. Остава да напиша форум на С++ като съм по-свободен. Рабина там ще е позволен дивеч.

То точно това беше антипатърна от линка - че сега кода е платформо зависим а ако просто го напишеш да е удобен за векторизиране от компилатора обикновено той се справя по добре отколкото ръчно оптимизиран платформен, че и написан на асемблер код. То тук би помогнал един варнинг с който да заградиш някакъв код и да му кажеш да мрънка ако не успее да го векторизира.

А ако ти се пише форум дали ще е на Ц++ или на нещо друго няма кой знае какво значение. Зависи какви са ти целите - бързо писане, бърз фронд енд, бърз бак енд - или комбинация от всички - и според това вариантите са безброй. Лично за мен избора последните 15 години е сведен до две платформи - има ли какви да е рестрицкии то отивам към чисто Ц, за всички останали неща ползвам жаваскрипт/тайпскрипт и ноде. Целта ми е минимизиране на инвестиция в учене на поредната модна платформа или език или фреймворк докато мога да решавам проблемите по които работя с вече научените неща. Ноде-то го избрах като алтернатива на .нет, че там майкрософт осраха точно тази възвръщаемост на инвестицията - тамън им свикнеш на нещо и те го заменят с нещо ново - било то гуи или веб или дб.

#127782

Създадено на 18.11.2024 , видяно: 967 пъти.

BIGBUGEX
Би трябвало да изрине всеки арм заради 256 битовите вектори и специфичните инструкции.

Мисля, че ти е ясно, че това с 256 битовите вектори не е задължително да е по-бързо. Например Neoverse V1 има два SVE execution unit-a с 256 битови вектори, докато V2 е с четири юнита със 128 битови вектори. Като тествах (Graviton 3 vs. Grace-Hopper) скоростта беше сравнима (като се коригират различията в честотата).

#127783

BIGBUGEX

Последно редактирано на 18.11.2024 от BIGBUGEX, видяно: 954 пъти.

|
Мисля, че ти е ясно, че това с 256 битовите вектори не е задължително да е по-бързо. Например Neoverse V1 има два SVE execution unit-a с 256 битови вектори, докато V2 е с четири юнита със 128 битови вектори. Като тествах (Graviton 3 vs. Grace-Hopper) скоростта беше сравнима (като се коригират различията в честотата).

Кода ми явно не е много добър. 20 GiB/s на 3700Х закотвен на 3.6 Ghz. А тия батки говорят за 87 GB/s. 3700Х има цял 256 битов изпълнител.

#include <immintrin.h>
#include <cstdio>
#include <ctime>

int spcalc( const char *data ) {
	long long idata32 = (long long)data & -32LL;
	unsigned offset = (unsigned)(unsigned long long)data & 31, valid, zerof, sf, pf;
	__m256i *ym_data = (__m256i*)idata32,
		ym_s = _mm256_broadcastb_epi8( *(__m128i*)"s" ),
		ym_p = _mm256_broadcastb_epi8( *(__m128i*)"p" ),
		ym_z = _mm256_xor_si256( ym_s, ym_s ),
		ym_c;
	;
	int res;
	
	valid = -1 << offset;
	ym_c = *ym_data++;
	zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
	valid &= zerof ^ (zerof - 1);
	sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
	pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
	res = __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	zerof &= valid;
	
	while( !zerof ) {
		ym_c = *ym_data++;
		zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
		valid = zerof ^ ( zerof - 1 );
		sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
		pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
		res += __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	}
	
	return res;
}

#define G4PCOUNT 1

int main() {
	char data[0x10000];
	unsigned i;
	int r;
	clock_t start, stop;
	
	for( i = 0; i < 0x10000; i += 4 ) {
		data[i + 0] = 'a';
		data[i + 1] = 'p';
		data[i + 2] = 's';
		data[i + 3] = 'z';
	}
	
	data[0xFFFF] = 0;
	start = clock();
	
	for( i = 0; i < G4PCOUNT * 0x10000; i++ ) {
		r = spcalc( data );
	}
	
	stop = clock();
	printf( "%f GiB/s\n", (float)( G4PCOUNT * 4 ) / ( (float)( stop - start ) / CLOCKS_PER_SEC ) );
	
	return 0;
}

Без информация за размера е тегаво иначе. Тия затва се скатават от проверката за край на низа.

#127786

Създадено на 18.11.2024 , видяно: 942 пъти.

BIGBUGEX
Кода ми явно не е много добър. 20 GiB/s на 3700Х закотвен на 3.6 Ghz. А тия батки говорят за 87 GB/s. 3700Х има цял 256 битов изпълнител. ... Без информация за размера е тегаво иначе. Тия затва се скатават от проверката за край на низа.

Виж как го тестват от гитхъб репозиторито: https://github.com/lunacookies/n-times-faster

На личния ми лаптоп (MacBookAir с М2) ми дава


basic:
                  12 iters
               3.062 ns/b
               0.327 GB/s
table:
                 107 iters
               0.357 ns/b
               2.802 GB/s
table_length:
                 181 iters
               0.211 ns/b
               4.747 GB/s
table_8:
                 259 iters
               0.149 ns/b
               6.697 GB/s
table_16:
                 290 iters
               0.133 ns/b
               7.501 GB/s
neon:
                 905 iters
               0.042 ns/b
              23.704 GB/s
neon_less_reduce:
                1396 iters
               0.027 ns/b
              37.092 GB/s
neon_lsb:
                1447 iters
               0.026 ns/b
              38.439 GB/s
eqsub:
                1884 iters
               0.020 ns/b
              50.875 GB/s
neon_eqsub:
                 844 iters
               0.044 ns/b
              22.813 GB/s
neon_eqsub_unroll:
                1884 iters
               0.019 ns/b
              52.546 GB/s
neon_lsb_unroll:
                3367 iters
               0.011 ns/b
              91.567 GB/s
lsb:
                3390 iters
               0.011 ns/b
              92.157 GB/s

#127788

BIGBUGEX

Последно редактирано на 19.11.2024 от BIGBUGEX, видяно: 922 пъти.

Виж как го тестват от гитхъб репозиторито: https://github.com/lunacookies/n-times-faster

На личния ми лаптоп (MacBookAir с М2) ми дава


basic:
                  12 iters
               3.062 ns/b
               0.327 GB/s
table:
                 107 iters
               0.357 ns/b
               2.802 GB/s
table_length:
                 181 iters
               0.211 ns/b
               4.747 GB/s
table_8:
                 259 iters
               0.149 ns/b
               6.697 GB/s
table_16:
                 290 iters
               0.133 ns/b
               7.501 GB/s
neon:
                 905 iters
               0.042 ns/b
              23.704 GB/s
neon_less_reduce:
                1396 iters
               0.027 ns/b
              37.092 GB/s
neon_lsb:
                1447 iters
               0.026 ns/b
              38.439 GB/s
eqsub:
                1884 iters
               0.020 ns/b
              50.875 GB/s
neon_eqsub:
                 844 iters
               0.044 ns/b
              22.813 GB/s
neon_eqsub_unroll:
                1884 iters
               0.019 ns/b
              52.546 GB/s
neon_lsb_unroll:
                3367 iters
               0.011 ns/b
              91.567 GB/s
lsb:
                3390 iters
               0.011 ns/b
              92.157 GB/s

Тия хвърчат в небесата бе. Някои дори предполагат че винаги ще има само два вида знаци в буфера (p и s).

#include <immintrin.h>
#include <cstdio>
#include <ctime>
#include <vector>
#include <algorithm>

int spcalc( const char *data ) {
	long long idata32 = (long long)data & -32LL;
	unsigned offset = (unsigned)(unsigned long long)data & 31, valid, zerof, sf, pf;
	const __m256i *ym_data = (const __m256i*)idata32;
	__m256i ym_s = _mm256_broadcastb_epi8( *(__m128i*)"s" ),
		ym_p = _mm256_broadcastb_epi8( *(__m128i*)"p" ),
		ym_z = _mm256_xor_si256( ym_s, ym_s ),
		ym_c
	;
	int res;
	
	valid = -1 << offset;
	ym_c = *ym_data++;
	zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
	valid &= zerof ^ (zerof - 1);
	sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
	pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
	res = __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	zerof &= valid;
	
	while( !zerof ) {
		ym_c = *ym_data++;
		zerof = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_z ) );
		valid = zerof ^ ( zerof - 1 );
		sf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_s ) );
		pf = (unsigned)_mm256_movemask_epi8( _mm256_cmpeq_epi8( ym_c, ym_p ) );
		res += __builtin_popcount( sf & valid ) - __builtin_popcount( pf & valid );
	}
	
	return res;
}

#define INPSIZE 1000000
#define MBS 128

int main() {
	char data[INPSIZE + 1];
	unsigned i, j, iters;
	int r;
	clock_t start, stop;
	std::vector<double> durs;
	double median;
	
	for( i = 0; i < INPSIZE; i += 4 ) {
		data[i + 0] = 'a';
		data[i + 1] = 'p';
		data[i + 2] = 's';
		data[i + 3] = 'z';
	}
	
	data[INPSIZE] = 0;
	start = clock();
	
	for( i = 0; i < 100; i++ ) {
		r = spcalc( data );
	}
	
	stop = clock();
	iters = (unsigned)( ( CLOCKS_PER_SEC * 5 ) / ( ( stop - start ) / 100 ) / MBS );
	
	for( i = 0; i < iters; i++ ) {
		start = clock();
		
		for( j = 0; j < MBS; j++ ) {
			r = spcalc( data );
		}
		
		stop = clock();
		durs.push_back( (double)( stop - start ) / MBS / CLOCKS_PER_SEC );
	}
	
	std::sort( durs.begin(), durs.end() );
	median = durs[durs.size()/2];
	printf( "iters <%u> %.3f ns/b %.3f GB/s\n", iters, ( median * 1000000000 ) / INPSIZE, (double)INPSIZE / 1000000000 / median );
	
	return 0;
}

iters <868> 0.046 ns/b 21.780 GB/s

#127789

Създадено на 19.11.2024 , видяно: 918 пъти.

BIGBUGEX
Тия хвърчат в небесата бе. Някои дори предполагат че винаги ще има само два вида знаци в буфера (p и s).

Да, повечето имплементации са напълно нереалистични.

eqsub e може би последната имплементация, която е донякъде реалистична. Проблемът е, че при NEON ако се опиташ да прочетеш вектор, който е извън адресното пространство, програмата ще крашне. Затова и единствения начин да се използват вектори е ако знаеш дължината на стринга. Не знам как е при avx2. Ако не ме домързи може да пробвам как е с SVE, но ще трябва да пускам Graviton3 instance-a си.

Между другото, двете ми mac mini пристигнаха та може да пробвам и със Streaming SVE като науча как да го използвам.

Но като цяло заниманието е безмислено защото задачата е безинтересна.

#127790

BIGBUGEX

Последно редактирано на 19.11.2024 от BIGBUGEX, видяно: 912 пъти.

|
Да, повечето имплементации са напълно нереалистични.
eqsub e може би последната имплементация, която е донякъде реалистична. Проблемът е, че при NEON ако се опиташ да прочетеш вектор, който е извън адресното пространство, програмата ще крашне. Затова и единствения начин да се използват вектори е ако знаеш дължината на стринга. Не знам как е при avx2. Ако не ме домързи може да пробвам как е с SVE, но ще трябва да пускам Graviton3 instance-a си.
Между другото, двете ми mac mini пристигнаха та може да пробвам и със Streaming SVE като науча как да го използвам.
Но като цяло заниманието е безмислено защото задачата е безинтересна.

Тая задача е много сладка за х86 авх2 защото имаме инструкцията vpmovmskb, която взима най-старшият бит от всеки байт на умм регистъра и ги събира точно в 32 битов генерален регистър. В тази задача използвам този трик за да извлека резултата от сравнението с '\0', 's', и 'p', и да сведа решението до игра на 3 маски в генералните регистри. Мисля че няма еквивалент при неон. За SVE не знам. Но е доста приложима.

#127791

Дон Реба

Последно редактирано на 19.11.2024 от Дон Реба, видяно: 905 пъти.

мисля че с тая задача на всички съвременни системи ще измерите единствено скороста на паметта в текущото и настроение, не настройка, а точно настроение, женско. оня ден колежката ми звъни за някви артефакти в някакъв рендер. наложи се да РАБОТЯ, нещо рядко напоследък. натраках някакво решение, нещата се оправиха, но за съжаление скоростта падна. измерих втори път за по-точно - паднала още повече, и то драстично, 3 пъти спрямо кота нула. ушите ми съвсем клепнаха, но ми хрумна да ревъртна и да пусна пак тест на кота нула - показа същата паднала скорост. оказа се че фикса изобщо не забавя (тъй като само смята, но не вдига трансфера на памет), просто съвременните системи са толкова магически че един и същи код се изпълнява в драстично различни времена само заради "разджуркването" на паметта, подчертавам говорим за код който всеки път се стартира като чисто нов процес при нулева заетост на процесора, не просто 3 пъти да тествам в една сесия. така че тия прости тестове без упоменати детайли за борба с ефектите на магията са смешни, меренето на бързодействие днес не е фасулска работа

#127794

Реконструктор

Създадено на 19.11.2024 , видяно: 886 пъти.

Дон Реба
мисля че с тая задача на всички съвременни системи ще измерите единствено скороста на паметта в текущото и настроение, не настройка, а точно настроение, женско. оня ден колежката ми звъни за някви артефакти в някакъв рендер. наложи се да РАБОТЯ, нещо рядко напоследък. натраках някакво решение, нещата се оправиха, но за съжаление скоростта падна. измерих втори път за по-точно - паднала още повече, и то драстично, 3 пъти спрямо кота нула. ушите ми съвсем клепнаха, но ми хрумна да ревъртна и да пусна пак тест на кота нула - показа същата паднала скорост. оказа се че фикса изобщо не забавя (тъй като само смята, но не вдига трансфера на памет), просто съвременните системи са толкова магически че един и същи код се изпълнява в драстично различни времена само заради "разджуркването" на паметта, подчертавам говорим за код който всеки път се стартира като чисто нов процес при нулева заетост на процесора, не просто 3 пъти да тествам в една сесия. така че тия прости тестове без упоменати детайли за борба с ефектите на магията са смешни, меренето на бързодействие днес не е фасулска работа

Образовай се

#127795

Дон Реба

Създадено на 19.11.2024 , видяно: 885 пъти.

кога ще ти уври главата вместо да постваш линкове, да вадиш тефтера и да водиш записки , като корейски полковник пред прасчо?

#127801

Създадено на 19.11.2024 , видяно: 863 пъти.

Дон Реба
мисля че с тая задача на всички съвременни системи ще измерите единствено скороста на паметта в текущото и настроение, не настройка, а точно настроение, женско. оня ден колежката ми звъни за някви артефакти в някакъв рендер. наложи се да РАБОТЯ, нещо рядко напоследък. натраках някакво решение, нещата се оправиха, но за съжаление скоростта падна. измерих втори път за по-точно - паднала още повече, и то драстично, 3 пъти спрямо кота нула. ушите ми съвсем клепнаха, но ми хрумна да ревъртна и да пусна пак тест на кота нула - показа същата паднала скорост. оказа се че фикса изобщо не забавя (тъй като само смята, но не вдига трансфера на памет), просто съвременните системи са толкова магически че един и същи код се изпълнява в драстично различни времена само заради "разджуркването" на паметта, подчертавам говорим за код който всеки път се стартира като чисто нов процес при нулева заетост на процесора, не просто 3 пъти да тествам в една сесия. така че тия прости тестове без упоменати детайли за борба с ефектите на магията са смешни, меренето на бързодействие днес не е фасулска работа

Не знам как е с Windows, но не съм забелязал Линукс да страда от "раздьуркане" на паметта. Ако под "скоростта на паметта" имаш предвид конфигурацията и размерите на кешовете, определено си прав при сравнение на различни системи. Тестовия стринг е толкова малък, че се кешира целия не само в L3, но в случая с процесора на Апъл дори и в L2 кеша.

За една и съща система в общи линии определя колко добре работи branch predictor-a и колко добър код генерира компилатора.

П.П. Първия ми наивен опит със SME снощи беше неуспешен. Даде ми Illegal instruction, вероятно компилатора генерира SVE инструкции без smstart/smstop.

#127809

BIGBUGEX

Последно редактирано на 19.11.2024 от BIGBUGEX, видяно: 845 пъти.

Дон Реба
мисля че с тая задача на всички съвременни системи ще измерите единствено скороста на паметта в текущото и настроение, не настройка, а точно настроение, женско. оня ден колежката ми звъни за някви артефакти в някакъв рендер. наложи се да РАБОТЯ, нещо рядко напоследък. натраках някакво решение, нещата се оправиха, но за съжаление скоростта падна. измерих втори път за по-точно - паднала още повече, и то драстично, 3 пъти спрямо кота нула. ушите ми съвсем клепнаха, но ми хрумна да ревъртна и да пусна пак тест на кота нула - показа същата паднала скорост. оказа се че фикса изобщо не забавя (тъй като само смята, но не вдига трансфера на памет), просто съвременните системи са толкова магически че един и същи код се изпълнява в драстично различни времена само заради "разджуркването" на паметта, подчертавам говорим за код който всеки път се стартира като чисто нов процес при нулева заетост на процесора, не просто 3 пъти да тествам в една сесия. така че тия прости тестове без упоменати детайли за борба с ефектите на магията са смешни, меренето на бързодействие днес не е фасулска работа

Аз за това по принцип взимам минималното време, когато всичко е в кеша, един вид идеални обстоятелства. Примерно на 1000 повторения с едни и същи данни.