small increment and fixes

2024-10-26 11:41:00 +02:00
parent ee3c5001bd
commit 0e24d74e54
3 changed files with 57 additions and 22 deletions
--- a/PTX_understanding.md
+++ b/PTX_understanding.md
@ -16,10 +16,10 @@ All Instructions: https://docs.nvidia.com/cuda/parallel-thread-execution/index.h
 )

 {
-	.reg .pred      %p<2>;		-> predicate registers: p1 (needed for branching)
-	.reg .f32       %f<4>; 		-> float registers: f1 - f3
-	.reg .b32       %r<6>; 		-> 32 bits registers: r1 - r5 (bits are actual raw bits without a type)
-	.reg .b64       %rd<11>; 	-> 64 bits registers: rd1 - rd10
+	.reg .pred      %p<2>;		-> predicate registers: p0, p1 (needed for branching)
+	.reg .f32       %f<4>; 		-> float registers: f0 - f3
+	.reg .b32       %r<6>; 		-> 32 bits registers: r0 - r5 (bits are actual raw bits without a type)
+	.reg .b64       %rd<11>; 	-> 64 bits registers: rd0 - rd10

 	ld.param.u64    %rd1, [VecAdd_kernel_param_0];	-> rd1 = Data1
 	ld.param.u64    %rd2, [VecAdd_kernel_param_1];	-> rd2 = Data2