ぐだぐだ低レベルプログラミング(146)ARM64(AArach64)SIMD カウント系

Joseph Halfmoon

前回ようやく２要素を演算した結果の要素のビット幅が変わる奴らをやっつけ終えました。今回から１要素を処理して１要素が得られる系統の命令に入ります。ともかく命令数が多いのでコマケー話は踏みつぶしてサッサと通り過ぎたい気でいるのですがどうなることか。その初回は「カウント系」です。クセさえ分かればどおってことない。ホントか？

※「ぐだぐだ低レベルプログラミング」投稿順indexはこちら

※実機動作確認には以下を使用しております。

- Raspberry Pi 4 model B、Cortex-A72コア(ARMv8-A)
- Raspberry Pi OS (64bit) bullseye
- gcc (Debian 10.2.1-6) 10.2.1 20210110

ARMv8もいろいろレベルがあり、Arm Cortex-A72はARMv8の中でもベーシックな（命令数の少ない）ARMv8p0です。

※A64の最新のマニュアルは以下でダウンロード可能です。

Arm Architecture Reference Manual for A-profile architecture

ソース１要素を処理してデスティネーション１要素に書き込む命令

この系統の代表選手は、平方根を求める

FSQRT

ではないかと思います。ソースの浮動小数１要素の平方根を求めてデスティネーションに書き込むもの。「ひとよひとよにひとみごろ」っとくらあ。まあSIMD演算なので要素の個数だけ並列に求めるわけでありますが。しかし、FSQRTのようなアリガチな命令ばかりではありません。今回とりあげますのはカウント系（ビット・カウント）の命令３種です。いずれも整数型の要素に対して要素内の「ビット数」を数えるもの。列挙すれば以下のとおり。

1. CLS、 Count leading sign bits
2. CLZ、 Count leading zero bits
3. CNT、 Population count per byte

「１」のCLSってのは何かい。符合ビットを数えるのだね。負の数なら先行する１のビット数を数えればよいな。正の数なら先行する０のビット数か。あれあれ「２」のCLZも先行するゼロのビット数じゃん！

違いは何かと言えば、例えば１バイト0x00をCLSとCLZで数えたときに分かります。CLSで数えると符号ビット（０）が７個、最後のビットは符合ビットではなく数本体ということになるみたいです。結果は７ね。一方CLZだとともかく先行するゼロの個数を数えるので結果は８。数え方が違うのよ。

その点「３」のCNT命令は１が立っているビットの数を数えるだけと明快。0x00相手なら０だ。

実験に使ったアセンブリ言語記述の被テスト関数

いつものように手抜きの関数プロローグ、エピローグ無の被テスト関数のソースが以下です。CNT命令はバイト幅のみですが、CLSとCLZはハーフワード、ワードもオペランドにとれます。ただしここではメンドイのでバイトのみです。またSIMDレジスタは６４ビット幅で使ってます。手抜きだよう。

.globl	cls8V, clz8V, cnt8V 
.text
.balign	4

cls8V:
    ld1  {v1.8B}, [x0], #8
    cls  v0.8B,  v1.8B
    st1  {v0.8H}, [x0]
    ret

clz8V:
    ld1  {v1.8B}, [x0], #8
    clz  v0.8B,  v1.8B
    st1  {v0.8H}, [x0]
    ret

cnt8V:
    ld1  {v1.8B}, [x0], #8
    cnt  v0.8B,  v1.8B
    st1  {v0.8H}, [x0]
    ret

C言語記述のmain関数

上記のアセンブリ言語関数を呼び出すmain関数が以下に。符号付き数でもCのレベルでは全てuint8_t型で書いているもの。

#include <stdio.h>
#include <stdint.h>

#define MAXMEM	(16)

uint8_t TargetMEM[MAXMEM];

extern void cls8V(uint8_t *);
extern void clz8V(uint8_t *);
extern void cnt8V(uint8_t *);

void initTGT() {
    TargetMEM[0]  = 0x00;
    TargetMEM[1]  = 0x01;
    TargetMEM[2]  = 0x02;
    TargetMEM[3]  = 0x03;
    TargetMEM[4]  = 0xFF;
    TargetMEM[5]  = 0xFE;
    TargetMEM[6]  = 0xFD;
    TargetMEM[7]  = 0xFC;
    TargetMEM[8]  = 0x00;
    TargetMEM[9]  = 0x00;
    TargetMEM[10] = 0x00;
    TargetMEM[11] = 0x00;
    TargetMEM[12] = 0x00;
    TargetMEM[13] = 0x00;
    TargetMEM[14] = 0x00;
    TargetMEM[15] = 0x00;
}


void dumpTGT(const char *arg) {
    printf("%s\n", arg);
    for (int i=0; i < 8; i++) {
        printf("%02d: 0x%02x -(%s)-> 0x%02x\n", i, TargetMEM[i], arg, TargetMEM[i+8]);
    }
}

int main(void) {
    initTGT();
    cls8V(TargetMEM);
    dumpTGT("cls");

    initTGT();
    clz8V(TargetMEM);
    dumpTGT("clz");

    initTGT();
    cnt8V(TargetMEM);
    dumpTGT("cnt");

    return 0;
}

実機実行結果の確認

以下のようにしてビルドして実行しています。

$ gcc -g -O0 simdcnt.c simdcnt.s
$ ./a.out

実行結果が以下に。

よかった、３種類のビットカウントをしてるみたい。実行してみれば分かり易い奴らだよ。

ぐだぐだ低レベルプログラミング(145)ARM64(AArach64)SIMD ビット幅変4　へ戻る

ぐだぐだ低レベルプログラミング(147)ARM64(AArach64)SIMD 符号系　へ進む

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31