ぐだぐだ低レベルプログラミング(64) ARM64(AArch64)、シフト付きadd

Joseph Halfmoon

Armは６４ビット化するときに３２ビットであった「余計なもの」を捨ててます。しかしレジスタをシフトしてから演算という命令は捨てなかったです。アドレス計算などに便利なようでいて、実はそれほど頻繁に使う分けでもない命令（個人の感想です。）RISC-Vなどは持ってない類。もはやArmの伝統といっても良い機能かと。

※「ぐだぐだ低レベルプログラミング」投稿順indexはこちら

Armのレジスタ間の加算命令の場合、第２オペランドと第３オペランドを加算して第１オペランドに代入するのですが、第３オペランドについてはシフトとシフト量という指定をすることができます。シフトは

- 左論理シフト　LSL
- 右論理シフト　LSR
- 右算術シフト　ASR

とフル装備です。シフト量についても６ビット幅で指定可能なので６４ビットまでの第３オペランドレジスタをいかようにもシフト可能です。

なかなか便利に見えますが、実装上は１命令でバレルシフタを通してから演算してキャリーチェーンを通過させないとならないので物理的な遅延を考えると不利じゃないかと思います。オペランドをシフトしてから演算というシーケンスはシフト命令と演算命令の２ステップに分解して実行すれば良いだけなのでx86(x64)もRISC-Vもそうしている筈。しかしArmの場合、単なるAddはシフト量０のAddとして表現できるくらいで、シフト付きが基本であります。

以前作成した表の中で今回使用してみた命令を赤枠で囲みました。以下の部分。

なお、命令を記述するにあたって参照しているのはArm社の以下のドキュメントです。

Arm Architecture Reference Manual for A-profile architecture

アセンブラのソースコード

テスト用に実質、１命令１関数として、８関数を定義してみました。

- レジスタ幅は３２ビット（W）と６４ビット（X）の２通り
- シフトはLSL、LSR、ASRの３通り
- シフト量はLSLのみ０ビットと１ビットの２通り、他は１ビット

アセンブリ言語ソースが以下に。

.globl  addsftLLW0, addsftLLX0, addsftLLW1, addsftLLX1, addsftLRW1, addsftLRX1, addsftARW1, addsftARX1
.text
.balign 4

addsftLLW0:
        add             w0, w1, w2, LSL #0
        ret
addsftLLX0:
        add             x0, x1, x2, LSL #0
        ret
addsftLLW1:
        add             w0, w1, w2, LSL #1
        ret
addsftLLX1:
        add             x0, x1, x2, LSL #1
        ret
addsftLRW1:
        add             w0, w1, w2, LSR #1
        ret
addsftLRX1:
        add             x0, x1, x2, LSR #1
        ret
addsftARW1:
        add             w0, w1, w2, ASR #1
        ret
addsftARX1:
        add             x0, x1, x2, ASR #1
        ret

テスト用の上位のCソース

あいも変わらぬ、ぐだぐだのソースが以下に。

#include <stdio.h>

#define TSTV  (0xFFFFFFFF)

extern uint32_t addsftLLW0(uint32_t, uint32_t, uint32_t);
extern uint64_t addsftLLX0(uint64_t, uint64_t, uint64_t);
extern uint32_t addsftLLW1(uint32_t, uint32_t, uint32_t);
extern uint64_t addsftLLX1(uint64_t, uint64_t, uint64_t);
extern uint32_t addsftLRW1(uint32_t, uint32_t, uint32_t);
extern uint64_t addsftLRX1(uint64_t, uint64_t, uint64_t);
extern uint32_t addsftARW1(uint32_t, uint32_t, uint32_t);
extern uint64_t addsftARX1(uint64_t, uint64_t, uint64_t);

int main(void)
{
        uint32_t result;
        uint64_t resultX;

        result = addsftLLW0(0, 2, TSTV);
        printf("addsftLLW0 2+TSTV: %d\n", result);
        resultX = addsftLLX0(0, 2, TSTV);
        printf("addsftLLX0 2+TSTV: %lu\n", resultX);
        result = addsftLLW1(0, 2, TSTV);
        printf("addsftLLW1 2+TSTV<<1: %d\n", result);
        resultX = addsftLLX1(0, 2, TSTV);
        printf("addsftLLX1 2+TSTV<<1: %lu\n", resultX);
        result = addsftLRW1(0, 2, TSTV);
        printf("addsftLRW1 2+TSTV>>1: %d\n", result);
        resultX = addsftLRX1(0, 2, TSTV);
        printf("addsftLRX1 2+TSTV>>1: %lu\n", resultX);
        result = addsftARW1(0, 2, TSTV);
        printf("addsftARW1 2+TSTV>>1: %d\n", result);
        resultX = addsftARX1(0, 2, TSTV);
        printf("addsftARX1 2+TSTV>>1: %lu\n", resultX);

        return 0;
}

実機実行確認

実機での実行確認には例によって、普及価格帯のAndroidスマホ（Arm Cortex-A73/A53）を使用し、Termux環境にパソコンからSSH接続して行っています。Termux環境では、デフォルトでgccでなく、clang/llvmがインストール済だったので、そのまま clangでビルドしています。こんな感じ。

$ clang -g -O0 -o addsft addsft.c addsft.s

実行結果のキャプチャが以下に。

全ての命令の第２オペランドは２、第３オペランドは0xFFFFFFFFです。

最初の addsftLLW0 は、３２ビット幅演算でシフト量０で足しています。３２ビット幅でラップするので結果は１と。

２番目の addsftLLX0は、演算幅を６４ビットにしてみたもの。シフト量は０です。結果4294967297は、１６進0x100000001と。正常に繰り上がってますな。

３番目の addsftLLW1は、演算幅３２ビット、第３オペランドを左論理シフト１ビットしてから加算です。0xFFFFFFFFを左１ビットシフトすると0xFFFFFFFEになるので、それに２を足すとラップして０に戻ります。

４番目のaddsftLLX1は、上記の演算幅を６４ビットにした場合、ラップしないので、結果は0x1FFFFFFFE + 2 で8589934592。

５番目のaddsftLRW1は、第３オペランドを右１ビット論理シフトです。0x7FFFFFFF+2になるので、0x80000001が結果です。これをprintfで符号付き３２ビット値（％ｄ変換）すると-2147483647となります。

６番目のaddsftLRX1は、上記と同じものの６４ビット版です。６４ビットにすると符号ビットは無関係になるので、2147483649です。

７番目のaddsftARW1は、第３オペランドを右１ビット算術シフトです。１ビット算術シフトしても0xFFFFFFFFは変化しないので、３２ビット演算結果は第１と同じ１です。

８番目のaddsftARX1は、上記の６４ビット版です。第３オペランドを右１ビット算術シフトするのですが、32ビット幅の0xFFFFFFFFは「小さな正の数」なので符号は遥か上にありシフトの結果は0x7FFFFFFFです。結局６番目と同じ加算となるので結果は、2147483649です。

ひとあたりシフト付きの加算できましたかね。フラグに反映させる adds は前回やったのでパス。次回は符号付き、符号無の拡張に進みたいと思います。

ぐだぐた低レベルプログラミング(63) ARM64(AArch64)、フラグの観察 adds へ戻る

ぐだぐだ低レベルプログラミング(65) ARM64(AArch64)、レジスタ拡張付きadd へ進む

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31