diff options
author | Mounir IDRASSI <mounir.idrassi@idrix.fr> | 2017-06-20 17:43:35 +0200 |
---|---|---|
committer | Mounir IDRASSI <mounir.idrassi@idrix.fr> | 2017-06-21 01:39:55 +0200 |
commit | 70097ecfe54a9630e1e77fdc30204a5460228193 (patch) | |
tree | f43481a6ede0e0fcd81f8ba02006613d02d23032 /src/Crypto | |
parent | ee5c1784ea0ed1328f7607bf3ea619ef3bd96d03 (diff) | |
download | VeraCrypt-70097ecfe54a9630e1e77fdc30204a5460228193.tar.gz VeraCrypt-70097ecfe54a9630e1e77fdc30204a5460228193.zip |
Crypto: Add optimized Camellia assembly implementation for x86_64 based on work by Jussi Kivilinna (https://github.com/jkivilin/supercop-blockciphers). This improve speed by a factor of 2.5 when AES-NI supported by CPU and by 30% if AES-NI not supported.
Diffstat (limited to 'src/Crypto')
-rw-r--r-- | src/Crypto/Camellia.c | 1155 | ||||
-rw-r--r-- | src/Crypto/Camellia.h | 6 | ||||
-rw-r--r-- | src/Crypto/Camellia_aesni_x64.S | 841 | ||||
-rw-r--r-- | src/Crypto/Camellia_aesni_x86.S | 5 | ||||
-rw-r--r-- | src/Crypto/Camellia_x64.S | 339 | ||||
-rw-r--r-- | src/Crypto/Camellia_x86.S | 5 | ||||
-rw-r--r-- | src/Crypto/Crypto.vcxproj | 20 | ||||
-rw-r--r-- | src/Crypto/Crypto.vcxproj.filters | 12 | ||||
-rw-r--r-- | src/Crypto/Makefile.inc | 7 | ||||
-rw-r--r-- | src/Crypto/Sources | 9 | ||||
-rw-r--r-- | src/Crypto/cpu.c | 4 | ||||
-rw-r--r-- | src/Crypto/cpu.h | 4 |
12 files changed, 2395 insertions, 12 deletions
diff --git a/src/Crypto/Camellia.c b/src/Crypto/Camellia.c index c9f1e563..5bca2623 100644 --- a/src/Crypto/Camellia.c +++ b/src/Crypto/Camellia.c @@ -1,16 +1,1157 @@ +#include "Camellia.h" +#include "Common/Endian.h" +#include "Crypto/cpu.h" +#include "Crypto/misc.h" + +#if CRYPTOPP_BOOL_X64 + +/* camellia.c ver 1.2.0-x86_64_asm1.1 + * + * Copyright (c) 2006,2007 + * NTT (Nippon Telegraph and Telephone Corporation) . All rights reserved. + * + * SuperCop integration: + * Copyright © 2013 Jussi Kivilinna <jussi.kivilinna@iki.fi> + * + * VeraCrypt integration: + * Copyright © 2017 Mounir IDRASSI <mounir.idrassi@idrix.fr> + * + * Redistribution and use in source and binary forms, with or without + * modification, are permitted provided that the following conditions + * are met: + * 1. Redistributions of source code must retain the above copyright + * notice, this list of conditions and the following disclaimer as + * the first lines of this file unmodified. + * 2. Redistributions in binary form must reproduce the above copyright + * notice, this list of conditions and the following disclaimer in the + * documentation and/or other materials provided with the distribution. + * + * THIS SOFTWARE IS PROVIDED BY NTT ``AS IS'' AND ANY EXPRESS OR + * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES + * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. + * IN NO EVENT SHALL NTT BE LIABLE FOR ANY DIRECT, INDIRECT, + * INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT + * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, + * DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY + * THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT + * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF + * THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. + */ + /* -This code is written by kerukuro for cppcrypto library (http://cppcrypto.sourceforge.net/) -and released into public domain. -*/ + * Algorithm Specification + * http://info.isl.ntt.co.jp/crypt/eng/camellia/specifications.html + */ /* Adapted for VeraCrypt */ +#include "Common/Crypto.h" -#include "Camellia.h" -#include "Common/Endian.h" -#include "Crypto/misc.h" +#ifndef _WIN32 +extern int IsAesHwCpuSupported (); +#endif + +void camellia_encrypt_asm(const byte *ctx, void *dst, const void *src); +void camellia_decrypt_asm(const byte *ctx, void *dst, const void *src); +void camellia_enc_blk2(const byte *ctx, byte *dst, const byte *src); +void camellia_dec_blk2(const byte *ctx, byte *dst, const byte *src); +void camellia_ecb_enc_16way(const byte *ctx, byte *dst, const byte *src); +void camellia_ecb_dec_16way(const byte *ctx, byte *dst, const byte *src); + +/* key constants */ + +#define CAMELLIA_SIGMA1L (0xA09E667FL) +#define CAMELLIA_SIGMA1R (0x3BCC908BL) +#define CAMELLIA_SIGMA2L (0xB67AE858L) +#define CAMELLIA_SIGMA2R (0x4CAA73B2L) +#define CAMELLIA_SIGMA3L (0xC6EF372FL) +#define CAMELLIA_SIGMA3R (0xE94F82BEL) +#define CAMELLIA_SIGMA4L (0x54FF53A5L) +#define CAMELLIA_SIGMA4R (0xF1D36F1CL) +#define CAMELLIA_SIGMA5L (0x10E527FAL) +#define CAMELLIA_SIGMA5R (0xDE682D1DL) +#define CAMELLIA_SIGMA6L (0xB05688C2L) +#define CAMELLIA_SIGMA6R (0xB3E6C1FDL) + +/* + * macros + */ + + +# define GETU32(p) bswap_32(*((uint32 *)(p))) +# define PUTU32(ct, st) {*((uint32 *)(ct)) = bswap_32((st));} + +#define CamelliaSubkeyL(INDEX) (subkey[(INDEX)*2]) +#define CamelliaSubkeyR(INDEX) (subkey[(INDEX)*2 + 1]) + +/* rotation right shift 1byte */ +#define CAMELLIA_RR8(x) (((x) >> 8) + ((x) << 24)) +/* rotation left shift 1bit */ +#define CAMELLIA_RL1(x) (((x) << 1) + ((x) >> 31)) +/* rotation left shift 1byte */ +#define CAMELLIA_RL8(x) (((x) << 8) + ((x) >> 24)) + +#define CAMELLIA_ROLDQ(ll, lr, rl, rr, w0, w1, bits) \ + do { \ + w0 = ll; \ + ll = (ll << bits) + (lr >> (32 - bits)); \ + lr = (lr << bits) + (rl >> (32 - bits)); \ + rl = (rl << bits) + (rr >> (32 - bits)); \ + rr = (rr << bits) + (w0 >> (32 - bits)); \ + } while(0) + +#define CAMELLIA_ROLDQo32(ll, lr, rl, rr, w0, w1, bits) \ + do { \ + w0 = ll; \ + w1 = lr; \ + ll = (lr << (bits - 32)) + (rl >> (64 - bits)); \ + lr = (rl << (bits - 32)) + (rr >> (64 - bits)); \ + rl = (rr << (bits - 32)) + (w0 >> (64 - bits)); \ + rr = (w0 << (bits - 32)) + (w1 >> (64 - bits)); \ + } while(0) + +#define CAMELLIA_SP11101110(INDEX) (camellia_sp11101110[(INDEX)]) +#define CAMELLIA_SP02220222(INDEX) (camellia_sp02220222[(INDEX)]) +#define CAMELLIA_SP30333033(INDEX) (camellia_sp30333033[(INDEX)]) +#define CAMELLIA_SP44044404(INDEX) (camellia_sp44044404[(INDEX)]) + +#define CAMELLIA_SP10011110(INDEX) (camellia_sp10011110[(INDEX)]) +#define CAMELLIA_SP22000222(INDEX) (camellia_sp22000222[(INDEX)]) +#define CAMELLIA_SP03303033(INDEX) (camellia_sp03303033[(INDEX)]) +#define CAMELLIA_SP00444404(INDEX) (camellia_sp00444404[(INDEX)]) + +#define CAMELLIA_F(xl, xr, kl, kr, yl, yr, il, ir, t0, t1) \ + do { \ + uint64 __tmp; \ + il = xl ^ kl; \ + ir = xr ^ kr; \ + t0 = il >> 16; \ + t1 = ir >> 16; \ + __tmp = CAMELLIA_SP11101110(ir & 0xff) \ + ^ CAMELLIA_SP02220222((t1 >> 8) & 0xff) \ + ^ CAMELLIA_SP30333033(t1 & 0xff) \ + ^ CAMELLIA_SP44044404((ir >> 8) & 0xff) \ + ^ CAMELLIA_SP10011110((t0 >> 8) & 0xff) \ + ^ CAMELLIA_SP22000222(t0 & 0xff) \ + ^ CAMELLIA_SP03303033((il >> 8) & 0xff) \ + ^ CAMELLIA_SP00444404(il & 0xff); \ + yl = (uint32) __tmp; \ + yr = (uint32) (__tmp >> 32); \ + } while(0) + +const uint64 camellia_sp10011110[256] = { + 0x7000007070707000ULL, 0x8200008282828200ULL, 0x2c00002c2c2c2c00ULL, + 0xec0000ecececec00ULL, 0xb30000b3b3b3b300ULL, 0x2700002727272700ULL, + 0xc00000c0c0c0c000ULL, 0xe50000e5e5e5e500ULL, 0xe40000e4e4e4e400ULL, + 0x8500008585858500ULL, 0x5700005757575700ULL, 0x3500003535353500ULL, + 0xea0000eaeaeaea00ULL, 0x0c00000c0c0c0c00ULL, 0xae0000aeaeaeae00ULL, + 0x4100004141414100ULL, 0x2300002323232300ULL, 0xef0000efefefef00ULL, + 0x6b00006b6b6b6b00ULL, 0x9300009393939300ULL, 0x4500004545454500ULL, + 0x1900001919191900ULL, 0xa50000a5a5a5a500ULL, 0x2100002121212100ULL, + 0xed0000edededed00ULL, 0x0e00000e0e0e0e00ULL, 0x4f00004f4f4f4f00ULL, + 0x4e00004e4e4e4e00ULL, 0x1d00001d1d1d1d00ULL, 0x6500006565656500ULL, + 0x9200009292929200ULL, 0xbd0000bdbdbdbd00ULL, 0x8600008686868600ULL, + 0xb80000b8b8b8b800ULL, 0xaf0000afafafaf00ULL, 0x8f00008f8f8f8f00ULL, + 0x7c00007c7c7c7c00ULL, 0xeb0000ebebebeb00ULL, 0x1f00001f1f1f1f00ULL, + 0xce0000cececece00ULL, 0x3e00003e3e3e3e00ULL, 0x3000003030303000ULL, + 0xdc0000dcdcdcdc00ULL, 0x5f00005f5f5f5f00ULL, 0x5e00005e5e5e5e00ULL, + 0xc50000c5c5c5c500ULL, 0x0b00000b0b0b0b00ULL, 0x1a00001a1a1a1a00ULL, + 0xa60000a6a6a6a600ULL, 0xe10000e1e1e1e100ULL, 0x3900003939393900ULL, + 0xca0000cacacaca00ULL, 0xd50000d5d5d5d500ULL, 0x4700004747474700ULL, + 0x5d00005d5d5d5d00ULL, 0x3d00003d3d3d3d00ULL, 0xd90000d9d9d9d900ULL, + 0x0100000101010100ULL, 0x5a00005a5a5a5a00ULL, 0xd60000d6d6d6d600ULL, + 0x5100005151515100ULL, 0x5600005656565600ULL, 0x6c00006c6c6c6c00ULL, + 0x4d00004d4d4d4d00ULL, 0x8b00008b8b8b8b00ULL, 0x0d00000d0d0d0d00ULL, + 0x9a00009a9a9a9a00ULL, 0x6600006666666600ULL, 0xfb0000fbfbfbfb00ULL, + 0xcc0000cccccccc00ULL, 0xb00000b0b0b0b000ULL, 0x2d00002d2d2d2d00ULL, + 0x7400007474747400ULL, 0x1200001212121200ULL, 0x2b00002b2b2b2b00ULL, + 0x2000002020202000ULL, 0xf00000f0f0f0f000ULL, 0xb10000b1b1b1b100ULL, + 0x8400008484848400ULL, 0x9900009999999900ULL, 0xdf0000dfdfdfdf00ULL, + 0x4c00004c4c4c4c00ULL, 0xcb0000cbcbcbcb00ULL, 0xc20000c2c2c2c200ULL, + 0x3400003434343400ULL, 0x7e00007e7e7e7e00ULL, 0x7600007676767600ULL, + 0x0500000505050500ULL, 0x6d00006d6d6d6d00ULL, 0xb70000b7b7b7b700ULL, + 0xa90000a9a9a9a900ULL, 0x3100003131313100ULL, 0xd10000d1d1d1d100ULL, + 0x1700001717171700ULL, 0x0400000404040400ULL, 0xd70000d7d7d7d700ULL, + 0x1400001414141400ULL, 0x5800005858585800ULL, 0x3a00003a3a3a3a00ULL, + 0x6100006161616100ULL, 0xde0000dededede00ULL, 0x1b00001b1b1b1b00ULL, + 0x1100001111111100ULL, 0x1c00001c1c1c1c00ULL, 0x3200003232323200ULL, + 0x0f00000f0f0f0f00ULL, 0x9c00009c9c9c9c00ULL, 0x1600001616161600ULL, + 0x5300005353535300ULL, 0x1800001818181800ULL, 0xf20000f2f2f2f200ULL, + 0x2200002222222200ULL, 0xfe0000fefefefe00ULL, 0x4400004444444400ULL, + 0xcf0000cfcfcfcf00ULL, 0xb20000b2b2b2b200ULL, 0xc30000c3c3c3c300ULL, + 0xb50000b5b5b5b500ULL, 0x7a00007a7a7a7a00ULL, 0x9100009191919100ULL, + 0x2400002424242400ULL, 0x0800000808080800ULL, 0xe80000e8e8e8e800ULL, + 0xa80000a8a8a8a800ULL, 0x6000006060606000ULL, 0xfc0000fcfcfcfc00ULL, + 0x6900006969696900ULL, 0x5000005050505000ULL, 0xaa0000aaaaaaaa00ULL, + 0xd00000d0d0d0d000ULL, 0xa00000a0a0a0a000ULL, 0x7d00007d7d7d7d00ULL, + 0xa10000a1a1a1a100ULL, 0x8900008989898900ULL, 0x6200006262626200ULL, + 0x9700009797979700ULL, 0x5400005454545400ULL, 0x5b00005b5b5b5b00ULL, + 0x1e00001e1e1e1e00ULL, 0x9500009595959500ULL, 0xe00000e0e0e0e000ULL, + 0xff0000ffffffff00ULL, 0x6400006464646400ULL, 0xd20000d2d2d2d200ULL, + 0x1000001010101000ULL, 0xc40000c4c4c4c400ULL, 0x0000000000000000ULL, + 0x4800004848484800ULL, 0xa30000a3a3a3a300ULL, 0xf70000f7f7f7f700ULL, + 0x7500007575757500ULL, 0xdb0000dbdbdbdb00ULL, 0x8a00008a8a8a8a00ULL, + 0x0300000303030300ULL, 0xe60000e6e6e6e600ULL, 0xda0000dadadada00ULL, + 0x0900000909090900ULL, 0x3f00003f3f3f3f00ULL, 0xdd0000dddddddd00ULL, + 0x9400009494949400ULL, 0x8700008787878700ULL, 0x5c00005c5c5c5c00ULL, + 0x8300008383838300ULL, 0x0200000202020200ULL, 0xcd0000cdcdcdcd00ULL, + 0x4a00004a4a4a4a00ULL, 0x9000009090909000ULL, 0x3300003333333300ULL, + 0x7300007373737300ULL, 0x6700006767676700ULL, 0xf60000f6f6f6f600ULL, + 0xf30000f3f3f3f300ULL, 0x9d00009d9d9d9d00ULL, 0x7f00007f7f7f7f00ULL, + 0xbf0000bfbfbfbf00ULL, 0xe20000e2e2e2e200ULL, 0x5200005252525200ULL, + 0x9b00009b9b9b9b00ULL, 0xd80000d8d8d8d800ULL, 0x2600002626262600ULL, + 0xc80000c8c8c8c800ULL, 0x3700003737373700ULL, 0xc60000c6c6c6c600ULL, + 0x3b00003b3b3b3b00ULL, 0x8100008181818100ULL, 0x9600009696969600ULL, + 0x6f00006f6f6f6f00ULL, 0x4b00004b4b4b4b00ULL, 0x1300001313131300ULL, + 0xbe0000bebebebe00ULL, 0x6300006363636300ULL, 0x2e00002e2e2e2e00ULL, + 0xe90000e9e9e9e900ULL, 0x7900007979797900ULL, 0xa70000a7a7a7a700ULL, + 0x8c00008c8c8c8c00ULL, 0x9f00009f9f9f9f00ULL, 0x6e00006e6e6e6e00ULL, + 0xbc0000bcbcbcbc00ULL, 0x8e00008e8e8e8e00ULL, 0x2900002929292900ULL, + 0xf50000f5f5f5f500ULL, 0xf90000f9f9f9f900ULL, 0xb60000b6b6b6b600ULL, + 0x2f00002f2f2f2f00ULL, 0xfd0000fdfdfdfd00ULL, 0xb40000b4b4b4b400ULL, + 0x5900005959595900ULL, 0x7800007878787800ULL, 0x9800009898989800ULL, + 0x0600000606060600ULL, 0x6a00006a6a6a6a00ULL, 0xe70000e7e7e7e700ULL, + 0x4600004646464600ULL, 0x7100007171717100ULL, 0xba0000babababa00ULL, + 0xd40000d4d4d4d400ULL, 0x2500002525252500ULL, 0xab0000abababab00ULL, + 0x4200004242424200ULL, 0x8800008888888800ULL, 0xa20000a2a2a2a200ULL, + 0x8d00008d8d8d8d00ULL, 0xfa0000fafafafa00ULL, 0x7200007272727200ULL, + 0x0700000707070700ULL, 0xb90000b9b9b9b900ULL, 0x5500005555555500ULL, + 0xf80000f8f8f8f800ULL, 0xee0000eeeeeeee00ULL, 0xac0000acacacac00ULL, + 0x0a00000a0a0a0a00ULL, 0x3600003636363600ULL, 0x4900004949494900ULL, + 0x2a00002a2a2a2a00ULL, 0x6800006868686800ULL, 0x3c00003c3c3c3c00ULL, + 0x3800003838383800ULL, 0xf10000f1f1f1f100ULL, 0xa40000a4a4a4a400ULL, + 0x4000004040404000ULL, 0x2800002828282800ULL, 0xd30000d3d3d3d300ULL, + 0x7b00007b7b7b7b00ULL, 0xbb0000bbbbbbbb00ULL, 0xc90000c9c9c9c900ULL, + 0x4300004343434300ULL, 0xc10000c1c1c1c100ULL, 0x1500001515151500ULL, + 0xe30000e3e3e3e300ULL, 0xad0000adadadad00ULL, 0xf40000f4f4f4f400ULL, + 0x7700007777777700ULL, 0xc70000c7c7c7c700ULL, 0x8000008080808000ULL, + 0x9e00009e9e9e9e00ULL, +}; + +const uint64 camellia_sp22000222[256] = { + 0xe0e0000000e0e0e0ULL, 0x0505000000050505ULL, 0x5858000000585858ULL, + 0xd9d9000000d9d9d9ULL, 0x6767000000676767ULL, 0x4e4e0000004e4e4eULL, + 0x8181000000818181ULL, 0xcbcb000000cbcbcbULL, 0xc9c9000000c9c9c9ULL, + 0x0b0b0000000b0b0bULL, 0xaeae000000aeaeaeULL, 0x6a6a0000006a6a6aULL, + 0xd5d5000000d5d5d5ULL, 0x1818000000181818ULL, 0x5d5d0000005d5d5dULL, + 0x8282000000828282ULL, 0x4646000000464646ULL, 0xdfdf000000dfdfdfULL, + 0xd6d6000000d6d6d6ULL, 0x2727000000272727ULL, 0x8a8a0000008a8a8aULL, + 0x3232000000323232ULL, 0x4b4b0000004b4b4bULL, 0x4242000000424242ULL, + 0xdbdb000000dbdbdbULL, 0x1c1c0000001c1c1cULL, 0x9e9e0000009e9e9eULL, + 0x9c9c0000009c9c9cULL, 0x3a3a0000003a3a3aULL, 0xcaca000000cacacaULL, + 0x2525000000252525ULL, 0x7b7b0000007b7b7bULL, 0x0d0d0000000d0d0dULL, + 0x7171000000717171ULL, 0x5f5f0000005f5f5fULL, 0x1f1f0000001f1f1fULL, + 0xf8f8000000f8f8f8ULL, 0xd7d7000000d7d7d7ULL, 0x3e3e0000003e3e3eULL, + 0x9d9d0000009d9d9dULL, 0x7c7c0000007c7c7cULL, 0x6060000000606060ULL, + 0xb9b9000000b9b9b9ULL, 0xbebe000000bebebeULL, 0xbcbc000000bcbcbcULL, + 0x8b8b0000008b8b8bULL, 0x1616000000161616ULL, 0x3434000000343434ULL, + 0x4d4d0000004d4d4dULL, 0xc3c3000000c3c3c3ULL, 0x7272000000727272ULL, + 0x9595000000959595ULL, 0xabab000000abababULL, 0x8e8e0000008e8e8eULL, + 0xbaba000000bababaULL, 0x7a7a0000007a7a7aULL, 0xb3b3000000b3b3b3ULL, + 0x0202000000020202ULL, 0xb4b4000000b4b4b4ULL, 0xadad000000adadadULL, + 0xa2a2000000a2a2a2ULL, 0xacac000000acacacULL, 0xd8d8000000d8d8d8ULL, + 0x9a9a0000009a9a9aULL, 0x1717000000171717ULL, 0x1a1a0000001a1a1aULL, + 0x3535000000353535ULL, 0xcccc000000ccccccULL, 0xf7f7000000f7f7f7ULL, + 0x9999000000999999ULL, 0x6161000000616161ULL, 0x5a5a0000005a5a5aULL, + 0xe8e8000000e8e8e8ULL, 0x2424000000242424ULL, 0x5656000000565656ULL, + 0x4040000000404040ULL, 0xe1e1000000e1e1e1ULL, 0x6363000000636363ULL, + 0x0909000000090909ULL, 0x3333000000333333ULL, 0xbfbf000000bfbfbfULL, + 0x9898000000989898ULL, 0x9797000000979797ULL, 0x8585000000858585ULL, + 0x6868000000686868ULL, 0xfcfc000000fcfcfcULL, 0xecec000000ecececULL, + 0x0a0a0000000a0a0aULL, 0xdada000000dadadaULL, 0x6f6f0000006f6f6fULL, + 0x5353000000535353ULL, 0x6262000000626262ULL, 0xa3a3000000a3a3a3ULL, + 0x2e2e0000002e2e2eULL, 0x0808000000080808ULL, 0xafaf000000afafafULL, + 0x2828000000282828ULL, 0xb0b0000000b0b0b0ULL, 0x7474000000747474ULL, + 0xc2c2000000c2c2c2ULL, 0xbdbd000000bdbdbdULL, 0x3636000000363636ULL, + 0x2222000000222222ULL, 0x3838000000383838ULL, 0x6464000000646464ULL, + 0x1e1e0000001e1e1eULL, 0x3939000000393939ULL, 0x2c2c0000002c2c2cULL, + 0xa6a6000000a6a6a6ULL, 0x3030000000303030ULL, 0xe5e5000000e5e5e5ULL, + 0x4444000000444444ULL, 0xfdfd000000fdfdfdULL, 0x8888000000888888ULL, + 0x9f9f0000009f9f9fULL, 0x6565000000656565ULL, 0x8787000000878787ULL, + 0x6b6b0000006b6b6bULL, 0xf4f4000000f4f4f4ULL, 0x2323000000232323ULL, + 0x4848000000484848ULL, 0x1010000000101010ULL, 0xd1d1000000d1d1d1ULL, + 0x5151000000515151ULL, 0xc0c0000000c0c0c0ULL, 0xf9f9000000f9f9f9ULL, + 0xd2d2000000d2d2d2ULL, 0xa0a0000000a0a0a0ULL, 0x5555000000555555ULL, + 0xa1a1000000a1a1a1ULL, 0x4141000000414141ULL, 0xfafa000000fafafaULL, + 0x4343000000434343ULL, 0x1313000000131313ULL, 0xc4c4000000c4c4c4ULL, + 0x2f2f0000002f2f2fULL, 0xa8a8000000a8a8a8ULL, 0xb6b6000000b6b6b6ULL, + 0x3c3c0000003c3c3cULL, 0x2b2b0000002b2b2bULL, 0xc1c1000000c1c1c1ULL, + 0xffff000000ffffffULL, 0xc8c8000000c8c8c8ULL, 0xa5a5000000a5a5a5ULL, + 0x2020000000202020ULL, 0x8989000000898989ULL, 0x0000000000000000ULL, + 0x9090000000909090ULL, 0x4747000000474747ULL, 0xefef000000efefefULL, + 0xeaea000000eaeaeaULL, 0xb7b7000000b7b7b7ULL, 0x1515000000151515ULL, + 0x0606000000060606ULL, 0xcdcd000000cdcdcdULL, 0xb5b5000000b5b5b5ULL, + 0x1212000000121212ULL, 0x7e7e0000007e7e7eULL, 0xbbbb000000bbbbbbULL, + 0x2929000000292929ULL, 0x0f0f0000000f0f0fULL, 0xb8b8000000b8b8b8ULL, + 0x0707000000070707ULL, 0x0404000000040404ULL, 0x9b9b0000009b9b9bULL, + 0x9494000000949494ULL, 0x2121000000212121ULL, 0x6666000000666666ULL, + 0xe6e6000000e6e6e6ULL, 0xcece000000cececeULL, 0xeded000000edededULL, + 0xe7e7000000e7e7e7ULL, 0x3b3b0000003b3b3bULL, 0xfefe000000fefefeULL, + 0x7f7f0000007f7f7fULL, 0xc5c5000000c5c5c5ULL, 0xa4a4000000a4a4a4ULL, + 0x3737000000373737ULL, 0xb1b1000000b1b1b1ULL, 0x4c4c0000004c4c4cULL, + 0x9191000000919191ULL, 0x6e6e0000006e6e6eULL, 0x8d8d0000008d8d8dULL, + 0x7676000000767676ULL, 0x0303000000030303ULL, 0x2d2d0000002d2d2dULL, + 0xdede000000dededeULL, 0x9696000000969696ULL, 0x2626000000262626ULL, + 0x7d7d0000007d7d7dULL, 0xc6c6000000c6c6c6ULL, 0x5c5c0000005c5c5cULL, + 0xd3d3000000d3d3d3ULL, 0xf2f2000000f2f2f2ULL, 0x4f4f0000004f4f4fULL, + 0x1919000000191919ULL, 0x3f3f0000003f3f3fULL, 0xdcdc000000dcdcdcULL, + 0x7979000000797979ULL, 0x1d1d0000001d1d1dULL, 0x5252000000525252ULL, + 0xebeb000000ebebebULL, 0xf3f3000000f3f3f3ULL, 0x6d6d0000006d6d6dULL, + 0x5e5e0000005e5e5eULL, 0xfbfb000000fbfbfbULL, 0x6969000000696969ULL, + 0xb2b2000000b2b2b2ULL, 0xf0f0000000f0f0f0ULL, 0x3131000000313131ULL, + 0x0c0c0000000c0c0cULL, 0xd4d4000000d4d4d4ULL, 0xcfcf000000cfcfcfULL, + 0x8c8c0000008c8c8cULL, 0xe2e2000000e2e2e2ULL, 0x7575000000757575ULL, + 0xa9a9000000a9a9a9ULL, 0x4a4a0000004a4a4aULL, 0x5757000000575757ULL, + 0x8484000000848484ULL, 0x1111000000111111ULL, 0x4545000000454545ULL, + 0x1b1b0000001b1b1bULL, 0xf5f5000000f5f5f5ULL, 0xe4e4000000e4e4e4ULL, + 0x0e0e0000000e0e0eULL, 0x7373000000737373ULL, 0xaaaa000000aaaaaaULL, + 0xf1f1000000f1f1f1ULL, 0xdddd000000ddddddULL, 0x5959000000595959ULL, + 0x1414000000141414ULL, 0x6c6c0000006c6c6cULL, 0x9292000000929292ULL, + 0x5454000000545454ULL, 0xd0d0000000d0d0d0ULL, 0x7878000000787878ULL, + 0x7070000000707070ULL, 0xe3e3000000e3e3e3ULL, 0x4949000000494949ULL, + 0x8080000000808080ULL, 0x5050000000505050ULL, 0xa7a7000000a7a7a7ULL, + 0xf6f6000000f6f6f6ULL, 0x7777000000777777ULL, 0x9393000000939393ULL, + 0x8686000000868686ULL, 0x8383000000838383ULL, 0x2a2a0000002a2a2aULL, + 0xc7c7000000c7c7c7ULL, 0x5b5b0000005b5b5bULL, 0xe9e9000000e9e9e9ULL, + 0xeeee000000eeeeeeULL, 0x8f8f0000008f8f8fULL, 0x0101000000010101ULL, + 0x3d3d0000003d3d3dULL, +}; + +const uint64 camellia_sp03303033[256] = { + 0x0038380038003838ULL, 0x0041410041004141ULL, 0x0016160016001616ULL, + 0x0076760076007676ULL, 0x00d9d900d900d9d9ULL, 0x0093930093009393ULL, + 0x0060600060006060ULL, 0x00f2f200f200f2f2ULL, 0x0072720072007272ULL, + 0x00c2c200c200c2c2ULL, 0x00abab00ab00ababULL, 0x009a9a009a009a9aULL, + 0x0075750075007575ULL, 0x0006060006000606ULL, 0x0057570057005757ULL, + 0x00a0a000a000a0a0ULL, 0x0091910091009191ULL, 0x00f7f700f700f7f7ULL, + 0x00b5b500b500b5b5ULL, 0x00c9c900c900c9c9ULL, 0x00a2a200a200a2a2ULL, + 0x008c8c008c008c8cULL, 0x00d2d200d200d2d2ULL, 0x0090900090009090ULL, + 0x00f6f600f600f6f6ULL, 0x0007070007000707ULL, 0x00a7a700a700a7a7ULL, + 0x0027270027002727ULL, 0x008e8e008e008e8eULL, 0x00b2b200b200b2b2ULL, + 0x0049490049004949ULL, 0x00dede00de00dedeULL, 0x0043430043004343ULL, + 0x005c5c005c005c5cULL, 0x00d7d700d700d7d7ULL, 0x00c7c700c700c7c7ULL, + 0x003e3e003e003e3eULL, 0x00f5f500f500f5f5ULL, 0x008f8f008f008f8fULL, + 0x0067670067006767ULL, 0x001f1f001f001f1fULL, 0x0018180018001818ULL, + 0x006e6e006e006e6eULL, 0x00afaf00af00afafULL, 0x002f2f002f002f2fULL, + 0x00e2e200e200e2e2ULL, 0x0085850085008585ULL, 0x000d0d000d000d0dULL, + 0x0053530053005353ULL, 0x00f0f000f000f0f0ULL, 0x009c9c009c009c9cULL, + 0x0065650065006565ULL, 0x00eaea00ea00eaeaULL, 0x00a3a300a300a3a3ULL, + 0x00aeae00ae00aeaeULL, 0x009e9e009e009e9eULL, 0x00ecec00ec00ececULL, + 0x0080800080008080ULL, 0x002d2d002d002d2dULL, 0x006b6b006b006b6bULL, + 0x00a8a800a800a8a8ULL, 0x002b2b002b002b2bULL, 0x0036360036003636ULL, + 0x00a6a600a600a6a6ULL, 0x00c5c500c500c5c5ULL, 0x0086860086008686ULL, + 0x004d4d004d004d4dULL, 0x0033330033003333ULL, 0x00fdfd00fd00fdfdULL, + 0x0066660066006666ULL, 0x0058580058005858ULL, 0x0096960096009696ULL, + 0x003a3a003a003a3aULL, 0x0009090009000909ULL, 0x0095950095009595ULL, + 0x0010100010001010ULL, 0x0078780078007878ULL, 0x00d8d800d800d8d8ULL, + 0x0042420042004242ULL, 0x00cccc00cc00ccccULL, 0x00efef00ef00efefULL, + 0x0026260026002626ULL, 0x00e5e500e500e5e5ULL, 0x0061610061006161ULL, + 0x001a1a001a001a1aULL, 0x003f3f003f003f3fULL, 0x003b3b003b003b3bULL, + 0x0082820082008282ULL, 0x00b6b600b600b6b6ULL, 0x00dbdb00db00dbdbULL, + 0x00d4d400d400d4d4ULL, 0x0098980098009898ULL, 0x00e8e800e800e8e8ULL, + 0x008b8b008b008b8bULL, 0x0002020002000202ULL, 0x00ebeb00eb00ebebULL, + 0x000a0a000a000a0aULL, 0x002c2c002c002c2cULL, 0x001d1d001d001d1dULL, + 0x00b0b000b000b0b0ULL, 0x006f6f006f006f6fULL, 0x008d8d008d008d8dULL, + 0x0088880088008888ULL, 0x000e0e000e000e0eULL, 0x0019190019001919ULL, + 0x0087870087008787ULL, 0x004e4e004e004e4eULL, 0x000b0b000b000b0bULL, + 0x00a9a900a900a9a9ULL, 0x000c0c000c000c0cULL, 0x0079790079007979ULL, + 0x0011110011001111ULL, 0x007f7f007f007f7fULL, 0x0022220022002222ULL, + 0x00e7e700e700e7e7ULL, 0x0059590059005959ULL, 0x00e1e100e100e1e1ULL, + 0x00dada00da00dadaULL, 0x003d3d003d003d3dULL, 0x00c8c800c800c8c8ULL, + 0x0012120012001212ULL, 0x0004040004000404ULL, 0x0074740074007474ULL, + 0x0054540054005454ULL, 0x0030300030003030ULL, 0x007e7e007e007e7eULL, + 0x00b4b400b400b4b4ULL, 0x0028280028002828ULL, 0x0055550055005555ULL, + 0x0068680068006868ULL, 0x0050500050005050ULL, 0x00bebe00be00bebeULL, + 0x00d0d000d000d0d0ULL, 0x00c4c400c400c4c4ULL, 0x0031310031003131ULL, + 0x00cbcb00cb00cbcbULL, 0x002a2a002a002a2aULL, 0x00adad00ad00adadULL, + 0x000f0f000f000f0fULL, 0x00caca00ca00cacaULL, 0x0070700070007070ULL, + 0x00ffff00ff00ffffULL, 0x0032320032003232ULL, 0x0069690069006969ULL, + 0x0008080008000808ULL, 0x0062620062006262ULL, 0x0000000000000000ULL, + 0x0024240024002424ULL, 0x00d1d100d100d1d1ULL, 0x00fbfb00fb00fbfbULL, + 0x00baba00ba00babaULL, 0x00eded00ed00ededULL, 0x0045450045004545ULL, + 0x0081810081008181ULL, 0x0073730073007373ULL, 0x006d6d006d006d6dULL, + 0x0084840084008484ULL, 0x009f9f009f009f9fULL, 0x00eeee00ee00eeeeULL, + 0x004a4a004a004a4aULL, 0x00c3c300c300c3c3ULL, 0x002e2e002e002e2eULL, + 0x00c1c100c100c1c1ULL, 0x0001010001000101ULL, 0x00e6e600e600e6e6ULL, + 0x0025250025002525ULL, 0x0048480048004848ULL, 0x0099990099009999ULL, + 0x00b9b900b900b9b9ULL, 0x00b3b300b300b3b3ULL, 0x007b7b007b007b7bULL, + 0x00f9f900f900f9f9ULL, 0x00cece00ce00ceceULL, 0x00bfbf00bf00bfbfULL, + 0x00dfdf00df00dfdfULL, 0x0071710071007171ULL, 0x0029290029002929ULL, + 0x00cdcd00cd00cdcdULL, 0x006c6c006c006c6cULL, 0x0013130013001313ULL, + 0x0064640064006464ULL, 0x009b9b009b009b9bULL, 0x0063630063006363ULL, + 0x009d9d009d009d9dULL, 0x00c0c000c000c0c0ULL, 0x004b4b004b004b4bULL, + 0x00b7b700b700b7b7ULL, 0x00a5a500a500a5a5ULL, 0x0089890089008989ULL, + 0x005f5f005f005f5fULL, 0x00b1b100b100b1b1ULL, 0x0017170017001717ULL, + 0x00f4f400f400f4f4ULL, 0x00bcbc00bc00bcbcULL, 0x00d3d300d300d3d3ULL, + 0x0046460046004646ULL, 0x00cfcf00cf00cfcfULL, 0x0037370037003737ULL, + 0x005e5e005e005e5eULL, 0x0047470047004747ULL, 0x0094940094009494ULL, + 0x00fafa00fa00fafaULL, 0x00fcfc00fc00fcfcULL, 0x005b5b005b005b5bULL, + 0x0097970097009797ULL, 0x00fefe00fe00fefeULL, 0x005a5a005a005a5aULL, + 0x00acac00ac00acacULL, 0x003c3c003c003c3cULL, 0x004c4c004c004c4cULL, + 0x0003030003000303ULL, 0x0035350035003535ULL, 0x00f3f300f300f3f3ULL, + 0x0023230023002323ULL, 0x00b8b800b800b8b8ULL, 0x005d5d005d005d5dULL, + 0x006a6a006a006a6aULL, 0x0092920092009292ULL, 0x00d5d500d500d5d5ULL, + 0x0021210021002121ULL, 0x0044440044004444ULL, 0x0051510051005151ULL, + 0x00c6c600c600c6c6ULL, 0x007d7d007d007d7dULL, 0x0039390039003939ULL, + 0x0083830083008383ULL, 0x00dcdc00dc00dcdcULL, 0x00aaaa00aa00aaaaULL, + 0x007c7c007c007c7cULL, 0x0077770077007777ULL, 0x0056560056005656ULL, + 0x0005050005000505ULL, 0x001b1b001b001b1bULL, 0x00a4a400a400a4a4ULL, + 0x0015150015001515ULL, 0x0034340034003434ULL, 0x001e1e001e001e1eULL, + 0x001c1c001c001c1cULL, 0x00f8f800f800f8f8ULL, 0x0052520052005252ULL, + 0x0020200020002020ULL, 0x0014140014001414ULL, 0x00e9e900e900e9e9ULL, + 0x00bdbd00bd00bdbdULL, 0x00dddd00dd00ddddULL, 0x00e4e400e400e4e4ULL, + 0x00a1a100a100a1a1ULL, 0x00e0e000e000e0e0ULL, 0x008a8a008a008a8aULL, + 0x00f1f100f100f1f1ULL, 0x00d6d600d600d6d6ULL, 0x007a7a007a007a7aULL, + 0x00bbbb00bb00bbbbULL, 0x00e3e300e300e3e3ULL, 0x0040400040004040ULL, + 0x004f4f004f004f4fULL, +}; + +const uint64 camellia_sp00444404[256] = { + 0x0000707070700070ULL, 0x00002c2c2c2c002cULL, 0x0000b3b3b3b300b3ULL, + 0x0000c0c0c0c000c0ULL, 0x0000e4e4e4e400e4ULL, 0x0000575757570057ULL, + 0x0000eaeaeaea00eaULL, 0x0000aeaeaeae00aeULL, 0x0000232323230023ULL, + 0x00006b6b6b6b006bULL, 0x0000454545450045ULL, 0x0000a5a5a5a500a5ULL, + 0x0000edededed00edULL, 0x00004f4f4f4f004fULL, 0x00001d1d1d1d001dULL, + 0x0000929292920092ULL, 0x0000868686860086ULL, 0x0000afafafaf00afULL, + 0x00007c7c7c7c007cULL, 0x00001f1f1f1f001fULL, 0x00003e3e3e3e003eULL, + 0x0000dcdcdcdc00dcULL, 0x00005e5e5e5e005eULL, 0x00000b0b0b0b000bULL, + 0x0000a6a6a6a600a6ULL, 0x0000393939390039ULL, 0x0000d5d5d5d500d5ULL, + 0x00005d5d5d5d005dULL, 0x0000d9d9d9d900d9ULL, 0x00005a5a5a5a005aULL, + 0x0000515151510051ULL, 0x00006c6c6c6c006cULL, 0x00008b8b8b8b008bULL, + 0x00009a9a9a9a009aULL, 0x0000fbfbfbfb00fbULL, 0x0000b0b0b0b000b0ULL, + 0x0000747474740074ULL, 0x00002b2b2b2b002bULL, 0x0000f0f0f0f000f0ULL, + 0x0000848484840084ULL, 0x0000dfdfdfdf00dfULL, 0x0000cbcbcbcb00cbULL, + 0x0000343434340034ULL, 0x0000767676760076ULL, 0x00006d6d6d6d006dULL, + 0x0000a9a9a9a900a9ULL, 0x0000d1d1d1d100d1ULL, 0x0000040404040004ULL, + 0x0000141414140014ULL, 0x00003a3a3a3a003aULL, 0x0000dededede00deULL, + 0x0000111111110011ULL, 0x0000323232320032ULL, 0x00009c9c9c9c009cULL, + 0x0000535353530053ULL, 0x0000f2f2f2f200f2ULL, 0x0000fefefefe00feULL, + 0x0000cfcfcfcf00cfULL, 0x0000c3c3c3c300c3ULL, 0x00007a7a7a7a007aULL, + 0x0000242424240024ULL, 0x0000e8e8e8e800e8ULL, 0x0000606060600060ULL, + 0x0000696969690069ULL, 0x0000aaaaaaaa00aaULL, 0x0000a0a0a0a000a0ULL, + 0x0000a1a1a1a100a1ULL, 0x0000626262620062ULL, 0x0000545454540054ULL, + 0x00001e1e1e1e001eULL, 0x0000e0e0e0e000e0ULL, 0x0000646464640064ULL, + 0x0000101010100010ULL, 0x0000000000000000ULL, 0x0000a3a3a3a300a3ULL, + 0x0000757575750075ULL, 0x00008a8a8a8a008aULL, 0x0000e6e6e6e600e6ULL, + 0x0000090909090009ULL, 0x0000dddddddd00ddULL, 0x0000878787870087ULL, + 0x0000838383830083ULL, 0x0000cdcdcdcd00cdULL, 0x0000909090900090ULL, + 0x0000737373730073ULL, 0x0000f6f6f6f600f6ULL, 0x00009d9d9d9d009dULL, + 0x0000bfbfbfbf00bfULL, 0x0000525252520052ULL, 0x0000d8d8d8d800d8ULL, + 0x0000c8c8c8c800c8ULL, 0x0000c6c6c6c600c6ULL, 0x0000818181810081ULL, + 0x00006f6f6f6f006fULL, 0x0000131313130013ULL, 0x0000636363630063ULL, + 0x0000e9e9e9e900e9ULL, 0x0000a7a7a7a700a7ULL, 0x00009f9f9f9f009fULL, + 0x0000bcbcbcbc00bcULL, 0x0000292929290029ULL, 0x0000f9f9f9f900f9ULL, + 0x00002f2f2f2f002fULL, 0x0000b4b4b4b400b4ULL, 0x0000787878780078ULL, + 0x0000060606060006ULL, 0x0000e7e7e7e700e7ULL, 0x0000717171710071ULL, + 0x0000d4d4d4d400d4ULL, 0x0000abababab00abULL, 0x0000888888880088ULL, + 0x00008d8d8d8d008dULL, 0x0000727272720072ULL, 0x0000b9b9b9b900b9ULL, + 0x0000f8f8f8f800f8ULL, 0x0000acacacac00acULL, 0x0000363636360036ULL, + 0x00002a2a2a2a002aULL, 0x00003c3c3c3c003cULL, 0x0000f1f1f1f100f1ULL, + 0x0000404040400040ULL, 0x0000d3d3d3d300d3ULL, 0x0000bbbbbbbb00bbULL, + 0x0000434343430043ULL, 0x0000151515150015ULL, 0x0000adadadad00adULL, + 0x0000777777770077ULL, 0x0000808080800080ULL, 0x0000828282820082ULL, + 0x0000ecececec00ecULL, 0x0000272727270027ULL, 0x0000e5e5e5e500e5ULL, + 0x0000858585850085ULL, 0x0000353535350035ULL, 0x00000c0c0c0c000cULL, + 0x0000414141410041ULL, 0x0000efefefef00efULL, 0x0000939393930093ULL, + 0x0000191919190019ULL, 0x0000212121210021ULL, 0x00000e0e0e0e000eULL, + 0x00004e4e4e4e004eULL, 0x0000656565650065ULL, 0x0000bdbdbdbd00bdULL, + 0x0000b8b8b8b800b8ULL, 0x00008f8f8f8f008fULL, 0x0000ebebebeb00ebULL, + 0x0000cececece00ceULL, 0x0000303030300030ULL, 0x00005f5f5f5f005fULL, + 0x0000c5c5c5c500c5ULL, 0x00001a1a1a1a001aULL, 0x0000e1e1e1e100e1ULL, + 0x0000cacacaca00caULL, 0x0000474747470047ULL, 0x00003d3d3d3d003dULL, + 0x0000010101010001ULL, 0x0000d6d6d6d600d6ULL, 0x0000565656560056ULL, + 0x00004d4d4d4d004dULL, 0x00000d0d0d0d000dULL, 0x0000666666660066ULL, + 0x0000cccccccc00ccULL, 0x00002d2d2d2d002dULL, 0x0000121212120012ULL, + 0x0000202020200020ULL, 0x0000b1b1b1b100b1ULL, 0x0000999999990099ULL, + 0x00004c4c4c4c004cULL, 0x0000c2c2c2c200c2ULL, 0x00007e7e7e7e007eULL, + 0x0000050505050005ULL, 0x0000b7b7b7b700b7ULL, 0x0000313131310031ULL, + 0x0000171717170017ULL, 0x0000d7d7d7d700d7ULL, 0x0000585858580058ULL, + 0x0000616161610061ULL, 0x00001b1b1b1b001bULL, 0x00001c1c1c1c001cULL, + 0x00000f0f0f0f000fULL, 0x0000161616160016ULL, 0x0000181818180018ULL, + 0x0000222222220022ULL, 0x0000444444440044ULL, 0x0000b2b2b2b200b2ULL, + 0x0000b5b5b5b500b5ULL, 0x0000919191910091ULL, 0x0000080808080008ULL, + 0x0000a8a8a8a800a8ULL, 0x0000fcfcfcfc00fcULL, 0x0000505050500050ULL, + 0x0000d0d0d0d000d0ULL, 0x00007d7d7d7d007dULL, 0x0000898989890089ULL, + 0x0000979797970097ULL, 0x00005b5b5b5b005bULL, 0x0000959595950095ULL, + 0x0000ffffffff00ffULL, 0x0000d2d2d2d200d2ULL, 0x0000c4c4c4c400c4ULL, + 0x0000484848480048ULL, 0x0000f7f7f7f700f7ULL, 0x0000dbdbdbdb00dbULL, + 0x0000030303030003ULL, 0x0000dadadada00daULL, 0x00003f3f3f3f003fULL, + 0x0000949494940094ULL, 0x00005c5c5c5c005cULL, 0x0000020202020002ULL, + 0x00004a4a4a4a004aULL, 0x0000333333330033ULL, 0x0000676767670067ULL, + 0x0000f3f3f3f300f3ULL, 0x00007f7f7f7f007fULL, 0x0000e2e2e2e200e2ULL, + 0x00009b9b9b9b009bULL, 0x0000262626260026ULL, 0x0000373737370037ULL, + 0x00003b3b3b3b003bULL, 0x0000969696960096ULL, 0x00004b4b4b4b004bULL, + 0x0000bebebebe00beULL, 0x00002e2e2e2e002eULL, 0x0000797979790079ULL, + 0x00008c8c8c8c008cULL, 0x00006e6e6e6e006eULL, 0x00008e8e8e8e008eULL, + 0x0000f5f5f5f500f5ULL, 0x0000b6b6b6b600b6ULL, 0x0000fdfdfdfd00fdULL, + 0x0000595959590059ULL, 0x0000989898980098ULL, 0x00006a6a6a6a006aULL, + 0x0000464646460046ULL, 0x0000babababa00baULL, 0x0000252525250025ULL, + 0x0000424242420042ULL, 0x0000a2a2a2a200a2ULL, 0x0000fafafafa00faULL, + 0x0000070707070007ULL, 0x0000555555550055ULL, 0x0000eeeeeeee00eeULL, + 0x00000a0a0a0a000aULL, 0x0000494949490049ULL, 0x0000686868680068ULL, + 0x0000383838380038ULL, 0x0000a4a4a4a400a4ULL, 0x0000282828280028ULL, + 0x00007b7b7b7b007bULL, 0x0000c9c9c9c900c9ULL, 0x0000c1c1c1c100c1ULL, + 0x0000e3e3e3e300e3ULL, 0x0000f4f4f4f400f4ULL, 0x0000c7c7c7c700c7ULL, + 0x00009e9e9e9e009eULL, +}; + +const uint64 camellia_sp02220222[256] = { + 0x00e0e0e000e0e0e0ULL, 0x0005050500050505ULL, 0x0058585800585858ULL, + 0x00d9d9d900d9d9d9ULL, 0x0067676700676767ULL, 0x004e4e4e004e4e4eULL, + 0x0081818100818181ULL, 0x00cbcbcb00cbcbcbULL, 0x00c9c9c900c9c9c9ULL, + 0x000b0b0b000b0b0bULL, 0x00aeaeae00aeaeaeULL, 0x006a6a6a006a6a6aULL, + 0x00d5d5d500d5d5d5ULL, 0x0018181800181818ULL, 0x005d5d5d005d5d5dULL, + 0x0082828200828282ULL, 0x0046464600464646ULL, 0x00dfdfdf00dfdfdfULL, + 0x00d6d6d600d6d6d6ULL, 0x0027272700272727ULL, 0x008a8a8a008a8a8aULL, + 0x0032323200323232ULL, 0x004b4b4b004b4b4bULL, 0x0042424200424242ULL, + 0x00dbdbdb00dbdbdbULL, 0x001c1c1c001c1c1cULL, 0x009e9e9e009e9e9eULL, + 0x009c9c9c009c9c9cULL, 0x003a3a3a003a3a3aULL, 0x00cacaca00cacacaULL, + 0x0025252500252525ULL, 0x007b7b7b007b7b7bULL, 0x000d0d0d000d0d0dULL, + 0x0071717100717171ULL, 0x005f5f5f005f5f5fULL, 0x001f1f1f001f1f1fULL, + 0x00f8f8f800f8f8f8ULL, 0x00d7d7d700d7d7d7ULL, 0x003e3e3e003e3e3eULL, + 0x009d9d9d009d9d9dULL, 0x007c7c7c007c7c7cULL, 0x0060606000606060ULL, + 0x00b9b9b900b9b9b9ULL, 0x00bebebe00bebebeULL, 0x00bcbcbc00bcbcbcULL, + 0x008b8b8b008b8b8bULL, 0x0016161600161616ULL, 0x0034343400343434ULL, + 0x004d4d4d004d4d4dULL, 0x00c3c3c300c3c3c3ULL, 0x0072727200727272ULL, + 0x0095959500959595ULL, 0x00ababab00abababULL, 0x008e8e8e008e8e8eULL, + 0x00bababa00bababaULL, 0x007a7a7a007a7a7aULL, 0x00b3b3b300b3b3b3ULL, + 0x0002020200020202ULL, 0x00b4b4b400b4b4b4ULL, 0x00adadad00adadadULL, + 0x00a2a2a200a2a2a2ULL, 0x00acacac00acacacULL, 0x00d8d8d800d8d8d8ULL, + 0x009a9a9a009a9a9aULL, 0x0017171700171717ULL, 0x001a1a1a001a1a1aULL, + 0x0035353500353535ULL, 0x00cccccc00ccccccULL, 0x00f7f7f700f7f7f7ULL, + 0x0099999900999999ULL, 0x0061616100616161ULL, 0x005a5a5a005a5a5aULL, + 0x00e8e8e800e8e8e8ULL, 0x0024242400242424ULL, 0x0056565600565656ULL, + 0x0040404000404040ULL, 0x00e1e1e100e1e1e1ULL, 0x0063636300636363ULL, + 0x0009090900090909ULL, 0x0033333300333333ULL, 0x00bfbfbf00bfbfbfULL, + 0x0098989800989898ULL, 0x0097979700979797ULL, 0x0085858500858585ULL, + 0x0068686800686868ULL, 0x00fcfcfc00fcfcfcULL, 0x00ececec00ecececULL, + 0x000a0a0a000a0a0aULL, 0x00dadada00dadadaULL, 0x006f6f6f006f6f6fULL, + 0x0053535300535353ULL, 0x0062626200626262ULL, 0x00a3a3a300a3a3a3ULL, + 0x002e2e2e002e2e2eULL, 0x0008080800080808ULL, 0x00afafaf00afafafULL, + 0x0028282800282828ULL, 0x00b0b0b000b0b0b0ULL, 0x0074747400747474ULL, + 0x00c2c2c200c2c2c2ULL, 0x00bdbdbd00bdbdbdULL, 0x0036363600363636ULL, + 0x0022222200222222ULL, 0x0038383800383838ULL, 0x0064646400646464ULL, + 0x001e1e1e001e1e1eULL, 0x0039393900393939ULL, 0x002c2c2c002c2c2cULL, + 0x00a6a6a600a6a6a6ULL, 0x0030303000303030ULL, 0x00e5e5e500e5e5e5ULL, + 0x0044444400444444ULL, 0x00fdfdfd00fdfdfdULL, 0x0088888800888888ULL, + 0x009f9f9f009f9f9fULL, 0x0065656500656565ULL, 0x0087878700878787ULL, + 0x006b6b6b006b6b6bULL, 0x00f4f4f400f4f4f4ULL, 0x0023232300232323ULL, + 0x0048484800484848ULL, 0x0010101000101010ULL, 0x00d1d1d100d1d1d1ULL, + 0x0051515100515151ULL, 0x00c0c0c000c0c0c0ULL, 0x00f9f9f900f9f9f9ULL, + 0x00d2d2d200d2d2d2ULL, 0x00a0a0a000a0a0a0ULL, 0x0055555500555555ULL, + 0x00a1a1a100a1a1a1ULL, 0x0041414100414141ULL, 0x00fafafa00fafafaULL, + 0x0043434300434343ULL, 0x0013131300131313ULL, 0x00c4c4c400c4c4c4ULL, + 0x002f2f2f002f2f2fULL, 0x00a8a8a800a8a8a8ULL, 0x00b6b6b600b6b6b6ULL, + 0x003c3c3c003c3c3cULL, 0x002b2b2b002b2b2bULL, 0x00c1c1c100c1c1c1ULL, + 0x00ffffff00ffffffULL, 0x00c8c8c800c8c8c8ULL, 0x00a5a5a500a5a5a5ULL, + 0x0020202000202020ULL, 0x0089898900898989ULL, 0x0000000000000000ULL, + 0x0090909000909090ULL, 0x0047474700474747ULL, 0x00efefef00efefefULL, + 0x00eaeaea00eaeaeaULL, 0x00b7b7b700b7b7b7ULL, 0x0015151500151515ULL, + 0x0006060600060606ULL, 0x00cdcdcd00cdcdcdULL, 0x00b5b5b500b5b5b5ULL, + 0x0012121200121212ULL, 0x007e7e7e007e7e7eULL, 0x00bbbbbb00bbbbbbULL, + 0x0029292900292929ULL, 0x000f0f0f000f0f0fULL, 0x00b8b8b800b8b8b8ULL, + 0x0007070700070707ULL, 0x0004040400040404ULL, 0x009b9b9b009b9b9bULL, + 0x0094949400949494ULL, 0x0021212100212121ULL, 0x0066666600666666ULL, + 0x00e6e6e600e6e6e6ULL, 0x00cecece00cececeULL, 0x00ededed00edededULL, + 0x00e7e7e700e7e7e7ULL, 0x003b3b3b003b3b3bULL, 0x00fefefe00fefefeULL, + 0x007f7f7f007f7f7fULL, 0x00c5c5c500c5c5c5ULL, 0x00a4a4a400a4a4a4ULL, + 0x0037373700373737ULL, 0x00b1b1b100b1b1b1ULL, 0x004c4c4c004c4c4cULL, + 0x0091919100919191ULL, 0x006e6e6e006e6e6eULL, 0x008d8d8d008d8d8dULL, + 0x0076767600767676ULL, 0x0003030300030303ULL, 0x002d2d2d002d2d2dULL, + 0x00dedede00dededeULL, 0x0096969600969696ULL, 0x0026262600262626ULL, + 0x007d7d7d007d7d7dULL, 0x00c6c6c600c6c6c6ULL, 0x005c5c5c005c5c5cULL, + 0x00d3d3d300d3d3d3ULL, 0x00f2f2f200f2f2f2ULL, 0x004f4f4f004f4f4fULL, + 0x0019191900191919ULL, 0x003f3f3f003f3f3fULL, 0x00dcdcdc00dcdcdcULL, + 0x0079797900797979ULL, 0x001d1d1d001d1d1dULL, 0x0052525200525252ULL, + 0x00ebebeb00ebebebULL, 0x00f3f3f300f3f3f3ULL, 0x006d6d6d006d6d6dULL, + 0x005e5e5e005e5e5eULL, 0x00fbfbfb00fbfbfbULL, 0x0069696900696969ULL, + 0x00b2b2b200b2b2b2ULL, 0x00f0f0f000f0f0f0ULL, 0x0031313100313131ULL, + 0x000c0c0c000c0c0cULL, 0x00d4d4d400d4d4d4ULL, 0x00cfcfcf00cfcfcfULL, + 0x008c8c8c008c8c8cULL, 0x00e2e2e200e2e2e2ULL, 0x0075757500757575ULL, + 0x00a9a9a900a9a9a9ULL, 0x004a4a4a004a4a4aULL, 0x0057575700575757ULL, + 0x0084848400848484ULL, 0x0011111100111111ULL, 0x0045454500454545ULL, + 0x001b1b1b001b1b1bULL, 0x00f5f5f500f5f5f5ULL, 0x00e4e4e400e4e4e4ULL, + 0x000e0e0e000e0e0eULL, 0x0073737300737373ULL, 0x00aaaaaa00aaaaaaULL, + 0x00f1f1f100f1f1f1ULL, 0x00dddddd00ddddddULL, 0x0059595900595959ULL, + 0x0014141400141414ULL, 0x006c6c6c006c6c6cULL, 0x0092929200929292ULL, + 0x0054545400545454ULL, 0x00d0d0d000d0d0d0ULL, 0x0078787800787878ULL, + 0x0070707000707070ULL, 0x00e3e3e300e3e3e3ULL, 0x0049494900494949ULL, + 0x0080808000808080ULL, 0x0050505000505050ULL, 0x00a7a7a700a7a7a7ULL, + 0x00f6f6f600f6f6f6ULL, 0x0077777700777777ULL, 0x0093939300939393ULL, + 0x0086868600868686ULL, 0x0083838300838383ULL, 0x002a2a2a002a2a2aULL, + 0x00c7c7c700c7c7c7ULL, 0x005b5b5b005b5b5bULL, 0x00e9e9e900e9e9e9ULL, + 0x00eeeeee00eeeeeeULL, 0x008f8f8f008f8f8fULL, 0x0001010100010101ULL, + 0x003d3d3d003d3d3dULL, +}; + +const uint64 camellia_sp30333033[256] = { + 0x3800383838003838ULL, 0x4100414141004141ULL, 0x1600161616001616ULL, + 0x7600767676007676ULL, 0xd900d9d9d900d9d9ULL, 0x9300939393009393ULL, + 0x6000606060006060ULL, 0xf200f2f2f200f2f2ULL, 0x7200727272007272ULL, + 0xc200c2c2c200c2c2ULL, 0xab00ababab00ababULL, 0x9a009a9a9a009a9aULL, + 0x7500757575007575ULL, 0x0600060606000606ULL, 0x5700575757005757ULL, + 0xa000a0a0a000a0a0ULL, 0x9100919191009191ULL, 0xf700f7f7f700f7f7ULL, + 0xb500b5b5b500b5b5ULL, 0xc900c9c9c900c9c9ULL, 0xa200a2a2a200a2a2ULL, + 0x8c008c8c8c008c8cULL, 0xd200d2d2d200d2d2ULL, 0x9000909090009090ULL, + 0xf600f6f6f600f6f6ULL, 0x0700070707000707ULL, 0xa700a7a7a700a7a7ULL, + 0x2700272727002727ULL, 0x8e008e8e8e008e8eULL, 0xb200b2b2b200b2b2ULL, + 0x4900494949004949ULL, 0xde00dedede00dedeULL, 0x4300434343004343ULL, + 0x5c005c5c5c005c5cULL, 0xd700d7d7d700d7d7ULL, 0xc700c7c7c700c7c7ULL, + 0x3e003e3e3e003e3eULL, 0xf500f5f5f500f5f5ULL, 0x8f008f8f8f008f8fULL, + 0x6700676767006767ULL, 0x1f001f1f1f001f1fULL, 0x1800181818001818ULL, + 0x6e006e6e6e006e6eULL, 0xaf00afafaf00afafULL, 0x2f002f2f2f002f2fULL, + 0xe200e2e2e200e2e2ULL, 0x8500858585008585ULL, 0x0d000d0d0d000d0dULL, + 0x5300535353005353ULL, 0xf000f0f0f000f0f0ULL, 0x9c009c9c9c009c9cULL, + 0x6500656565006565ULL, 0xea00eaeaea00eaeaULL, 0xa300a3a3a300a3a3ULL, + 0xae00aeaeae00aeaeULL, 0x9e009e9e9e009e9eULL, 0xec00ececec00ececULL, + 0x8000808080008080ULL, 0x2d002d2d2d002d2dULL, 0x6b006b6b6b006b6bULL, + 0xa800a8a8a800a8a8ULL, 0x2b002b2b2b002b2bULL, 0x3600363636003636ULL, + 0xa600a6a6a600a6a6ULL, 0xc500c5c5c500c5c5ULL, 0x8600868686008686ULL, + 0x4d004d4d4d004d4dULL, 0x3300333333003333ULL, 0xfd00fdfdfd00fdfdULL, + 0x6600666666006666ULL, 0x5800585858005858ULL, 0x9600969696009696ULL, + 0x3a003a3a3a003a3aULL, 0x0900090909000909ULL, 0x9500959595009595ULL, + 0x1000101010001010ULL, 0x7800787878007878ULL, 0xd800d8d8d800d8d8ULL, + 0x4200424242004242ULL, 0xcc00cccccc00ccccULL, 0xef00efefef00efefULL, + 0x2600262626002626ULL, 0xe500e5e5e500e5e5ULL, 0x6100616161006161ULL, + 0x1a001a1a1a001a1aULL, 0x3f003f3f3f003f3fULL, 0x3b003b3b3b003b3bULL, + 0x8200828282008282ULL, 0xb600b6b6b600b6b6ULL, 0xdb00dbdbdb00dbdbULL, + 0xd400d4d4d400d4d4ULL, 0x9800989898009898ULL, 0xe800e8e8e800e8e8ULL, + 0x8b008b8b8b008b8bULL, 0x0200020202000202ULL, 0xeb00ebebeb00ebebULL, + 0x0a000a0a0a000a0aULL, 0x2c002c2c2c002c2cULL, 0x1d001d1d1d001d1dULL, + 0xb000b0b0b000b0b0ULL, 0x6f006f6f6f006f6fULL, 0x8d008d8d8d008d8dULL, + 0x8800888888008888ULL, 0x0e000e0e0e000e0eULL, 0x1900191919001919ULL, + 0x8700878787008787ULL, 0x4e004e4e4e004e4eULL, 0x0b000b0b0b000b0bULL, + 0xa900a9a9a900a9a9ULL, 0x0c000c0c0c000c0cULL, 0x7900797979007979ULL, + 0x1100111111001111ULL, 0x7f007f7f7f007f7fULL, 0x2200222222002222ULL, + 0xe700e7e7e700e7e7ULL, 0x5900595959005959ULL, 0xe100e1e1e100e1e1ULL, + 0xda00dadada00dadaULL, 0x3d003d3d3d003d3dULL, 0xc800c8c8c800c8c8ULL, + 0x1200121212001212ULL, 0x0400040404000404ULL, 0x7400747474007474ULL, + 0x5400545454005454ULL, 0x3000303030003030ULL, 0x7e007e7e7e007e7eULL, + 0xb400b4b4b400b4b4ULL, 0x2800282828002828ULL, 0x5500555555005555ULL, + 0x6800686868006868ULL, 0x5000505050005050ULL, 0xbe00bebebe00bebeULL, + 0xd000d0d0d000d0d0ULL, 0xc400c4c4c400c4c4ULL, 0x3100313131003131ULL, + 0xcb00cbcbcb00cbcbULL, 0x2a002a2a2a002a2aULL, 0xad00adadad00adadULL, + 0x0f000f0f0f000f0fULL, 0xca00cacaca00cacaULL, 0x7000707070007070ULL, + 0xff00ffffff00ffffULL, 0x3200323232003232ULL, 0x6900696969006969ULL, + 0x0800080808000808ULL, 0x6200626262006262ULL, 0x0000000000000000ULL, + 0x2400242424002424ULL, 0xd100d1d1d100d1d1ULL, 0xfb00fbfbfb00fbfbULL, + 0xba00bababa00babaULL, 0xed00ededed00ededULL, 0x4500454545004545ULL, + 0x8100818181008181ULL, 0x7300737373007373ULL, 0x6d006d6d6d006d6dULL, + 0x8400848484008484ULL, 0x9f009f9f9f009f9fULL, 0xee00eeeeee00eeeeULL, + 0x4a004a4a4a004a4aULL, 0xc300c3c3c300c3c3ULL, 0x2e002e2e2e002e2eULL, + 0xc100c1c1c100c1c1ULL, 0x0100010101000101ULL, 0xe600e6e6e600e6e6ULL, + 0x2500252525002525ULL, 0x4800484848004848ULL, 0x9900999999009999ULL, + 0xb900b9b9b900b9b9ULL, 0xb300b3b3b300b3b3ULL, 0x7b007b7b7b007b7bULL, + 0xf900f9f9f900f9f9ULL, 0xce00cecece00ceceULL, 0xbf00bfbfbf00bfbfULL, + 0xdf00dfdfdf00dfdfULL, 0x7100717171007171ULL, 0x2900292929002929ULL, + 0xcd00cdcdcd00cdcdULL, 0x6c006c6c6c006c6cULL, 0x1300131313001313ULL, + 0x6400646464006464ULL, 0x9b009b9b9b009b9bULL, 0x6300636363006363ULL, + 0x9d009d9d9d009d9dULL, 0xc000c0c0c000c0c0ULL, 0x4b004b4b4b004b4bULL, + 0xb700b7b7b700b7b7ULL, 0xa500a5a5a500a5a5ULL, 0x8900898989008989ULL, + 0x5f005f5f5f005f5fULL, 0xb100b1b1b100b1b1ULL, 0x1700171717001717ULL, + 0xf400f4f4f400f4f4ULL, 0xbc00bcbcbc00bcbcULL, 0xd300d3d3d300d3d3ULL, + 0x4600464646004646ULL, 0xcf00cfcfcf00cfcfULL, 0x3700373737003737ULL, + 0x5e005e5e5e005e5eULL, 0x4700474747004747ULL, 0x9400949494009494ULL, + 0xfa00fafafa00fafaULL, 0xfc00fcfcfc00fcfcULL, 0x5b005b5b5b005b5bULL, + 0x9700979797009797ULL, 0xfe00fefefe00fefeULL, 0x5a005a5a5a005a5aULL, + 0xac00acacac00acacULL, 0x3c003c3c3c003c3cULL, 0x4c004c4c4c004c4cULL, + 0x0300030303000303ULL, 0x3500353535003535ULL, 0xf300f3f3f300f3f3ULL, + 0x2300232323002323ULL, 0xb800b8b8b800b8b8ULL, 0x5d005d5d5d005d5dULL, + 0x6a006a6a6a006a6aULL, 0x9200929292009292ULL, 0xd500d5d5d500d5d5ULL, + 0x2100212121002121ULL, 0x4400444444004444ULL, 0x5100515151005151ULL, + 0xc600c6c6c600c6c6ULL, 0x7d007d7d7d007d7dULL, 0x3900393939003939ULL, + 0x8300838383008383ULL, 0xdc00dcdcdc00dcdcULL, 0xaa00aaaaaa00aaaaULL, + 0x7c007c7c7c007c7cULL, 0x7700777777007777ULL, 0x5600565656005656ULL, + 0x0500050505000505ULL, 0x1b001b1b1b001b1bULL, 0xa400a4a4a400a4a4ULL, + 0x1500151515001515ULL, 0x3400343434003434ULL, 0x1e001e1e1e001e1eULL, + 0x1c001c1c1c001c1cULL, 0xf800f8f8f800f8f8ULL, 0x5200525252005252ULL, + 0x2000202020002020ULL, 0x1400141414001414ULL, 0xe900e9e9e900e9e9ULL, + 0xbd00bdbdbd00bdbdULL, 0xdd00dddddd00ddddULL, 0xe400e4e4e400e4e4ULL, + 0xa100a1a1a100a1a1ULL, 0xe000e0e0e000e0e0ULL, 0x8a008a8a8a008a8aULL, + 0xf100f1f1f100f1f1ULL, 0xd600d6d6d600d6d6ULL, 0x7a007a7a7a007a7aULL, + 0xbb00bbbbbb00bbbbULL, 0xe300e3e3e300e3e3ULL, 0x4000404040004040ULL, + 0x4f004f4f4f004f4fULL, +}; + +const uint64 camellia_sp44044404[256] = { + 0x7070007070700070ULL, 0x2c2c002c2c2c002cULL, 0xb3b300b3b3b300b3ULL, + 0xc0c000c0c0c000c0ULL, 0xe4e400e4e4e400e4ULL, 0x5757005757570057ULL, + 0xeaea00eaeaea00eaULL, 0xaeae00aeaeae00aeULL, 0x2323002323230023ULL, + 0x6b6b006b6b6b006bULL, 0x4545004545450045ULL, 0xa5a500a5a5a500a5ULL, + 0xeded00ededed00edULL, 0x4f4f004f4f4f004fULL, 0x1d1d001d1d1d001dULL, + 0x9292009292920092ULL, 0x8686008686860086ULL, 0xafaf00afafaf00afULL, + 0x7c7c007c7c7c007cULL, 0x1f1f001f1f1f001fULL, 0x3e3e003e3e3e003eULL, + 0xdcdc00dcdcdc00dcULL, 0x5e5e005e5e5e005eULL, 0x0b0b000b0b0b000bULL, + 0xa6a600a6a6a600a6ULL, 0x3939003939390039ULL, 0xd5d500d5d5d500d5ULL, + 0x5d5d005d5d5d005dULL, 0xd9d900d9d9d900d9ULL, 0x5a5a005a5a5a005aULL, + 0x5151005151510051ULL, 0x6c6c006c6c6c006cULL, 0x8b8b008b8b8b008bULL, + 0x9a9a009a9a9a009aULL, 0xfbfb00fbfbfb00fbULL, 0xb0b000b0b0b000b0ULL, + 0x7474007474740074ULL, 0x2b2b002b2b2b002bULL, 0xf0f000f0f0f000f0ULL, + 0x8484008484840084ULL, 0xdfdf00dfdfdf00dfULL, 0xcbcb00cbcbcb00cbULL, + 0x3434003434340034ULL, 0x7676007676760076ULL, 0x6d6d006d6d6d006dULL, + 0xa9a900a9a9a900a9ULL, 0xd1d100d1d1d100d1ULL, 0x0404000404040004ULL, + 0x1414001414140014ULL, 0x3a3a003a3a3a003aULL, 0xdede00dedede00deULL, + 0x1111001111110011ULL, 0x3232003232320032ULL, 0x9c9c009c9c9c009cULL, + 0x5353005353530053ULL, 0xf2f200f2f2f200f2ULL, 0xfefe00fefefe00feULL, + 0xcfcf00cfcfcf00cfULL, 0xc3c300c3c3c300c3ULL, 0x7a7a007a7a7a007aULL, + 0x2424002424240024ULL, 0xe8e800e8e8e800e8ULL, 0x6060006060600060ULL, + 0x6969006969690069ULL, 0xaaaa00aaaaaa00aaULL, 0xa0a000a0a0a000a0ULL, + 0xa1a100a1a1a100a1ULL, 0x6262006262620062ULL, 0x5454005454540054ULL, + 0x1e1e001e1e1e001eULL, 0xe0e000e0e0e000e0ULL, 0x6464006464640064ULL, + 0x1010001010100010ULL, 0x0000000000000000ULL, 0xa3a300a3a3a300a3ULL, + 0x7575007575750075ULL, 0x8a8a008a8a8a008aULL, 0xe6e600e6e6e600e6ULL, + 0x0909000909090009ULL, 0xdddd00dddddd00ddULL, 0x8787008787870087ULL, + 0x8383008383830083ULL, 0xcdcd00cdcdcd00cdULL, 0x9090009090900090ULL, + 0x7373007373730073ULL, 0xf6f600f6f6f600f6ULL, 0x9d9d009d9d9d009dULL, + 0xbfbf00bfbfbf00bfULL, 0x5252005252520052ULL, 0xd8d800d8d8d800d8ULL, + 0xc8c800c8c8c800c8ULL, 0xc6c600c6c6c600c6ULL, 0x8181008181810081ULL, + 0x6f6f006f6f6f006fULL, 0x1313001313130013ULL, 0x6363006363630063ULL, + 0xe9e900e9e9e900e9ULL, 0xa7a700a7a7a700a7ULL, 0x9f9f009f9f9f009fULL, + 0xbcbc00bcbcbc00bcULL, 0x2929002929290029ULL, 0xf9f900f9f9f900f9ULL, + 0x2f2f002f2f2f002fULL, 0xb4b400b4b4b400b4ULL, 0x7878007878780078ULL, + 0x0606000606060006ULL, 0xe7e700e7e7e700e7ULL, 0x7171007171710071ULL, + 0xd4d400d4d4d400d4ULL, 0xabab00ababab00abULL, 0x8888008888880088ULL, + 0x8d8d008d8d8d008dULL, 0x7272007272720072ULL, 0xb9b900b9b9b900b9ULL, + 0xf8f800f8f8f800f8ULL, 0xacac00acacac00acULL, 0x3636003636360036ULL, + 0x2a2a002a2a2a002aULL, 0x3c3c003c3c3c003cULL, 0xf1f100f1f1f100f1ULL, + 0x4040004040400040ULL, 0xd3d300d3d3d300d3ULL, 0xbbbb00bbbbbb00bbULL, + 0x4343004343430043ULL, 0x1515001515150015ULL, 0xadad00adadad00adULL, + 0x7777007777770077ULL, 0x8080008080800080ULL, 0x8282008282820082ULL, + 0xecec00ececec00ecULL, 0x2727002727270027ULL, 0xe5e500e5e5e500e5ULL, + 0x8585008585850085ULL, 0x3535003535350035ULL, 0x0c0c000c0c0c000cULL, + 0x4141004141410041ULL, 0xefef00efefef00efULL, 0x9393009393930093ULL, + 0x1919001919190019ULL, 0x2121002121210021ULL, 0x0e0e000e0e0e000eULL, + 0x4e4e004e4e4e004eULL, 0x6565006565650065ULL, 0xbdbd00bdbdbd00bdULL, + 0xb8b800b8b8b800b8ULL, 0x8f8f008f8f8f008fULL, 0xebeb00ebebeb00ebULL, + 0xcece00cecece00ceULL, 0x3030003030300030ULL, 0x5f5f005f5f5f005fULL, + 0xc5c500c5c5c500c5ULL, 0x1a1a001a1a1a001aULL, 0xe1e100e1e1e100e1ULL, + 0xcaca00cacaca00caULL, 0x4747004747470047ULL, 0x3d3d003d3d3d003dULL, + 0x0101000101010001ULL, 0xd6d600d6d6d600d6ULL, 0x5656005656560056ULL, + 0x4d4d004d4d4d004dULL, 0x0d0d000d0d0d000dULL, 0x6666006666660066ULL, + 0xcccc00cccccc00ccULL, 0x2d2d002d2d2d002dULL, 0x1212001212120012ULL, + 0x2020002020200020ULL, 0xb1b100b1b1b100b1ULL, 0x9999009999990099ULL, + 0x4c4c004c4c4c004cULL, 0xc2c200c2c2c200c2ULL, 0x7e7e007e7e7e007eULL, + 0x0505000505050005ULL, 0xb7b700b7b7b700b7ULL, 0x3131003131310031ULL, + 0x1717001717170017ULL, 0xd7d700d7d7d700d7ULL, 0x5858005858580058ULL, + 0x6161006161610061ULL, 0x1b1b001b1b1b001bULL, 0x1c1c001c1c1c001cULL, + 0x0f0f000f0f0f000fULL, 0x1616001616160016ULL, 0x1818001818180018ULL, + 0x2222002222220022ULL, 0x4444004444440044ULL, 0xb2b200b2b2b200b2ULL, + 0xb5b500b5b5b500b5ULL, 0x9191009191910091ULL, 0x0808000808080008ULL, + 0xa8a800a8a8a800a8ULL, 0xfcfc00fcfcfc00fcULL, 0x5050005050500050ULL, + 0xd0d000d0d0d000d0ULL, 0x7d7d007d7d7d007dULL, 0x8989008989890089ULL, + 0x9797009797970097ULL, 0x5b5b005b5b5b005bULL, 0x9595009595950095ULL, + 0xffff00ffffff00ffULL, 0xd2d200d2d2d200d2ULL, 0xc4c400c4c4c400c4ULL, + 0x4848004848480048ULL, 0xf7f700f7f7f700f7ULL, 0xdbdb00dbdbdb00dbULL, + 0x0303000303030003ULL, 0xdada00dadada00daULL, 0x3f3f003f3f3f003fULL, + 0x9494009494940094ULL, 0x5c5c005c5c5c005cULL, 0x0202000202020002ULL, + 0x4a4a004a4a4a004aULL, 0x3333003333330033ULL, 0x6767006767670067ULL, + 0xf3f300f3f3f300f3ULL, 0x7f7f007f7f7f007fULL, 0xe2e200e2e2e200e2ULL, + 0x9b9b009b9b9b009bULL, 0x2626002626260026ULL, 0x3737003737370037ULL, + 0x3b3b003b3b3b003bULL, 0x9696009696960096ULL, 0x4b4b004b4b4b004bULL, + 0xbebe00bebebe00beULL, 0x2e2e002e2e2e002eULL, 0x7979007979790079ULL, + 0x8c8c008c8c8c008cULL, 0x6e6e006e6e6e006eULL, 0x8e8e008e8e8e008eULL, + 0xf5f500f5f5f500f5ULL, 0xb6b600b6b6b600b6ULL, 0xfdfd00fdfdfd00fdULL, + 0x5959005959590059ULL, 0x9898009898980098ULL, 0x6a6a006a6a6a006aULL, + 0x4646004646460046ULL, 0xbaba00bababa00baULL, 0x2525002525250025ULL, + 0x4242004242420042ULL, 0xa2a200a2a2a200a2ULL, 0xfafa00fafafa00faULL, + 0x0707000707070007ULL, 0x5555005555550055ULL, 0xeeee00eeeeee00eeULL, + 0x0a0a000a0a0a000aULL, 0x4949004949490049ULL, 0x6868006868680068ULL, + 0x3838003838380038ULL, 0xa4a400a4a4a400a4ULL, 0x2828002828280028ULL, + 0x7b7b007b7b7b007bULL, 0xc9c900c9c9c900c9ULL, 0xc1c100c1c1c100c1ULL, + 0xe3e300e3e3e300e3ULL, 0xf4f400f4f4f400f4ULL, 0xc7c700c7c7c700c7ULL, + 0x9e9e009e9e9e009eULL, +}; + +const uint64 camellia_sp11101110[256] = { + 0x7070700070707000ULL, 0x8282820082828200ULL, 0x2c2c2c002c2c2c00ULL, + 0xececec00ececec00ULL, 0xb3b3b300b3b3b300ULL, 0x2727270027272700ULL, + 0xc0c0c000c0c0c000ULL, 0xe5e5e500e5e5e500ULL, 0xe4e4e400e4e4e400ULL, + 0x8585850085858500ULL, 0x5757570057575700ULL, 0x3535350035353500ULL, + 0xeaeaea00eaeaea00ULL, 0x0c0c0c000c0c0c00ULL, 0xaeaeae00aeaeae00ULL, + 0x4141410041414100ULL, 0x2323230023232300ULL, 0xefefef00efefef00ULL, + 0x6b6b6b006b6b6b00ULL, 0x9393930093939300ULL, 0x4545450045454500ULL, + 0x1919190019191900ULL, 0xa5a5a500a5a5a500ULL, 0x2121210021212100ULL, + 0xededed00ededed00ULL, 0x0e0e0e000e0e0e00ULL, 0x4f4f4f004f4f4f00ULL, + 0x4e4e4e004e4e4e00ULL, 0x1d1d1d001d1d1d00ULL, 0x6565650065656500ULL, + 0x9292920092929200ULL, 0xbdbdbd00bdbdbd00ULL, 0x8686860086868600ULL, + 0xb8b8b800b8b8b800ULL, 0xafafaf00afafaf00ULL, 0x8f8f8f008f8f8f00ULL, + 0x7c7c7c007c7c7c00ULL, 0xebebeb00ebebeb00ULL, 0x1f1f1f001f1f1f00ULL, + 0xcecece00cecece00ULL, 0x3e3e3e003e3e3e00ULL, 0x3030300030303000ULL, + 0xdcdcdc00dcdcdc00ULL, 0x5f5f5f005f5f5f00ULL, 0x5e5e5e005e5e5e00ULL, + 0xc5c5c500c5c5c500ULL, 0x0b0b0b000b0b0b00ULL, 0x1a1a1a001a1a1a00ULL, + 0xa6a6a600a6a6a600ULL, 0xe1e1e100e1e1e100ULL, 0x3939390039393900ULL, + 0xcacaca00cacaca00ULL, 0xd5d5d500d5d5d500ULL, 0x4747470047474700ULL, + 0x5d5d5d005d5d5d00ULL, 0x3d3d3d003d3d3d00ULL, 0xd9d9d900d9d9d900ULL, + 0x0101010001010100ULL, 0x5a5a5a005a5a5a00ULL, 0xd6d6d600d6d6d600ULL, + 0x5151510051515100ULL, 0x5656560056565600ULL, 0x6c6c6c006c6c6c00ULL, + 0x4d4d4d004d4d4d00ULL, 0x8b8b8b008b8b8b00ULL, 0x0d0d0d000d0d0d00ULL, + 0x9a9a9a009a9a9a00ULL, 0x6666660066666600ULL, 0xfbfbfb00fbfbfb00ULL, + 0xcccccc00cccccc00ULL, 0xb0b0b000b0b0b000ULL, 0x2d2d2d002d2d2d00ULL, + 0x7474740074747400ULL, 0x1212120012121200ULL, 0x2b2b2b002b2b2b00ULL, + 0x2020200020202000ULL, 0xf0f0f000f0f0f000ULL, 0xb1b1b100b1b1b100ULL, + 0x8484840084848400ULL, 0x9999990099999900ULL, 0xdfdfdf00dfdfdf00ULL, + 0x4c4c4c004c4c4c00ULL, 0xcbcbcb00cbcbcb00ULL, 0xc2c2c200c2c2c200ULL, + 0x3434340034343400ULL, 0x7e7e7e007e7e7e00ULL, 0x7676760076767600ULL, + 0x0505050005050500ULL, 0x6d6d6d006d6d6d00ULL, 0xb7b7b700b7b7b700ULL, + 0xa9a9a900a9a9a900ULL, 0x3131310031313100ULL, 0xd1d1d100d1d1d100ULL, + 0x1717170017171700ULL, 0x0404040004040400ULL, 0xd7d7d700d7d7d700ULL, + 0x1414140014141400ULL, 0x5858580058585800ULL, 0x3a3a3a003a3a3a00ULL, + 0x6161610061616100ULL, 0xdedede00dedede00ULL, 0x1b1b1b001b1b1b00ULL, + 0x1111110011111100ULL, 0x1c1c1c001c1c1c00ULL, 0x3232320032323200ULL, + 0x0f0f0f000f0f0f00ULL, 0x9c9c9c009c9c9c00ULL, 0x1616160016161600ULL, + 0x5353530053535300ULL, 0x1818180018181800ULL, 0xf2f2f200f2f2f200ULL, + 0x2222220022222200ULL, 0xfefefe00fefefe00ULL, 0x4444440044444400ULL, + 0xcfcfcf00cfcfcf00ULL, 0xb2b2b200b2b2b200ULL, 0xc3c3c300c3c3c300ULL, + 0xb5b5b500b5b5b500ULL, 0x7a7a7a007a7a7a00ULL, 0x9191910091919100ULL, + 0x2424240024242400ULL, 0x0808080008080800ULL, 0xe8e8e800e8e8e800ULL, + 0xa8a8a800a8a8a800ULL, 0x6060600060606000ULL, 0xfcfcfc00fcfcfc00ULL, + 0x6969690069696900ULL, 0x5050500050505000ULL, 0xaaaaaa00aaaaaa00ULL, + 0xd0d0d000d0d0d000ULL, 0xa0a0a000a0a0a000ULL, 0x7d7d7d007d7d7d00ULL, + 0xa1a1a100a1a1a100ULL, 0x8989890089898900ULL, 0x6262620062626200ULL, + 0x9797970097979700ULL, 0x5454540054545400ULL, 0x5b5b5b005b5b5b00ULL, + 0x1e1e1e001e1e1e00ULL, 0x9595950095959500ULL, 0xe0e0e000e0e0e000ULL, + 0xffffff00ffffff00ULL, 0x6464640064646400ULL, 0xd2d2d200d2d2d200ULL, + 0x1010100010101000ULL, 0xc4c4c400c4c4c400ULL, 0x0000000000000000ULL, + 0x4848480048484800ULL, 0xa3a3a300a3a3a300ULL, 0xf7f7f700f7f7f700ULL, + 0x7575750075757500ULL, 0xdbdbdb00dbdbdb00ULL, 0x8a8a8a008a8a8a00ULL, + 0x0303030003030300ULL, 0xe6e6e600e6e6e600ULL, 0xdadada00dadada00ULL, + 0x0909090009090900ULL, 0x3f3f3f003f3f3f00ULL, 0xdddddd00dddddd00ULL, + 0x9494940094949400ULL, 0x8787870087878700ULL, 0x5c5c5c005c5c5c00ULL, + 0x8383830083838300ULL, 0x0202020002020200ULL, 0xcdcdcd00cdcdcd00ULL, + 0x4a4a4a004a4a4a00ULL, 0x9090900090909000ULL, 0x3333330033333300ULL, + 0x7373730073737300ULL, 0x6767670067676700ULL, 0xf6f6f600f6f6f600ULL, + 0xf3f3f300f3f3f300ULL, 0x9d9d9d009d9d9d00ULL, 0x7f7f7f007f7f7f00ULL, + 0xbfbfbf00bfbfbf00ULL, 0xe2e2e200e2e2e200ULL, 0x5252520052525200ULL, + 0x9b9b9b009b9b9b00ULL, 0xd8d8d800d8d8d800ULL, 0x2626260026262600ULL, + 0xc8c8c800c8c8c800ULL, 0x3737370037373700ULL, 0xc6c6c600c6c6c600ULL, + 0x3b3b3b003b3b3b00ULL, 0x8181810081818100ULL, 0x9696960096969600ULL, + 0x6f6f6f006f6f6f00ULL, 0x4b4b4b004b4b4b00ULL, 0x1313130013131300ULL, + 0xbebebe00bebebe00ULL, 0x6363630063636300ULL, 0x2e2e2e002e2e2e00ULL, + 0xe9e9e900e9e9e900ULL, 0x7979790079797900ULL, 0xa7a7a700a7a7a700ULL, + 0x8c8c8c008c8c8c00ULL, 0x9f9f9f009f9f9f00ULL, 0x6e6e6e006e6e6e00ULL, + 0xbcbcbc00bcbcbc00ULL, 0x8e8e8e008e8e8e00ULL, 0x2929290029292900ULL, + 0xf5f5f500f5f5f500ULL, 0xf9f9f900f9f9f900ULL, 0xb6b6b600b6b6b600ULL, + 0x2f2f2f002f2f2f00ULL, 0xfdfdfd00fdfdfd00ULL, 0xb4b4b400b4b4b400ULL, + 0x5959590059595900ULL, 0x7878780078787800ULL, 0x9898980098989800ULL, + 0x0606060006060600ULL, 0x6a6a6a006a6a6a00ULL, 0xe7e7e700e7e7e700ULL, + 0x4646460046464600ULL, 0x7171710071717100ULL, 0xbababa00bababa00ULL, + 0xd4d4d400d4d4d400ULL, 0x2525250025252500ULL, 0xababab00ababab00ULL, + 0x4242420042424200ULL, 0x8888880088888800ULL, 0xa2a2a200a2a2a200ULL, + 0x8d8d8d008d8d8d00ULL, 0xfafafa00fafafa00ULL, 0x7272720072727200ULL, + 0x0707070007070700ULL, 0xb9b9b900b9b9b900ULL, 0x5555550055555500ULL, + 0xf8f8f800f8f8f800ULL, 0xeeeeee00eeeeee00ULL, 0xacacac00acacac00ULL, + 0x0a0a0a000a0a0a00ULL, 0x3636360036363600ULL, 0x4949490049494900ULL, + 0x2a2a2a002a2a2a00ULL, 0x6868680068686800ULL, 0x3c3c3c003c3c3c00ULL, + 0x3838380038383800ULL, 0xf1f1f100f1f1f100ULL, 0xa4a4a400a4a4a400ULL, + 0x4040400040404000ULL, 0x2828280028282800ULL, 0xd3d3d300d3d3d300ULL, + 0x7b7b7b007b7b7b00ULL, 0xbbbbbb00bbbbbb00ULL, 0xc9c9c900c9c9c900ULL, + 0x4343430043434300ULL, 0xc1c1c100c1c1c100ULL, 0x1515150015151500ULL, + 0xe3e3e300e3e3e300ULL, 0xadadad00adadad00ULL, 0xf4f4f400f4f4f400ULL, + 0x7777770077777700ULL, 0xc7c7c700c7c7c700ULL, 0x8080800080808000ULL, + 0x9e9e9e009e9e9e00ULL, +}; + + +/** + * Stuff related to the Camellia key schedule + */ +#define subl(x) subL[(x)] +#define subr(x) subR[(x)] + +void camellia_set_key(const unsigned __int8 key[], unsigned __int8 *ks) +{ + uint32 kll,klr,krl,krr; /* left half of key */ + uint32 krll,krlr,krrl,krrr; /* right half of key */ + uint32 il, ir, t0, t1, w0, w1; /* temporary variables */ + uint32 kw4l, kw4r, dw, tl, tr; + uint32 subL[34]; + uint32 subR[34]; + uint32 *subkey = (uint32*) ks; + /** + * key = (kll || klr || krl || krr || krll || krlr || krrl || krrr) + * (|| is concatination) + */ + kll = GETU32(key ); + klr = GETU32(key + 4); + krl = GETU32(key + 8); + krr = GETU32(key + 12); + krll = GETU32(key + 16); + krlr = GETU32(key + 20); + krrl = GETU32(key + 24); + krrr = GETU32(key + 28); + /* generate KL dependent subkeys */ + subl(0) = kll; subr(0) = klr; + subl(1) = krl; subr(1) = krr; + CAMELLIA_ROLDQo32(kll, klr, krl, krr, w0, w1, 45); + subl(12) = kll; subr(12) = klr; + subl(13) = krl; subr(13) = krr; + CAMELLIA_ROLDQ(kll, klr, krl, krr, w0, w1, 15); + subl(16) = kll; subr(16) = klr; + subl(17) = krl; subr(17) = krr; + CAMELLIA_ROLDQ(kll, klr, krl, krr, w0, w1, 17); + subl(22) = kll; subr(22) = klr; + subl(23) = krl; subr(23) = krr; + CAMELLIA_ROLDQo32(kll, klr, krl, krr, w0, w1, 34); + subl(30) = kll; subr(30) = klr; + subl(31) = krl; subr(31) = krr; + /* generate KR dependent subkeys */ + CAMELLIA_ROLDQ(krll, krlr, krrl, krrr, w0, w1, 15); + subl(4) = krll; subr(4) = krlr; + subl(5) = krrl; subr(5) = krrr; + CAMELLIA_ROLDQ(krll, krlr, krrl, krrr, w0, w1, 15); + subl(8) = krll; subr(8) = krlr; + subl(9) = krrl; subr(9) = krrr; + CAMELLIA_ROLDQ(krll, krlr, krrl, krrr, w0, w1, 30); + subl(18) = krll; subr(18) = krlr; + subl(19) = krrl; subr(19) = krrr; + CAMELLIA_ROLDQo32(krll, krlr, krrl, krrr, w0, w1, 34); + subl(26) = krll; subr(26) = krlr; + subl(27) = krrl; subr(27) = krrr; + CAMELLIA_ROLDQo32(krll, krlr, krrl, krrr, w0, w1, 34); + /* generate KA */ + kll = subl(0) ^ krll; klr = subr(0) ^ krlr; + krl = subl(1) ^ krrl; krr = subr(1) ^ krrr; + CAMELLIA_F(kll, klr, + CAMELLIA_SIGMA1L, CAMELLIA_SIGMA1R, + w0, w1, il, ir, t0, t1); + krl ^= w0; krr ^= w1; + CAMELLIA_F(krl, krr, + CAMELLIA_SIGMA2L, CAMELLIA_SIGMA2R, + kll, klr, il, ir, t0, t1); + kll ^= krll; klr ^= krlr; + CAMELLIA_F(kll, klr, + CAMELLIA_SIGMA3L, CAMELLIA_SIGMA3R, + krl, krr, il, ir, t0, t1); + krl ^= w0 ^ krrl; krr ^= w1 ^ krrr; + CAMELLIA_F(krl, krr, + CAMELLIA_SIGMA4L, CAMELLIA_SIGMA4R, + w0, w1, il, ir, t0, t1); + kll ^= w0; klr ^= w1; + /* generate KB */ + krll ^= kll; krlr ^= klr; + krrl ^= krl; krrr ^= krr; + CAMELLIA_F(krll, krlr, + CAMELLIA_SIGMA5L, CAMELLIA_SIGMA5R, + w0, w1, il, ir, t0, t1); + krrl ^= w0; krrr ^= w1; + CAMELLIA_F(krrl, krrr, + CAMELLIA_SIGMA6L, CAMELLIA_SIGMA6R, + w0, w1, il, ir, t0, t1); + krll ^= w0; krlr ^= w1; + /* generate KA dependent subkeys */ + CAMELLIA_ROLDQ(kll, klr, krl, krr, w0, w1, 15); + subl(6) = kll; subr(6) = klr; + subl(7) = krl; subr(7) = krr; + CAMELLIA_ROLDQ(kll, klr, krl, krr, w0, w1, 30); + subl(14) = kll; subr(14) = klr; + subl(15) = krl; subr(15) = krr; + subl(24) = klr; subr(24) = krl; + subl(25) = krr; subr(25) = kll; + CAMELLIA_ROLDQo32(kll, klr, krl, krr, w0, w1, 49); + subl(28) = kll; subr(28) = klr; + subl(29) = krl; subr(29) = krr; + /* generate KB dependent subkeys */ + subl(2) = krll; subr(2) = krlr; + subl(3) = krrl; subr(3) = krrr; + CAMELLIA_ROLDQ(krll, krlr, krrl, krrr, w0, w1, 30); + subl(10) = krll; subr(10) = krlr; + subl(11) = krrl; subr(11) = krrr; + CAMELLIA_ROLDQ(krll, krlr, krrl, krrr, w0, w1, 30); + subl(20) = krll; subr(20) = krlr; + subl(21) = krrl; subr(21) = krrr; + CAMELLIA_ROLDQo32(krll, krlr, krrl, krrr, w0, w1, 51); + subl(32) = krll; subr(32) = krlr; + subl(33) = krrl; subr(33) = krrr; + /* absorb kw2 to other subkeys */ + subl(3) ^= subl(1); subr(3) ^= subr(1); + subl(5) ^= subl(1); subr(5) ^= subr(1); + subl(7) ^= subl(1); subr(7) ^= subr(1); + subl(1) ^= subr(1) & ~subr(9); + dw = subl(1) & subl(9), subr(1) ^= CAMELLIA_RL1(dw); + subl(11) ^= subl(1); subr(11) ^= subr(1); + subl(13) ^= subl(1); subr(13) ^= subr(1); + subl(15) ^= subl(1); subr(15) ^= subr(1); + subl(1) ^= subr(1) & ~subr(17); + dw = subl(1) & subl(17), subr(1) ^= CAMELLIA_RL1(dw); + subl(19) ^= subl(1); subr(19) ^= subr(1); + subl(21) ^= subl(1); subr(21) ^= subr(1); + subl(23) ^= subl(1); subr(23) ^= subr(1); + subl(1) ^= subr(1) & ~subr(25); + dw = subl(1) & subl(25), subr(1) ^= CAMELLIA_RL1(dw); + subl(27) ^= subl(1); subr(27) ^= subr(1); + subl(29) ^= subl(1); subr(29) ^= subr(1); + subl(31) ^= subl(1); subr(31) ^= subr(1); + subl(32) ^= subl(1); subr(32) ^= subr(1); + /* absorb kw4 to other subkeys */ + kw4l = subl(33); kw4r = subr(33); + subl(30) ^= kw4l; subr(30) ^= kw4r; + subl(28) ^= kw4l; subr(28) ^= kw4r; + subl(26) ^= kw4l; subr(26) ^= kw4r; + kw4l ^= kw4r & ~subr(24); + dw = kw4l & subl(24), kw4r ^= CAMELLIA_RL1(dw); + subl(22) ^= kw4l; subr(22) ^= kw4r; + subl(20) ^= kw4l; subr(20) ^= kw4r; + subl(18) ^= kw4l; subr(18) ^= kw4r; + kw4l ^= kw4r & ~subr(16); + dw = kw4l & subl(16), kw4r ^= CAMELLIA_RL1(dw); + subl(14) ^= kw4l; subr(14) ^= kw4r; + subl(12) ^= kw4l; subr(12) ^= kw4r; + subl(10) ^= kw4l; subr(10) ^= kw4r; + kw4l ^= kw4r & ~subr(8); + dw = kw4l & subl(8), kw4r ^= CAMELLIA_RL1(dw); + subl(6) ^= kw4l; subr(6) ^= kw4r; + subl(4) ^= kw4l; subr(4) ^= kw4r; + subl(2) ^= kw4l; subr(2) ^= kw4r; + subl(0) ^= kw4l; subr(0) ^= kw4r; + /* key XOR is end of F-function */ + CamelliaSubkeyL(0) = subl(0) ^ subl(2); + CamelliaSubkeyR(0) = subr(0) ^ subr(2); + CamelliaSubkeyL(2) = subl(3); + CamelliaSubkeyR(2) = subr(3); + CamelliaSubkeyL(3) = subl(2) ^ subl(4); + CamelliaSubkeyR(3) = subr(2) ^ subr(4); + CamelliaSubkeyL(4) = subl(3) ^ subl(5); + CamelliaSubkeyR(4) = subr(3) ^ subr(5); + CamelliaSubkeyL(5) = subl(4) ^ subl(6); + CamelliaSubkeyR(5) = subr(4) ^ subr(6); + CamelliaSubkeyL(6) = subl(5) ^ subl(7); + CamelliaSubkeyR(6) = subr(5) ^ subr(7); + tl = subl(10) ^ (subr(10) & ~subr(8)); + dw = tl & subl(8), tr = subr(10) ^ CAMELLIA_RL1(dw); + CamelliaSubkeyL(7) = subl(6) ^ tl; + CamelliaSubkeyR(7) = subr(6) ^ tr; + CamelliaSubkeyL(8) = subl(8); + CamelliaSubkeyR(8) = subr(8); + CamelliaSubkeyL(9) = subl(9); + CamelliaSubkeyR(9) = subr(9); + tl = subl(7) ^ (subr(7) & ~subr(9)); + dw = tl & subl(9), tr = subr(7) ^ CAMELLIA_RL1(dw); + CamelliaSubkeyL(10) = tl ^ subl(11); + CamelliaSubkeyR(10) = tr ^ subr(11); + CamelliaSubkeyL(11) = subl(10) ^ subl(12); + CamelliaSubkeyR(11) = subr(10) ^ subr(12); + CamelliaSubkeyL(12) = subl(11) ^ subl(13); + CamelliaSubkeyR(12) = subr(11) ^ subr(13); + CamelliaSubkeyL(13) = subl(12) ^ subl(14); + CamelliaSubkeyR(13) = subr(12) ^ subr(14); + CamelliaSubkeyL(14) = subl(13) ^ subl(15); + CamelliaSubkeyR(14) = subr(13) ^ subr(15); + tl = subl(18) ^ (subr(18) & ~subr(16)); + dw = tl & subl(16), tr = subr(18) ^ CAMELLIA_RL1(dw); + CamelliaSubkeyL(15) = subl(14) ^ tl; + CamelliaSubkeyR(15) = subr(14) ^ tr; + CamelliaSubkeyL(16) = subl(16); + CamelliaSubkeyR(16) = subr(16); + CamelliaSubkeyL(17) = subl(17); + CamelliaSubkeyR(17) = subr(17); + tl = subl(15) ^ (subr(15) & ~subr(17)); + dw = tl & subl(17), tr = subr(15) ^ CAMELLIA_RL1(dw); + CamelliaSubkeyL(18) = tl ^ subl(19); + CamelliaSubkeyR(18) = tr ^ subr(19); + CamelliaSubkeyL(19) = subl(18) ^ subl(20); + CamelliaSubkeyR(19) = subr(18) ^ subr(20); + CamelliaSubkeyL(20) = subl(19) ^ subl(21); + CamelliaSubkeyR(20) = subr(19) ^ subr(21); + CamelliaSubkeyL(21) = subl(20) ^ subl(22); + CamelliaSubkeyR(21) = subr(20) ^ subr(22); + CamelliaSubkeyL(22) = subl(21) ^ subl(23); + CamelliaSubkeyR(22) = subr(21) ^ subr(23); + tl = subl(26) ^ (subr(26) & ~subr(24)); + dw = tl & subl(24), tr = subr(26) ^ CAMELLIA_RL1(dw); + CamelliaSubkeyL(23) = subl(22) ^ tl; + CamelliaSubkeyR(23) = subr(22) ^ tr; + CamelliaSubkeyL(24) = subl(24); + CamelliaSubkeyR(24) = subr(24); + CamelliaSubkeyL(25) = subl(25); + CamelliaSubkeyR(25) = subr(25); + tl = subl(23) ^ (subr(23) & ~subr(25)); + dw = tl & subl(25), tr = subr(23) ^ CAMELLIA_RL1(dw); + CamelliaSubkeyL(26) = tl ^ subl(27); + CamelliaSubkeyR(26) = tr ^ subr(27); + CamelliaSubkeyL(27) = subl(26) ^ subl(28); + CamelliaSubkeyR(27) = subr(26) ^ subr(28); + CamelliaSubkeyL(28) = subl(27) ^ subl(29); + CamelliaSubkeyR(28) = subr(27) ^ subr(29); + CamelliaSubkeyL(29) = subl(28) ^ subl(30); + CamelliaSubkeyR(29) = subr(28) ^ subr(30); + CamelliaSubkeyL(30) = subl(29) ^ subl(31); + CamelliaSubkeyR(30) = subr(29) ^ subr(31); + CamelliaSubkeyL(31) = subl(30); + CamelliaSubkeyR(31) = subr(30); + CamelliaSubkeyL(32) = subl(32) ^ subl(31); + CamelliaSubkeyR(32) = subr(32) ^ subr(31); + return; +} + +void camellia_encrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks) +{ + camellia_encrypt_asm (ks, outBlock, inBlock); +} + +void camellia_decrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks) +{ + camellia_decrypt_asm (ks, outBlock, inBlock); +} + +void camellia_encrypt_blocks(unsigned __int8 *instance, const byte* in_blk, byte* out_blk, uint32 blockCount) +{ + + if (IsCpuIntel() && IsAesHwCpuSupported () && HasSAVX()) /* on AMD cpu, AVX is too slow */ + { + while (blockCount >= 16) + { + camellia_ecb_enc_16way (instance, out_blk, in_blk); + out_blk += 16 * 16; + in_blk += 16 * 16; + blockCount -= 16; + } + } + while (blockCount >= 2) + { + camellia_enc_blk2 (instance, out_blk, in_blk); + out_blk += 2 * 16; + in_blk += 2 * 16; + blockCount -= 2; + } + + if (blockCount) + camellia_encrypt (in_blk, out_blk, instance); +} +void camellia_decrypt_blocks(unsigned __int8 *instance, const byte* in_blk, byte* out_blk, uint32 blockCount) +{ + if (IsCpuIntel() && IsAesHwCpuSupported () && HasSAVX()) /* on AMD cpu, AVX is too slow */ + { + while (blockCount >= 16) + { + camellia_ecb_dec_16way (instance, out_blk, in_blk); + out_blk += 16 * 16; + in_blk += 16 * 16; + blockCount -= 16; + } + } + + while (blockCount >= 2) + { + camellia_dec_blk2 (instance, out_blk, in_blk); + out_blk += 2 * 16; + in_blk += 2 * 16; + blockCount -= 2; + } + + if (blockCount) + camellia_decrypt (in_blk, out_blk, instance); +} + +#else + +/* +This code is written by kerukuro for cppcrypto library (http://cppcrypto.sourceforge.net/) +and released into public domain. +*/ + +/* Adapted for VeraCrypt */ //#define CPPCRYPTO_DEBUG @@ -721,3 +1862,5 @@ void camellia_decrypt(const unsigned __int8 *in, unsigned __int8 *out, unsigned *(uint64*)out = bswap_64(l); *(uint64*)(out + 8) = bswap_64(r); } + +#endif diff --git a/src/Crypto/Camellia.h b/src/Crypto/Camellia.h index 75e89b5f..988203d0 100644 --- a/src/Crypto/Camellia.h +++ b/src/Crypto/Camellia.h @@ -2,6 +2,7 @@ #define HEADER_Crypto_Camellia #include "Common/Tcdefs.h" +#include "config.h" #ifdef __cplusplus extern "C" @@ -16,6 +17,11 @@ void camellia_set_key(const unsigned __int8 userKey[], unsigned __int8 *ks); void camellia_encrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks); void camellia_decrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks); +#if CRYPTOPP_BOOL_X64 +void camellia_encrypt_blocks(unsigned __int8 *ks, const byte* in_blk, byte* out_blk, uint32 blockCount); +void camellia_decrypt_blocks(unsigned __int8 *ks, const byte* in_blk, byte* out_blk, uint32 blockCount); +#endif + #ifdef __cplusplus } #endif diff --git a/src/Crypto/Camellia_aesni_x64.S b/src/Crypto/Camellia_aesni_x64.S new file mode 100644 index 00000000..4e2e093c --- /dev/null +++ b/src/Crypto/Camellia_aesni_x64.S @@ -0,0 +1,841 @@ +/* camellia_aesni.S ver 1.2 + * + * Copyright © 2012-2013 Jussi Kivilinna <jussi.kivilinna@iki.fi> + * + * Permission to use, copy, modify, and/or distribute this software for any + * purpose with or without fee is hereby granted, provided that the above + * copyright notice and this permission notice appear in all copies. + * + * THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES WITH + * REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY + * AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY SPECIAL, DIRECT, + * INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM + * LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE + * OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR + * PERFORMANCE OF THIS SOFTWARE. + */ + + /* Adapted to VeraCrypt + - original file pre-processed using "gcc -E" + - added instructions at begining of each functiont to adapt to Windows parameters passing convention + - Fix "'ADDR32' relocation" error when building Windows driver by explicitely using %rip addressing when + accessing various locally defined data variables. This has no performance impact. + */ + +.data +.align 16 + + +.Lshufb_16x16b: + .byte 0 + (0), 4 + (0), 8 + (0), 12 + (0), 0 + (1), 4 + (1), 8 + (1), 12 + (1), 0 + (2), 4 + (2), 8 + (2), 12 + (2), 0 + (3), 4 + (3), 8 + (3), 12 + (3); + +.Lpack_bswap: + .long 0x00010203 + .long 0x04050607 + .long 0x80808080 + .long 0x80808080 + + +.Lbswap128_mask: + .byte 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0 + +.Lpre_tf_lo_s1: + .byte 0x45, 0xe8, 0x40, 0xed, 0x2e, 0x83, 0x2b, 0x86 + .byte 0x4b, 0xe6, 0x4e, 0xe3, 0x20, 0x8d, 0x25, 0x88 +.Lpre_tf_hi_s1: + .byte 0x00, 0x51, 0xf1, 0xa0, 0x8a, 0xdb, 0x7b, 0x2a + .byte 0x09, 0x58, 0xf8, 0xa9, 0x83, 0xd2, 0x72, 0x23 + +.Lpre_tf_lo_s4: + .byte 0x45, 0x40, 0x2e, 0x2b, 0x4b, 0x4e, 0x20, 0x25 + .byte 0x14, 0x11, 0x7f, 0x7a, 0x1a, 0x1f, 0x71, 0x74 +.Lpre_tf_hi_s4: + .byte 0x00, 0xf1, 0x8a, 0x7b, 0x09, 0xf8, 0x83, 0x72 + .byte 0xad, 0x5c, 0x27, 0xd6, 0xa4, 0x55, 0x2e, 0xdf + +.Lpost_tf_lo_s1: + .byte 0x3c, 0xcc, 0xcf, 0x3f, 0x32, 0xc2, 0xc1, 0x31 + .byte 0xdc, 0x2c, 0x2f, 0xdf, 0xd2, 0x22, 0x21, 0xd1 +.Lpost_tf_hi_s1: + .byte 0x00, 0xf9, 0x86, 0x7f, 0xd7, 0x2e, 0x51, 0xa8 + .byte 0xa4, 0x5d, 0x22, 0xdb, 0x73, 0x8a, 0xf5, 0x0c + +.Lpost_tf_lo_s2: + .byte 0x78, 0x99, 0x9f, 0x7e, 0x64, 0x85, 0x83, 0x62 + .byte 0xb9, 0x58, 0x5e, 0xbf, 0xa5, 0x44, 0x42, 0xa3 +.Lpost_tf_hi_s2: + .byte 0x00, 0xf3, 0x0d, 0xfe, 0xaf, 0x5c, 0xa2, 0x51 + .byte 0x49, 0xba, 0x44, 0xb7, 0xe6, 0x15, 0xeb, 0x18 + +.Lpost_tf_lo_s3: + .byte 0x1e, 0x66, 0xe7, 0x9f, 0x19, 0x61, 0xe0, 0x98 + .byte 0x6e, 0x16, 0x97, 0xef, 0x69, 0x11, 0x90, 0xe8 +.Lpost_tf_hi_s3: + .byte 0x00, 0xfc, 0x43, 0xbf, 0xeb, 0x17, 0xa8, 0x54 + .byte 0x52, 0xae, 0x11, 0xed, 0xb9, 0x45, 0xfa, 0x06 + + +.Linv_shift_row: + .byte 0x00, 0x0d, 0x0a, 0x07, 0x04, 0x01, 0x0e, 0x0b + .byte 0x08, 0x05, 0x02, 0x0f, 0x0c, 0x09, 0x06, 0x03 + + +.align 4 + +.L0f0f0f0f: + .long 0x0f0f0f0f + +.text + +.align 8 + +__camellia_enc_blk16: + + leaq 8 * 16(%rax), %rcx; + + vmovdqu %xmm11, (%rax); vmovdqu %xmm15, (%rcx); vpunpckhdq %xmm4, %xmm0, %xmm15; vpunpckldq %xmm4, %xmm0, %xmm0; vpunpckldq %xmm12, %xmm8, %xmm11; vpunpckhdq %xmm12, %xmm8, %xmm8; vpunpckhqdq %xmm11, %xmm0, %xmm4; vpunpcklqdq %xmm11, %xmm0, %xmm0; vpunpckhqdq %xmm8, %xmm15, %xmm12; vpunpcklqdq %xmm8, %xmm15, %xmm8;; vpunpckhdq %xmm5, %xmm1, %xmm15; vpunpckldq %xmm5, %xmm1, %xmm1; vpunpckldq %xmm13, %xmm9, %xmm11; vpunpckhdq %xmm13, %xmm9, %xmm9; vpunpckhqdq %xmm11, %xmm1, %xmm5; vpunpcklqdq %xmm11, %xmm1, %xmm1; vpunpckhqdq %xmm9, %xmm15, %xmm13; vpunpcklqdq %xmm9, %xmm15, %xmm9;; vmovdqu (%rax), %xmm11; vmovdqu (%rcx), %xmm15; vmovdqu %xmm0, (%rax); vmovdqu %xmm4, (%rcx); vpunpckhdq %xmm6, %xmm2, %xmm4; vpunpckldq %xmm6, %xmm2, %xmm2; vpunpckldq %xmm14, %xmm10, %xmm0; vpunpckhdq %xmm14, %xmm10, %xmm10; vpunpckhqdq %xmm0, %xmm2, %xmm6; vpunpcklqdq %xmm0, %xmm2, %xmm2; vpunpckhqdq %xmm10, %xmm4, %xmm14; vpunpcklqdq %xmm10, %xmm4, %xmm10;; vpunpckhdq %xmm7, %xmm3, %xmm4; vpunpckldq %xmm7, %xmm3, %xmm3; vpunpckldq %xmm15, %xmm11, %xmm0; vpunpckhdq %xmm15, %xmm11, %xmm11; vpunpckhqdq %xmm0, %xmm3, %xmm7; vpunpcklqdq %xmm0, %xmm3, %xmm3; vpunpckhqdq %xmm11, %xmm4, %xmm15; vpunpcklqdq %xmm11, %xmm4, %xmm11;; vmovdqu .Lshufb_16x16b(%rip), %xmm0; vmovdqu (%rcx), %xmm4; vpshufb %xmm0, %xmm8, %xmm8; vpshufb %xmm0, %xmm12, %xmm12; vpshufb %xmm0, %xmm1, %xmm1; vpshufb %xmm0, %xmm5, %xmm5; vpshufb %xmm0, %xmm9, %xmm9; vpshufb %xmm0, %xmm13, %xmm13; vpshufb %xmm0, %xmm4, %xmm4; vpshufb %xmm0, %xmm2, %xmm2; vpshufb %xmm0, %xmm6, %xmm6; vpshufb %xmm0, %xmm10, %xmm10; vpshufb %xmm0, %xmm14, %xmm14; vpshufb %xmm0, %xmm3, %xmm3; vpshufb %xmm0, %xmm7, %xmm7; vpshufb %xmm0, %xmm11, %xmm11; vpshufb %xmm0, %xmm15, %xmm15; vmovdqu %xmm15, (%rcx); vmovdqu (%rax), %xmm15; vpshufb %xmm0, %xmm15, %xmm0; vmovdqu %xmm11, (%rax); vpunpckhdq %xmm1, %xmm0, %xmm15; vpunpckldq %xmm1, %xmm0, %xmm0; vpunpckldq %xmm3, %xmm2, %xmm11; vpunpckhdq %xmm3, %xmm2, %xmm2; vpunpckhqdq %xmm11, %xmm0, %xmm1; vpunpcklqdq %xmm11, %xmm0, %xmm0; vpunpckhqdq %xmm2, %xmm15, %xmm3; vpunpcklqdq %xmm2, %xmm15, %xmm2;; vpunpckhdq %xmm5, %xmm4, %xmm15; vpunpckldq %xmm5, %xmm4, %xmm4; vpunpckldq %xmm7, %xmm6, %xmm11; vpunpckhdq %xmm7, %xmm6, %xmm6; vpunpckhqdq %xmm11, %xmm4, %xmm5; vpunpcklqdq %xmm11, %xmm4, %xmm4; vpunpckhqdq %xmm6, %xmm15, %xmm7; vpunpcklqdq %xmm6, %xmm15, %xmm6;; vmovdqu (%rax), %xmm11; vmovdqu (%rcx), %xmm15; vmovdqu %xmm1, (%rax); vmovdqu %xmm5, (%rcx); vpunpckhdq %xmm9, %xmm8, %xmm5; vpunpckldq %xmm9, %xmm8, %xmm8; vpunpckldq %xmm11, %xmm10, %xmm1; vpunpckhdq %xmm11, %xmm10, %xmm10; vpunpckhqdq %xmm1, %xmm8, %xmm9; vpunpcklqdq %xmm1, %xmm8, %xmm8; vpunpckhqdq %xmm10, %xmm5, %xmm11; vpunpcklqdq %xmm10, %xmm5, %xmm10;; vpunpckhdq %xmm13, %xmm12, %xmm5; vpunpckldq %xmm13, %xmm12, %xmm12; vpunpckldq %xmm15, %xmm14, %xmm1; vpunpckhdq %xmm15, %xmm14, %xmm14; vpunpckhqdq %xmm1, %xmm12, %xmm13; vpunpcklqdq %xmm1, %xmm12, %xmm12; vpunpckhqdq %xmm14, %xmm5, %xmm15; vpunpcklqdq %xmm14, %xmm5, %xmm14;; vmovdqu (%rax), %xmm1; vmovdqu (%rcx), %xmm5;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax); vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovdqu %xmm12, 4 * 16(%rcx); vmovdqu %xmm13, 5 * 16(%rcx); vmovdqu %xmm14, 6 * 16(%rcx); vmovdqu %xmm15, 7 * 16(%rcx);; + + + + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((0) + 2) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((0) + 2) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((0) + 4) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((0) + 4) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((0) + 6) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((0) + 6) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + vpxor %xmm12, %xmm12, %xmm12; vmovd ((0 + (8) * 8) + 0)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand %xmm0, %xmm8, %xmm8; vpand %xmm1, %xmm9, %xmm9; vpand %xmm2, %xmm10, %xmm10; vpand %xmm3, %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor %xmm4, %xmm8, %xmm4; vmovdqu %xmm4, 4 * 16(%rax); vpxor %xmm5, %xmm9, %xmm5; vmovdqu %xmm5, 5 * 16(%rax); vpxor %xmm6, %xmm10, %xmm6; vmovdqu %xmm6, 6 * 16(%rax); vpxor %xmm7, %xmm11, %xmm7; vmovdqu %xmm7, 7 * 16(%rax); vmovd ((0 + (8) * 8) + 12)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor 4 * 16(%rcx), %xmm8, %xmm8; vpor 5 * 16(%rcx), %xmm9, %xmm9; vpor 6 * 16(%rcx), %xmm10, %xmm10; vpor 7 * 16(%rcx), %xmm11, %xmm11; vpxor 0 * 16(%rcx), %xmm8, %xmm8; vpxor 1 * 16(%rcx), %xmm9, %xmm9; vpxor 2 * 16(%rcx), %xmm10, %xmm10; vpxor 3 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovd ((0 + (8) * 8) + 8)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand 0 * 16(%rcx), %xmm8, %xmm8; vpand 1 * 16(%rcx), %xmm9, %xmm9; vpand 2 * 16(%rcx), %xmm10, %xmm10; vpand 3 * 16(%rcx), %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor 4 * 16(%rcx), %xmm8, %xmm8; vpxor 5 * 16(%rcx), %xmm9, %xmm9; vpxor 6 * 16(%rcx), %xmm10, %xmm10; vpxor 7 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 4 * 16(%rcx); vmovdqu %xmm9, 5 * 16(%rcx); vmovdqu %xmm10, 6 * 16(%rcx); vmovdqu %xmm11, 7 * 16(%rcx); vmovd ((0 + (8) * 8) + 4)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor %xmm4, %xmm8, %xmm8; vpor %xmm5, %xmm9, %xmm9; vpor %xmm6, %xmm10, %xmm10; vpor %xmm7, %xmm11, %xmm11; vpxor %xmm0, %xmm8, %xmm0; vmovdqu %xmm0, 0 * 16(%rax); vpxor %xmm1, %xmm9, %xmm1; vmovdqu %xmm1, 1 * 16(%rax); vpxor %xmm2, %xmm10, %xmm2; vmovdqu %xmm2, 2 * 16(%rax); vpxor %xmm3, %xmm11, %xmm3; vmovdqu %xmm3, 3 * 16(%rax);; + + + + + + + + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((8) + 2) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((8) + 2) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((8) + 4) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((8) + 4) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((8) + 6) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((8) + 6) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + vpxor %xmm12, %xmm12, %xmm12; vmovd ((0 + (16) * 8) + 0)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand %xmm0, %xmm8, %xmm8; vpand %xmm1, %xmm9, %xmm9; vpand %xmm2, %xmm10, %xmm10; vpand %xmm3, %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor %xmm4, %xmm8, %xmm4; vmovdqu %xmm4, 4 * 16(%rax); vpxor %xmm5, %xmm9, %xmm5; vmovdqu %xmm5, 5 * 16(%rax); vpxor %xmm6, %xmm10, %xmm6; vmovdqu %xmm6, 6 * 16(%rax); vpxor %xmm7, %xmm11, %xmm7; vmovdqu %xmm7, 7 * 16(%rax); vmovd ((0 + (16) * 8) + 12)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor 4 * 16(%rcx), %xmm8, %xmm8; vpor 5 * 16(%rcx), %xmm9, %xmm9; vpor 6 * 16(%rcx), %xmm10, %xmm10; vpor 7 * 16(%rcx), %xmm11, %xmm11; vpxor 0 * 16(%rcx), %xmm8, %xmm8; vpxor 1 * 16(%rcx), %xmm9, %xmm9; vpxor 2 * 16(%rcx), %xmm10, %xmm10; vpxor 3 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovd ((0 + (16) * 8) + 8)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand 0 * 16(%rcx), %xmm8, %xmm8; vpand 1 * 16(%rcx), %xmm9, %xmm9; vpand 2 * 16(%rcx), %xmm10, %xmm10; vpand 3 * 16(%rcx), %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor 4 * 16(%rcx), %xmm8, %xmm8; vpxor 5 * 16(%rcx), %xmm9, %xmm9; vpxor 6 * 16(%rcx), %xmm10, %xmm10; vpxor 7 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 4 * 16(%rcx); vmovdqu %xmm9, 5 * 16(%rcx); vmovdqu %xmm10, 6 * 16(%rcx); vmovdqu %xmm11, 7 * 16(%rcx); vmovd ((0 + (16) * 8) + 4)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor %xmm4, %xmm8, %xmm8; vpor %xmm5, %xmm9, %xmm9; vpor %xmm6, %xmm10, %xmm10; vpor %xmm7, %xmm11, %xmm11; vpxor %xmm0, %xmm8, %xmm0; vmovdqu %xmm0, 0 * 16(%rax); vpxor %xmm1, %xmm9, %xmm1; vmovdqu %xmm1, 1 * 16(%rax); vpxor %xmm2, %xmm10, %xmm2; vmovdqu %xmm2, 2 * 16(%rax); vpxor %xmm3, %xmm11, %xmm3; vmovdqu %xmm3, 3 * 16(%rax);; + + + + + + + + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((16) + 2) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((16) + 2) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((16) + 4) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((16) + 4) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((16) + 6) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((16) + 6) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + movl $24, %r8d; + cmpl $16, 272(%rdi); + jne .Lenc_max32; + +.Lenc_done: + + vmovdqu 0 * 16(%rcx), %xmm8; + vmovdqu 1 * 16(%rcx), %xmm9; + vmovdqu 2 * 16(%rcx), %xmm10; + vmovdqu 3 * 16(%rcx), %xmm11; + vmovdqu 4 * 16(%rcx), %xmm12; + vmovdqu 5 * 16(%rcx), %xmm13; + vmovdqu 6 * 16(%rcx), %xmm14; + vmovdqu 7 * 16(%rcx), %xmm15; + + vmovdqu %xmm6, (%rax); vmovdqu %xmm7, 1 * 16(%rax); vpunpckhdq %xmm9, %xmm8, %xmm7; vpunpckldq %xmm9, %xmm8, %xmm8; vpunpckldq %xmm11, %xmm10, %xmm6; vpunpckhdq %xmm11, %xmm10, %xmm10; vpunpckhqdq %xmm6, %xmm8, %xmm9; vpunpcklqdq %xmm6, %xmm8, %xmm8; vpunpckhqdq %xmm10, %xmm7, %xmm11; vpunpcklqdq %xmm10, %xmm7, %xmm10;; vpunpckhdq %xmm13, %xmm12, %xmm7; vpunpckldq %xmm13, %xmm12, %xmm12; vpunpckldq %xmm15, %xmm14, %xmm6; vpunpckhdq %xmm15, %xmm14, %xmm14; vpunpckhqdq %xmm6, %xmm12, %xmm13; vpunpcklqdq %xmm6, %xmm12, %xmm12; vpunpckhqdq %xmm14, %xmm7, %xmm15; vpunpcklqdq %xmm14, %xmm7, %xmm14;; vmovdqu (%rax), %xmm6; vmovdqu 1 * 16(%rax), %xmm7; vmovdqu %xmm8, (%rax); vmovdqu %xmm9, 1 * 16(%rax); vpunpckhdq %xmm1, %xmm0, %xmm9; vpunpckldq %xmm1, %xmm0, %xmm0; vpunpckldq %xmm3, %xmm2, %xmm8; vpunpckhdq %xmm3, %xmm2, %xmm2; vpunpckhqdq %xmm8, %xmm0, %xmm1; vpunpcklqdq %xmm8, %xmm0, %xmm0; vpunpckhqdq %xmm2, %xmm9, %xmm3; vpunpcklqdq %xmm2, %xmm9, %xmm2;; vpunpckhdq %xmm5, %xmm4, %xmm9; vpunpckldq %xmm5, %xmm4, %xmm4; vpunpckldq %xmm7, %xmm6, %xmm8; vpunpckhdq %xmm7, %xmm6, %xmm6; vpunpckhqdq %xmm8, %xmm4, %xmm5; vpunpcklqdq %xmm8, %xmm4, %xmm4; vpunpckhqdq %xmm6, %xmm9, %xmm7; vpunpcklqdq %xmm6, %xmm9, %xmm6;; vmovdqu .Lshufb_16x16b(%rip), %xmm8; vmovdqu 1 * 16(%rax), %xmm9; vpshufb %xmm8, %xmm10, %xmm10; vpshufb %xmm8, %xmm11, %xmm11; vpshufb %xmm8, %xmm12, %xmm12; vpshufb %xmm8, %xmm13, %xmm13; vpshufb %xmm8, %xmm14, %xmm14; vpshufb %xmm8, %xmm15, %xmm15; vpshufb %xmm8, %xmm9, %xmm9; vpshufb %xmm8, %xmm0, %xmm0; vpshufb %xmm8, %xmm1, %xmm1; vpshufb %xmm8, %xmm2, %xmm2; vpshufb %xmm8, %xmm3, %xmm3; vpshufb %xmm8, %xmm4, %xmm4; vpshufb %xmm8, %xmm5, %xmm5; vpshufb %xmm8, %xmm6, %xmm6; vpshufb %xmm8, %xmm7, %xmm7; vmovdqu %xmm7, 1 * 16(%rax); vmovdqu (%rax), %xmm7; vpshufb %xmm8, %xmm7, %xmm8; vmovdqu %xmm6, (%rax); vpunpckhdq %xmm12, %xmm8, %xmm7; vpunpckldq %xmm12, %xmm8, %xmm8; vpunpckldq %xmm4, %xmm0, %xmm6; vpunpckhdq %xmm4, %xmm0, %xmm0; vpunpckhqdq %xmm6, %xmm8, %xmm12; vpunpcklqdq %xmm6, %xmm8, %xmm8; vpunpckhqdq %xmm0, %xmm7, %xmm4; vpunpcklqdq %xmm0, %xmm7, %xmm0;; vpunpckhdq %xmm13, %xmm9, %xmm7; vpunpckldq %xmm13, %xmm9, %xmm9; vpunpckldq %xmm5, %xmm1, %xmm6; vpunpckhdq %xmm5, %xmm1, %xmm1; vpunpckhqdq %xmm6, %xmm9, %xmm13; vpunpcklqdq %xmm6, %xmm9, %xmm9; vpunpckhqdq %xmm1, %xmm7, %xmm5; vpunpcklqdq %xmm1, %xmm7, %xmm1;; vmovdqu (%rax), %xmm6; vmovdqu 1 * 16(%rax), %xmm7; vmovdqu %xmm12, (%rax); vmovdqu %xmm13, 1 * 16(%rax); vpunpckhdq %xmm14, %xmm10, %xmm13; vpunpckldq %xmm14, %xmm10, %xmm10; vpunpckldq %xmm6, %xmm2, %xmm12; vpunpckhdq %xmm6, %xmm2, %xmm2; vpunpckhqdq %xmm12, %xmm10, %xmm14; vpunpcklqdq %xmm12, %xmm10, %xmm10; vpunpckhqdq %xmm2, %xmm13, %xmm6; vpunpcklqdq %xmm2, %xmm13, %xmm2;; vpunpckhdq %xmm15, %xmm11, %xmm13; vpunpckldq %xmm15, %xmm11, %xmm11; vpunpckldq %xmm7, %xmm3, %xmm12; vpunpckhdq %xmm7, %xmm3, %xmm3; vpunpckhqdq %xmm12, %xmm11, %xmm15; vpunpcklqdq %xmm12, %xmm11, %xmm11; vpunpckhqdq %xmm3, %xmm13, %xmm7; vpunpcklqdq %xmm3, %xmm13, %xmm3;; vmovdqu (%rax), %xmm12; vmovdqu 1 * 16(%rax), %xmm13;; vmovdqu %xmm0, (%rax); vmovq (0)(%rdi, %r8, 8), %xmm0; vpshufb .Lpack_bswap(%rip), %xmm0, %xmm0; vpxor %xmm0, %xmm15, %xmm15; vpxor %xmm0, %xmm14, %xmm14; vpxor %xmm0, %xmm13, %xmm13; vpxor %xmm0, %xmm12, %xmm12; vpxor %xmm0, %xmm11, %xmm11; vpxor %xmm0, %xmm10, %xmm10; vpxor %xmm0, %xmm9, %xmm9; vpxor %xmm0, %xmm8, %xmm8; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm0, %xmm4, %xmm4; vpxor %xmm0, %xmm3, %xmm3; vpxor %xmm0, %xmm2, %xmm2; vpxor %xmm0, %xmm1, %xmm1; vpxor (%rax), %xmm0, %xmm0;; + + + + ret; + +.align 8 +.Lenc_max32: + movl $32, %r8d; + + vpxor %xmm12, %xmm12, %xmm12; vmovd ((0 + (24) * 8) + 0)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand %xmm0, %xmm8, %xmm8; vpand %xmm1, %xmm9, %xmm9; vpand %xmm2, %xmm10, %xmm10; vpand %xmm3, %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor %xmm4, %xmm8, %xmm4; vmovdqu %xmm4, 4 * 16(%rax); vpxor %xmm5, %xmm9, %xmm5; vmovdqu %xmm5, 5 * 16(%rax); vpxor %xmm6, %xmm10, %xmm6; vmovdqu %xmm6, 6 * 16(%rax); vpxor %xmm7, %xmm11, %xmm7; vmovdqu %xmm7, 7 * 16(%rax); vmovd ((0 + (24) * 8) + 12)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor 4 * 16(%rcx), %xmm8, %xmm8; vpor 5 * 16(%rcx), %xmm9, %xmm9; vpor 6 * 16(%rcx), %xmm10, %xmm10; vpor 7 * 16(%rcx), %xmm11, %xmm11; vpxor 0 * 16(%rcx), %xmm8, %xmm8; vpxor 1 * 16(%rcx), %xmm9, %xmm9; vpxor 2 * 16(%rcx), %xmm10, %xmm10; vpxor 3 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovd ((0 + (24) * 8) + 8)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand 0 * 16(%rcx), %xmm8, %xmm8; vpand 1 * 16(%rcx), %xmm9, %xmm9; vpand 2 * 16(%rcx), %xmm10, %xmm10; vpand 3 * 16(%rcx), %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor 4 * 16(%rcx), %xmm8, %xmm8; vpxor 5 * 16(%rcx), %xmm9, %xmm9; vpxor 6 * 16(%rcx), %xmm10, %xmm10; vpxor 7 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 4 * 16(%rcx); vmovdqu %xmm9, 5 * 16(%rcx); vmovdqu %xmm10, 6 * 16(%rcx); vmovdqu %xmm11, 7 * 16(%rcx); vmovd ((0 + (24) * 8) + 4)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor %xmm4, %xmm8, %xmm8; vpor %xmm5, %xmm9, %xmm9; vpor %xmm6, %xmm10, %xmm10; vpor %xmm7, %xmm11, %xmm11; vpxor %xmm0, %xmm8, %xmm0; vmovdqu %xmm0, 0 * 16(%rax); vpxor %xmm1, %xmm9, %xmm1; vmovdqu %xmm1, 1 * 16(%rax); vpxor %xmm2, %xmm10, %xmm2; vmovdqu %xmm2, 2 * 16(%rax); vpxor %xmm3, %xmm11, %xmm3; vmovdqu %xmm3, 3 * 16(%rax);; + + + + + + + + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((24) + 2) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((24) + 2) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((24) + 4) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((24) + 4) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((24) + 6) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((24) + 6) + (1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + jmp .Lenc_done; + +.align 8 + +__camellia_dec_blk16: + + leaq 8 * 16(%rax), %rcx; + + vmovdqu %xmm11, (%rax); vmovdqu %xmm15, (%rcx); vpunpckhdq %xmm4, %xmm0, %xmm15; vpunpckldq %xmm4, %xmm0, %xmm0; vpunpckldq %xmm12, %xmm8, %xmm11; vpunpckhdq %xmm12, %xmm8, %xmm8; vpunpckhqdq %xmm11, %xmm0, %xmm4; vpunpcklqdq %xmm11, %xmm0, %xmm0; vpunpckhqdq %xmm8, %xmm15, %xmm12; vpunpcklqdq %xmm8, %xmm15, %xmm8;; vpunpckhdq %xmm5, %xmm1, %xmm15; vpunpckldq %xmm5, %xmm1, %xmm1; vpunpckldq %xmm13, %xmm9, %xmm11; vpunpckhdq %xmm13, %xmm9, %xmm9; vpunpckhqdq %xmm11, %xmm1, %xmm5; vpunpcklqdq %xmm11, %xmm1, %xmm1; vpunpckhqdq %xmm9, %xmm15, %xmm13; vpunpcklqdq %xmm9, %xmm15, %xmm9;; vmovdqu (%rax), %xmm11; vmovdqu (%rcx), %xmm15; vmovdqu %xmm0, (%rax); vmovdqu %xmm4, (%rcx); vpunpckhdq %xmm6, %xmm2, %xmm4; vpunpckldq %xmm6, %xmm2, %xmm2; vpunpckldq %xmm14, %xmm10, %xmm0; vpunpckhdq %xmm14, %xmm10, %xmm10; vpunpckhqdq %xmm0, %xmm2, %xmm6; vpunpcklqdq %xmm0, %xmm2, %xmm2; vpunpckhqdq %xmm10, %xmm4, %xmm14; vpunpcklqdq %xmm10, %xmm4, %xmm10;; vpunpckhdq %xmm7, %xmm3, %xmm4; vpunpckldq %xmm7, %xmm3, %xmm3; vpunpckldq %xmm15, %xmm11, %xmm0; vpunpckhdq %xmm15, %xmm11, %xmm11; vpunpckhqdq %xmm0, %xmm3, %xmm7; vpunpcklqdq %xmm0, %xmm3, %xmm3; vpunpckhqdq %xmm11, %xmm4, %xmm15; vpunpcklqdq %xmm11, %xmm4, %xmm11;; vmovdqu .Lshufb_16x16b(%rip), %xmm0; vmovdqu (%rcx), %xmm4; vpshufb %xmm0, %xmm8, %xmm8; vpshufb %xmm0, %xmm12, %xmm12; vpshufb %xmm0, %xmm1, %xmm1; vpshufb %xmm0, %xmm5, %xmm5; vpshufb %xmm0, %xmm9, %xmm9; vpshufb %xmm0, %xmm13, %xmm13; vpshufb %xmm0, %xmm4, %xmm4; vpshufb %xmm0, %xmm2, %xmm2; vpshufb %xmm0, %xmm6, %xmm6; vpshufb %xmm0, %xmm10, %xmm10; vpshufb %xmm0, %xmm14, %xmm14; vpshufb %xmm0, %xmm3, %xmm3; vpshufb %xmm0, %xmm7, %xmm7; vpshufb %xmm0, %xmm11, %xmm11; vpshufb %xmm0, %xmm15, %xmm15; vmovdqu %xmm15, (%rcx); vmovdqu (%rax), %xmm15; vpshufb %xmm0, %xmm15, %xmm0; vmovdqu %xmm11, (%rax); vpunpckhdq %xmm1, %xmm0, %xmm15; vpunpckldq %xmm1, %xmm0, %xmm0; vpunpckldq %xmm3, %xmm2, %xmm11; vpunpckhdq %xmm3, %xmm2, %xmm2; vpunpckhqdq %xmm11, %xmm0, %xmm1; vpunpcklqdq %xmm11, %xmm0, %xmm0; vpunpckhqdq %xmm2, %xmm15, %xmm3; vpunpcklqdq %xmm2, %xmm15, %xmm2;; vpunpckhdq %xmm5, %xmm4, %xmm15; vpunpckldq %xmm5, %xmm4, %xmm4; vpunpckldq %xmm7, %xmm6, %xmm11; vpunpckhdq %xmm7, %xmm6, %xmm6; vpunpckhqdq %xmm11, %xmm4, %xmm5; vpunpcklqdq %xmm11, %xmm4, %xmm4; vpunpckhqdq %xmm6, %xmm15, %xmm7; vpunpcklqdq %xmm6, %xmm15, %xmm6;; vmovdqu (%rax), %xmm11; vmovdqu (%rcx), %xmm15; vmovdqu %xmm1, (%rax); vmovdqu %xmm5, (%rcx); vpunpckhdq %xmm9, %xmm8, %xmm5; vpunpckldq %xmm9, %xmm8, %xmm8; vpunpckldq %xmm11, %xmm10, %xmm1; vpunpckhdq %xmm11, %xmm10, %xmm10; vpunpckhqdq %xmm1, %xmm8, %xmm9; vpunpcklqdq %xmm1, %xmm8, %xmm8; vpunpckhqdq %xmm10, %xmm5, %xmm11; vpunpcklqdq %xmm10, %xmm5, %xmm10;; vpunpckhdq %xmm13, %xmm12, %xmm5; vpunpckldq %xmm13, %xmm12, %xmm12; vpunpckldq %xmm15, %xmm14, %xmm1; vpunpckhdq %xmm15, %xmm14, %xmm14; vpunpckhqdq %xmm1, %xmm12, %xmm13; vpunpcklqdq %xmm1, %xmm12, %xmm12; vpunpckhqdq %xmm14, %xmm5, %xmm15; vpunpcklqdq %xmm14, %xmm5, %xmm14;; vmovdqu (%rax), %xmm1; vmovdqu (%rcx), %xmm5;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax); vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovdqu %xmm12, 4 * 16(%rcx); vmovdqu %xmm13, 5 * 16(%rcx); vmovdqu %xmm14, 6 * 16(%rcx); vmovdqu %xmm15, 7 * 16(%rcx);; + + + + cmpl $32, %r8d; + je .Ldec_max32; + +.Ldec_max24: + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((16) + 7) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((16) + 7) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((16) + 5) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((16) + 5) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((16) + 3) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((16) + 3) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + vpxor %xmm12, %xmm12, %xmm12; vmovd ((0 + (16) * 8) + 8)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand %xmm0, %xmm8, %xmm8; vpand %xmm1, %xmm9, %xmm9; vpand %xmm2, %xmm10, %xmm10; vpand %xmm3, %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor %xmm4, %xmm8, %xmm4; vmovdqu %xmm4, 4 * 16(%rax); vpxor %xmm5, %xmm9, %xmm5; vmovdqu %xmm5, 5 * 16(%rax); vpxor %xmm6, %xmm10, %xmm6; vmovdqu %xmm6, 6 * 16(%rax); vpxor %xmm7, %xmm11, %xmm7; vmovdqu %xmm7, 7 * 16(%rax); vmovd ((0 + (16) * 8) + 4)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor 4 * 16(%rcx), %xmm8, %xmm8; vpor 5 * 16(%rcx), %xmm9, %xmm9; vpor 6 * 16(%rcx), %xmm10, %xmm10; vpor 7 * 16(%rcx), %xmm11, %xmm11; vpxor 0 * 16(%rcx), %xmm8, %xmm8; vpxor 1 * 16(%rcx), %xmm9, %xmm9; vpxor 2 * 16(%rcx), %xmm10, %xmm10; vpxor 3 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovd ((0 + (16) * 8) + 0)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand 0 * 16(%rcx), %xmm8, %xmm8; vpand 1 * 16(%rcx), %xmm9, %xmm9; vpand 2 * 16(%rcx), %xmm10, %xmm10; vpand 3 * 16(%rcx), %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor 4 * 16(%rcx), %xmm8, %xmm8; vpxor 5 * 16(%rcx), %xmm9, %xmm9; vpxor 6 * 16(%rcx), %xmm10, %xmm10; vpxor 7 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 4 * 16(%rcx); vmovdqu %xmm9, 5 * 16(%rcx); vmovdqu %xmm10, 6 * 16(%rcx); vmovdqu %xmm11, 7 * 16(%rcx); vmovd ((0 + (16) * 8) + 12)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor %xmm4, %xmm8, %xmm8; vpor %xmm5, %xmm9, %xmm9; vpor %xmm6, %xmm10, %xmm10; vpor %xmm7, %xmm11, %xmm11; vpxor %xmm0, %xmm8, %xmm0; vmovdqu %xmm0, 0 * 16(%rax); vpxor %xmm1, %xmm9, %xmm1; vmovdqu %xmm1, 1 * 16(%rax); vpxor %xmm2, %xmm10, %xmm2; vmovdqu %xmm2, 2 * 16(%rax); vpxor %xmm3, %xmm11, %xmm3; vmovdqu %xmm3, 3 * 16(%rax);; + + + + + + + + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((8) + 7) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((8) + 7) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((8) + 5) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((8) + 5) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((8) + 3) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((8) + 3) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + vpxor %xmm12, %xmm12, %xmm12; vmovd ((0 + (8) * 8) + 8)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand %xmm0, %xmm8, %xmm8; vpand %xmm1, %xmm9, %xmm9; vpand %xmm2, %xmm10, %xmm10; vpand %xmm3, %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor %xmm4, %xmm8, %xmm4; vmovdqu %xmm4, 4 * 16(%rax); vpxor %xmm5, %xmm9, %xmm5; vmovdqu %xmm5, 5 * 16(%rax); vpxor %xmm6, %xmm10, %xmm6; vmovdqu %xmm6, 6 * 16(%rax); vpxor %xmm7, %xmm11, %xmm7; vmovdqu %xmm7, 7 * 16(%rax); vmovd ((0 + (8) * 8) + 4)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor 4 * 16(%rcx), %xmm8, %xmm8; vpor 5 * 16(%rcx), %xmm9, %xmm9; vpor 6 * 16(%rcx), %xmm10, %xmm10; vpor 7 * 16(%rcx), %xmm11, %xmm11; vpxor 0 * 16(%rcx), %xmm8, %xmm8; vpxor 1 * 16(%rcx), %xmm9, %xmm9; vpxor 2 * 16(%rcx), %xmm10, %xmm10; vpxor 3 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovd ((0 + (8) * 8) + 0)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand 0 * 16(%rcx), %xmm8, %xmm8; vpand 1 * 16(%rcx), %xmm9, %xmm9; vpand 2 * 16(%rcx), %xmm10, %xmm10; vpand 3 * 16(%rcx), %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor 4 * 16(%rcx), %xmm8, %xmm8; vpxor 5 * 16(%rcx), %xmm9, %xmm9; vpxor 6 * 16(%rcx), %xmm10, %xmm10; vpxor 7 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 4 * 16(%rcx); vmovdqu %xmm9, 5 * 16(%rcx); vmovdqu %xmm10, 6 * 16(%rcx); vmovdqu %xmm11, 7 * 16(%rcx); vmovd ((0 + (8) * 8) + 12)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor %xmm4, %xmm8, %xmm8; vpor %xmm5, %xmm9, %xmm9; vpor %xmm6, %xmm10, %xmm10; vpor %xmm7, %xmm11, %xmm11; vpxor %xmm0, %xmm8, %xmm0; vmovdqu %xmm0, 0 * 16(%rax); vpxor %xmm1, %xmm9, %xmm1; vmovdqu %xmm1, 1 * 16(%rax); vpxor %xmm2, %xmm10, %xmm2; vmovdqu %xmm2, 2 * 16(%rax); vpxor %xmm3, %xmm11, %xmm3; vmovdqu %xmm3, 3 * 16(%rax);; + + + + + + + + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((0) + 7) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((0) + 7) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((0) + 5) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((0) + 5) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((0) + 3) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((0) + 3) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + + vmovdqu 0 * 16(%rcx), %xmm8; + vmovdqu 1 * 16(%rcx), %xmm9; + vmovdqu 2 * 16(%rcx), %xmm10; + vmovdqu 3 * 16(%rcx), %xmm11; + vmovdqu 4 * 16(%rcx), %xmm12; + vmovdqu 5 * 16(%rcx), %xmm13; + vmovdqu 6 * 16(%rcx), %xmm14; + vmovdqu 7 * 16(%rcx), %xmm15; + + vmovdqu %xmm6, (%rax); vmovdqu %xmm7, 1 * 16(%rax); vpunpckhdq %xmm9, %xmm8, %xmm7; vpunpckldq %xmm9, %xmm8, %xmm8; vpunpckldq %xmm11, %xmm10, %xmm6; vpunpckhdq %xmm11, %xmm10, %xmm10; vpunpckhqdq %xmm6, %xmm8, %xmm9; vpunpcklqdq %xmm6, %xmm8, %xmm8; vpunpckhqdq %xmm10, %xmm7, %xmm11; vpunpcklqdq %xmm10, %xmm7, %xmm10;; vpunpckhdq %xmm13, %xmm12, %xmm7; vpunpckldq %xmm13, %xmm12, %xmm12; vpunpckldq %xmm15, %xmm14, %xmm6; vpunpckhdq %xmm15, %xmm14, %xmm14; vpunpckhqdq %xmm6, %xmm12, %xmm13; vpunpcklqdq %xmm6, %xmm12, %xmm12; vpunpckhqdq %xmm14, %xmm7, %xmm15; vpunpcklqdq %xmm14, %xmm7, %xmm14;; vmovdqu (%rax), %xmm6; vmovdqu 1 * 16(%rax), %xmm7; vmovdqu %xmm8, (%rax); vmovdqu %xmm9, 1 * 16(%rax); vpunpckhdq %xmm1, %xmm0, %xmm9; vpunpckldq %xmm1, %xmm0, %xmm0; vpunpckldq %xmm3, %xmm2, %xmm8; vpunpckhdq %xmm3, %xmm2, %xmm2; vpunpckhqdq %xmm8, %xmm0, %xmm1; vpunpcklqdq %xmm8, %xmm0, %xmm0; vpunpckhqdq %xmm2, %xmm9, %xmm3; vpunpcklqdq %xmm2, %xmm9, %xmm2;; vpunpckhdq %xmm5, %xmm4, %xmm9; vpunpckldq %xmm5, %xmm4, %xmm4; vpunpckldq %xmm7, %xmm6, %xmm8; vpunpckhdq %xmm7, %xmm6, %xmm6; vpunpckhqdq %xmm8, %xmm4, %xmm5; vpunpcklqdq %xmm8, %xmm4, %xmm4; vpunpckhqdq %xmm6, %xmm9, %xmm7; vpunpcklqdq %xmm6, %xmm9, %xmm6;; vmovdqu .Lshufb_16x16b(%rip), %xmm8; vmovdqu 1 * 16(%rax), %xmm9; vpshufb %xmm8, %xmm10, %xmm10; vpshufb %xmm8, %xmm11, %xmm11; vpshufb %xmm8, %xmm12, %xmm12; vpshufb %xmm8, %xmm13, %xmm13; vpshufb %xmm8, %xmm14, %xmm14; vpshufb %xmm8, %xmm15, %xmm15; vpshufb %xmm8, %xmm9, %xmm9; vpshufb %xmm8, %xmm0, %xmm0; vpshufb %xmm8, %xmm1, %xmm1; vpshufb %xmm8, %xmm2, %xmm2; vpshufb %xmm8, %xmm3, %xmm3; vpshufb %xmm8, %xmm4, %xmm4; vpshufb %xmm8, %xmm5, %xmm5; vpshufb %xmm8, %xmm6, %xmm6; vpshufb %xmm8, %xmm7, %xmm7; vmovdqu %xmm7, 1 * 16(%rax); vmovdqu (%rax), %xmm7; vpshufb %xmm8, %xmm7, %xmm8; vmovdqu %xmm6, (%rax); vpunpckhdq %xmm12, %xmm8, %xmm7; vpunpckldq %xmm12, %xmm8, %xmm8; vpunpckldq %xmm4, %xmm0, %xmm6; vpunpckhdq %xmm4, %xmm0, %xmm0; vpunpckhqdq %xmm6, %xmm8, %xmm12; vpunpcklqdq %xmm6, %xmm8, %xmm8; vpunpckhqdq %xmm0, %xmm7, %xmm4; vpunpcklqdq %xmm0, %xmm7, %xmm0;; vpunpckhdq %xmm13, %xmm9, %xmm7; vpunpckldq %xmm13, %xmm9, %xmm9; vpunpckldq %xmm5, %xmm1, %xmm6; vpunpckhdq %xmm5, %xmm1, %xmm1; vpunpckhqdq %xmm6, %xmm9, %xmm13; vpunpcklqdq %xmm6, %xmm9, %xmm9; vpunpckhqdq %xmm1, %xmm7, %xmm5; vpunpcklqdq %xmm1, %xmm7, %xmm1;; vmovdqu (%rax), %xmm6; vmovdqu 1 * 16(%rax), %xmm7; vmovdqu %xmm12, (%rax); vmovdqu %xmm13, 1 * 16(%rax); vpunpckhdq %xmm14, %xmm10, %xmm13; vpunpckldq %xmm14, %xmm10, %xmm10; vpunpckldq %xmm6, %xmm2, %xmm12; vpunpckhdq %xmm6, %xmm2, %xmm2; vpunpckhqdq %xmm12, %xmm10, %xmm14; vpunpcklqdq %xmm12, %xmm10, %xmm10; vpunpckhqdq %xmm2, %xmm13, %xmm6; vpunpcklqdq %xmm2, %xmm13, %xmm2;; vpunpckhdq %xmm15, %xmm11, %xmm13; vpunpckldq %xmm15, %xmm11, %xmm11; vpunpckldq %xmm7, %xmm3, %xmm12; vpunpckhdq %xmm7, %xmm3, %xmm3; vpunpckhqdq %xmm12, %xmm11, %xmm15; vpunpcklqdq %xmm12, %xmm11, %xmm11; vpunpckhqdq %xmm3, %xmm13, %xmm7; vpunpcklqdq %xmm3, %xmm13, %xmm3;; vmovdqu (%rax), %xmm12; vmovdqu 1 * 16(%rax), %xmm13;; vmovdqu %xmm0, (%rax); vmovq (0)(%rdi), %xmm0; vpshufb .Lpack_bswap(%rip), %xmm0, %xmm0; vpxor %xmm0, %xmm15, %xmm15; vpxor %xmm0, %xmm14, %xmm14; vpxor %xmm0, %xmm13, %xmm13; vpxor %xmm0, %xmm12, %xmm12; vpxor %xmm0, %xmm11, %xmm11; vpxor %xmm0, %xmm10, %xmm10; vpxor %xmm0, %xmm9, %xmm9; vpxor %xmm0, %xmm8, %xmm8; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm0, %xmm4, %xmm4; vpxor %xmm0, %xmm3, %xmm3; vpxor %xmm0, %xmm2, %xmm2; vpxor %xmm0, %xmm1, %xmm1; vpxor (%rax), %xmm0, %xmm0;; + + + + ret; + +.align 8 +.Ldec_max32: + vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((24) + 7) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((24) + 7) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((24) + 5) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((24) + 5) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; vmovdqu %xmm0, 0 * 16(%rax); vmovdqu %xmm1, 1 * 16(%rax); vmovdqu %xmm2, 2 * 16(%rax); vmovdqu %xmm3, 3 * 16(%rax); vmovdqu %xmm4, 4 * 16(%rax); vmovdqu %xmm5, 5 * 16(%rax); vmovdqu %xmm6, 6 * 16(%rax); vmovdqu %xmm7, 7 * 16(%rax);;; vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm2, %xmm2; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm6, %xmm6; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm3, %xmm11, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm2, %xmm2; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm6, %xmm6; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm5, %xmm11, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + ((24) + 3) * 8)(%rdi), %xmm8; vpand %xmm1, %xmm15, %xmm10; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm1, %xmm13, %xmm1; vpxor %xmm10, %xmm1, %xmm1;; vpand %xmm4, %xmm15, %xmm10; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm4, %xmm13, %xmm4; vpxor %xmm10, %xmm4, %xmm4;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm5, %xmm0, %xmm0; vpxor %xmm6, %xmm1, %xmm1; vpxor %xmm7, %xmm2, %xmm2; vpxor %xmm4, %xmm3, %xmm3; vpxor %xmm2, %xmm4, %xmm4; vpxor %xmm3, %xmm5, %xmm5; vpxor %xmm0, %xmm6, %xmm6; vpxor %xmm1, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm11, %xmm4, %xmm4; vpxor 0 * 16(%rcx), %xmm4, %xmm4; vpxor %xmm10, %xmm5, %xmm5; vpxor 1 * 16(%rcx), %xmm5, %xmm5; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm6, %xmm6; vpxor 2 * 16(%rcx), %xmm6, %xmm6; vpxor %xmm8, %xmm7, %xmm7; vpxor 3 * 16(%rcx), %xmm7, %xmm7; vpxor %xmm15, %xmm0, %xmm0; vpxor 4 * 16(%rcx), %xmm0, %xmm0; vpxor %xmm14, %xmm1, %xmm1; vpxor 5 * 16(%rcx), %xmm1, %xmm1; vpxor %xmm13, %xmm2, %xmm2; vpxor 6 * 16(%rcx), %xmm2, %xmm2; vpxor %xmm12, %xmm3, %xmm3; vpxor 7 * 16(%rcx), %xmm3, %xmm3;; vmovdqu %xmm4, 0 * 16(%rcx); vmovdqu %xmm5, 1 * 16(%rcx); vmovdqu %xmm6, 2 * 16(%rcx); vmovdqu %xmm7, 3 * 16(%rcx); vmovdqu %xmm0, 4 * 16(%rcx); vmovdqu %xmm1, 5 * 16(%rcx); vmovdqu %xmm2, 6 * 16(%rcx); vmovdqu %xmm3, 7 * 16(%rcx); vmovdqu .Linv_shift_row(%rip), %xmm12; vbroadcastss .L0f0f0f0f(%rip), %xmm15; vmovdqu .Lpre_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpre_tf_hi_s1(%rip), %xmm9; vpshufb %xmm12, %xmm4, %xmm4; vpshufb %xmm12, %xmm3, %xmm3; vpshufb %xmm12, %xmm5, %xmm5; vpshufb %xmm12, %xmm0, %xmm0; vpshufb %xmm12, %xmm6, %xmm6; vpshufb %xmm12, %xmm1, %xmm1; vpshufb %xmm12, %xmm7, %xmm7; vpshufb %xmm12, %xmm2, %xmm2; vmovdqu .Lpre_tf_lo_s4(%rip), %xmm10; vmovdqu .Lpre_tf_hi_s4(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm5, %xmm15, %xmm14; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm5, %xmm9, %xmm5; vpxor %xmm14, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm14; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm0, %xmm9, %xmm0; vpxor %xmm14, %xmm0, %xmm0;; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm6, %xmm9, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm1, %xmm9, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm12, %xmm12, %xmm12; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm7, %xmm11, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm2, %xmm11, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s1(%rip), %xmm8; vmovdqu .Lpost_tf_hi_s1(%rip), %xmm9; vaesenclast %xmm12, %xmm4, %xmm4; vaesenclast %xmm12, %xmm3, %xmm3; vaesenclast %xmm12, %xmm5, %xmm5; vaesenclast %xmm12, %xmm0, %xmm0; vaesenclast %xmm12, %xmm6, %xmm6; vaesenclast %xmm12, %xmm1, %xmm1; vaesenclast %xmm12, %xmm7, %xmm7; vaesenclast %xmm12, %xmm2, %xmm2; vmovdqu .Lpost_tf_lo_s3(%rip), %xmm10; vmovdqu .Lpost_tf_hi_s3(%rip), %xmm11; vpand %xmm4, %xmm15, %xmm14; vpandn %xmm4, %xmm15, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm4, %xmm9, %xmm4; vpxor %xmm14, %xmm4, %xmm4;; vpand %xmm3, %xmm15, %xmm14; vpandn %xmm3, %xmm15, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm3, %xmm9, %xmm3; vpxor %xmm14, %xmm3, %xmm3;; vpand %xmm7, %xmm15, %xmm14; vpandn %xmm7, %xmm15, %xmm7; vpsrld $4, %xmm7, %xmm7; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm7, %xmm9, %xmm7; vpxor %xmm14, %xmm7, %xmm7;; vpand %xmm2, %xmm15, %xmm14; vpandn %xmm2, %xmm15, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm14, %xmm8, %xmm14; vpshufb %xmm2, %xmm9, %xmm2; vpxor %xmm14, %xmm2, %xmm2;; vmovdqu .Lpost_tf_lo_s2(%rip), %xmm12; vmovdqu .Lpost_tf_hi_s2(%rip), %xmm13; vpand %xmm6, %xmm15, %xmm14; vpandn %xmm6, %xmm15, %xmm6; vpsrld $4, %xmm6, %xmm6; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm6, %xmm11, %xmm6; vpxor %xmm14, %xmm6, %xmm6;; vpand %xmm1, %xmm15, %xmm14; vpandn %xmm1, %xmm15, %xmm1; vpsrld $4, %xmm1, %xmm1; vpshufb %xmm14, %xmm10, %xmm14; vpshufb %xmm1, %xmm11, %xmm1; vpxor %xmm14, %xmm1, %xmm1;; vpxor %xmm14, %xmm14, %xmm14; vmovq (0 + (((24) + 3) + (-1)) * 8)(%rdi), %xmm8; vpand %xmm5, %xmm15, %xmm10; vpandn %xmm5, %xmm15, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm5, %xmm13, %xmm5; vpxor %xmm10, %xmm5, %xmm5;; vpand %xmm0, %xmm15, %xmm10; vpandn %xmm0, %xmm15, %xmm0; vpsrld $4, %xmm0, %xmm0; vpshufb %xmm10, %xmm12, %xmm10; vpshufb %xmm0, %xmm13, %xmm0; vpxor %xmm10, %xmm0, %xmm0;; vpsrldq $5, %xmm8, %xmm13; vpsrldq $1, %xmm8, %xmm9; vpsrldq $2, %xmm8, %xmm10; vpsrldq $3, %xmm8, %xmm11; vpsrldq $4, %xmm8, %xmm12; vpshufb %xmm14, %xmm8, %xmm8; vpshufb %xmm14, %xmm9, %xmm9; vpshufb %xmm14, %xmm10, %xmm10; vpshufb %xmm14, %xmm11, %xmm11; vpshufb %xmm14, %xmm12, %xmm12; vpsrldq $2, %xmm13, %xmm15; vpshufb %xmm14, %xmm15, %xmm15; vpxor %xmm1, %xmm4, %xmm4; vpxor %xmm2, %xmm5, %xmm5; vpxor %xmm3, %xmm6, %xmm6; vpxor %xmm0, %xmm7, %xmm7; vpxor %xmm6, %xmm0, %xmm0; vpxor %xmm7, %xmm1, %xmm1; vpxor %xmm4, %xmm2, %xmm2; vpxor %xmm5, %xmm3, %xmm3; vpxor %xmm3, %xmm4, %xmm4; vpxor %xmm0, %xmm5, %xmm5; vpxor %xmm1, %xmm6, %xmm6; vpxor %xmm2, %xmm7, %xmm7; vpxor %xmm7, %xmm0, %xmm0; vpxor %xmm4, %xmm1, %xmm1; vpxor %xmm5, %xmm2, %xmm2; vpxor %xmm6, %xmm3, %xmm3; vpxor %xmm11, %xmm0, %xmm0; vpxor 0 * 16(%rax), %xmm0, %xmm0; vpxor %xmm10, %xmm1, %xmm1; vpxor 1 * 16(%rax), %xmm1, %xmm1; vpsrldq $1, %xmm13, %xmm11; vpshufb %xmm14, %xmm13, %xmm13; vpshufb %xmm14, %xmm11, %xmm14; vpxor %xmm9, %xmm2, %xmm2; vpxor 2 * 16(%rax), %xmm2, %xmm2; vpxor %xmm8, %xmm3, %xmm3; vpxor 3 * 16(%rax), %xmm3, %xmm3; vpxor %xmm15, %xmm4, %xmm4; vpxor 4 * 16(%rax), %xmm4, %xmm4; vpxor %xmm14, %xmm5, %xmm5; vpxor 5 * 16(%rax), %xmm5, %xmm5; vpxor %xmm13, %xmm6, %xmm6; vpxor 6 * 16(%rax), %xmm6, %xmm6; vpxor %xmm12, %xmm7, %xmm7; vpxor 7 * 16(%rax), %xmm7, %xmm7;; ;;; + + + + vpxor %xmm12, %xmm12, %xmm12; vmovd ((0 + (24) * 8) + 8)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand %xmm0, %xmm8, %xmm8; vpand %xmm1, %xmm9, %xmm9; vpand %xmm2, %xmm10, %xmm10; vpand %xmm3, %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor %xmm4, %xmm8, %xmm4; vmovdqu %xmm4, 4 * 16(%rax); vpxor %xmm5, %xmm9, %xmm5; vmovdqu %xmm5, 5 * 16(%rax); vpxor %xmm6, %xmm10, %xmm6; vmovdqu %xmm6, 6 * 16(%rax); vpxor %xmm7, %xmm11, %xmm7; vmovdqu %xmm7, 7 * 16(%rax); vmovd ((0 + (24) * 8) + 4)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor 4 * 16(%rcx), %xmm8, %xmm8; vpor 5 * 16(%rcx), %xmm9, %xmm9; vpor 6 * 16(%rcx), %xmm10, %xmm10; vpor 7 * 16(%rcx), %xmm11, %xmm11; vpxor 0 * 16(%rcx), %xmm8, %xmm8; vpxor 1 * 16(%rcx), %xmm9, %xmm9; vpxor 2 * 16(%rcx), %xmm10, %xmm10; vpxor 3 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 0 * 16(%rcx); vmovdqu %xmm9, 1 * 16(%rcx); vmovdqu %xmm10, 2 * 16(%rcx); vmovdqu %xmm11, 3 * 16(%rcx); vmovd ((0 + (24) * 8) + 0)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpand 0 * 16(%rcx), %xmm8, %xmm8; vpand 1 * 16(%rcx), %xmm9, %xmm9; vpand 2 * 16(%rcx), %xmm10, %xmm10; vpand 3 * 16(%rcx), %xmm11, %xmm11; vpcmpgtb %xmm11, %xmm12, %xmm13; vpaddb %xmm11, %xmm11, %xmm11; vpabsb %xmm13, %xmm13; vpcmpgtb %xmm10, %xmm12, %xmm14; vpaddb %xmm10, %xmm10, %xmm10; vpabsb %xmm14, %xmm14; vpcmpgtb %xmm9, %xmm12, %xmm15; vpaddb %xmm9, %xmm9, %xmm9; vpabsb %xmm15, %xmm15; vpor %xmm13, %xmm10, %xmm10; vpcmpgtb %xmm8, %xmm12, %xmm13; vpaddb %xmm8, %xmm8, %xmm8; vpabsb %xmm13, %xmm13; vpor %xmm14, %xmm9, %xmm9; vpor %xmm15, %xmm8, %xmm8; vpor %xmm13, %xmm11, %xmm11;; vpxor 4 * 16(%rcx), %xmm8, %xmm8; vpxor 5 * 16(%rcx), %xmm9, %xmm9; vpxor 6 * 16(%rcx), %xmm10, %xmm10; vpxor 7 * 16(%rcx), %xmm11, %xmm11; vmovdqu %xmm8, 4 * 16(%rcx); vmovdqu %xmm9, 5 * 16(%rcx); vmovdqu %xmm10, 6 * 16(%rcx); vmovdqu %xmm11, 7 * 16(%rcx); vmovd ((0 + (24) * 8) + 12)(%rdi), %xmm8; vpshufb %xmm12, %xmm8, %xmm11; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm10; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm9; vpsrldq $1, %xmm8, %xmm8; vpshufb %xmm12, %xmm8, %xmm8; vpor %xmm4, %xmm8, %xmm8; vpor %xmm5, %xmm9, %xmm9; vpor %xmm6, %xmm10, %xmm10; vpor %xmm7, %xmm11, %xmm11; vpxor %xmm0, %xmm8, %xmm0; vmovdqu %xmm0, 0 * 16(%rax); vpxor %xmm1, %xmm9, %xmm1; vmovdqu %xmm1, 1 * 16(%rax); vpxor %xmm2, %xmm10, %xmm2; vmovdqu %xmm2, 2 * 16(%rax); vpxor %xmm3, %xmm11, %xmm3; vmovdqu %xmm3, 3 * 16(%rax);; + + + + + + + + jmp .Ldec_max24; + +.align 8 +.global camellia_ecb_enc_16way +.global _camellia_ecb_enc_16way + +camellia_ecb_enc_16way: +_camellia_ecb_enc_16way: + +.ifdef WINABI +pushq %rsi +pushq %rdi +movq %rcx, %rdi; +movq %rdx, %rsi; +movq %r8, %rdx; +.endif + + + vzeroupper; + vmovq (0)(%rdi), %xmm0; vpshufb .Lpack_bswap(%rip), %xmm0, %xmm0; vpxor 0 * 16(%rdx), %xmm0, %xmm15; vpxor 1 * 16(%rdx), %xmm0, %xmm14; vpxor 2 * 16(%rdx), %xmm0, %xmm13; vpxor 3 * 16(%rdx), %xmm0, %xmm12; vpxor 4 * 16(%rdx), %xmm0, %xmm11; vpxor 5 * 16(%rdx), %xmm0, %xmm10; vpxor 6 * 16(%rdx), %xmm0, %xmm9; vpxor 7 * 16(%rdx), %xmm0, %xmm8; vpxor 8 * 16(%rdx), %xmm0, %xmm7; vpxor 9 * 16(%rdx), %xmm0, %xmm6; vpxor 10 * 16(%rdx), %xmm0, %xmm5; vpxor 11 * 16(%rdx), %xmm0, %xmm4; vpxor 12 * 16(%rdx), %xmm0, %xmm3; vpxor 13 * 16(%rdx), %xmm0, %xmm2; vpxor 14 * 16(%rdx), %xmm0, %xmm1; vpxor 15 * 16(%rdx), %xmm0, %xmm0;; + + + + + movq %rsi, %rax; + + call __camellia_enc_blk16; + + vmovdqu %xmm7, 0 * 16(%rsi); vmovdqu %xmm6, 1 * 16(%rsi); vmovdqu %xmm5, 2 * 16(%rsi); vmovdqu %xmm4, 3 * 16(%rsi); vmovdqu %xmm3, 4 * 16(%rsi); vmovdqu %xmm2, 5 * 16(%rsi); vmovdqu %xmm1, 6 * 16(%rsi); vmovdqu %xmm0, 7 * 16(%rsi); vmovdqu %xmm15, 8 * 16(%rsi); vmovdqu %xmm14, 9 * 16(%rsi); vmovdqu %xmm13, 10 * 16(%rsi); vmovdqu %xmm12, 11 * 16(%rsi); vmovdqu %xmm11, 12 * 16(%rsi); vmovdqu %xmm10, 13 * 16(%rsi); vmovdqu %xmm9, 14 * 16(%rsi); vmovdqu %xmm8, 15 * 16(%rsi);; + + + + vzeroupper; + +.ifdef WINABI +popq %rdi +popq %rsi +.endif + + ret; + +.align 8 +.global camellia_ecb_dec_16way +.global _camellia_ecb_dec_16way + +camellia_ecb_dec_16way: +_camellia_ecb_dec_16way: + +.ifdef WINABI +pushq %rsi +pushq %rdi +movq %rcx, %rdi; +movq %rdx, %rsi; +movq %r8, %rdx; +.endif + + + vzeroupper; + cmpl $16, 272(%rdi); + movl $32, %r8d; + movl $24, %eax; + cmovel %eax, %r8d; + + vmovq (0)(%rdi, %r8, 8), %xmm0; vpshufb .Lpack_bswap(%rip), %xmm0, %xmm0; vpxor 0 * 16(%rdx), %xmm0, %xmm15; vpxor 1 * 16(%rdx), %xmm0, %xmm14; vpxor 2 * 16(%rdx), %xmm0, %xmm13; vpxor 3 * 16(%rdx), %xmm0, %xmm12; vpxor 4 * 16(%rdx), %xmm0, %xmm11; vpxor 5 * 16(%rdx), %xmm0, %xmm10; vpxor 6 * 16(%rdx), %xmm0, %xmm9; vpxor 7 * 16(%rdx), %xmm0, %xmm8; vpxor 8 * 16(%rdx), %xmm0, %xmm7; vpxor 9 * 16(%rdx), %xmm0, %xmm6; vpxor 10 * 16(%rdx), %xmm0, %xmm5; vpxor 11 * 16(%rdx), %xmm0, %xmm4; vpxor 12 * 16(%rdx), %xmm0, %xmm3; vpxor 13 * 16(%rdx), %xmm0, %xmm2; vpxor 14 * 16(%rdx), %xmm0, %xmm1; vpxor 15 * 16(%rdx), %xmm0, %xmm0;; + + + + + movq %rsi, %rax; + + call __camellia_dec_blk16; + + vmovdqu %xmm7, 0 * 16(%rsi); vmovdqu %xmm6, 1 * 16(%rsi); vmovdqu %xmm5, 2 * 16(%rsi); vmovdqu %xmm4, 3 * 16(%rsi); vmovdqu %xmm3, 4 * 16(%rsi); vmovdqu %xmm2, 5 * 16(%rsi); vmovdqu %xmm1, 6 * 16(%rsi); vmovdqu %xmm0, 7 * 16(%rsi); vmovdqu %xmm15, 8 * 16(%rsi); vmovdqu %xmm14, 9 * 16(%rsi); vmovdqu %xmm13, 10 * 16(%rsi); vmovdqu %xmm12, 11 * 16(%rsi); vmovdqu %xmm11, 12 * 16(%rsi); vmovdqu %xmm10, 13 * 16(%rsi); vmovdqu %xmm9, 14 * 16(%rsi); vmovdqu %xmm8, 15 * 16(%rsi);; + + + + vzeroupper; + +.ifdef WINABI +popq %rdi +popq %rsi +.endif + + ret; + + + +.data + +.align 16 +.Linv_shift_row_and_unpcklbw: + .byte 0x00, 0xff, 0x0d, 0xff, 0x0a, 0xff, 0x07, 0xff + .byte 0x04, 0xff, 0x01, 0xff, 0x0e, 0xff, 0x0b, 0xff +.Lsp0044440444044404mask: + .long 0xffff0404, 0x0404ff04; + .long 0x0d0dff0d, 0x0d0dff0d; +.Lsp1110111010011110mask: + .long 0x000000ff, 0x000000ff; + .long 0x0bffff0b, 0x0b0b0bff; +.Lsp0222022222000222mask: + .long 0xff060606, 0xff060606; + .long 0x0c0cffff, 0xff0c0c0c; +.Lsp3033303303303033mask: + .long 0x04ff0404, 0x04ff0404; + .long 0xff0a0aff, 0x0aff0a0a; +.Lsbox4_input_mask: + .byte 0x00, 0xff, 0x00, 0x00, 0xff, 0x00, 0x00, 0x00; +.Lsigma1: + .long 0x3BCC908B, 0xA09E667F; +.Lsigma2: + .long 0x4CAA73B2, 0xB67AE858; +.Lsigma3: + .long 0xE94F82BE, 0xC6EF372F; +.Lsigma4: + .long 0xF1D36F1C, 0x54FF53A5; +.Lsigma5: + .long 0xDE682D1D, 0x10E527FA; +.Lsigma6: + .long 0xB3E6C1FD, 0xB05688C2; + +.text + +.align 8 + +.globl camellia_setup256 +.globl _camellia_setup256 +camellia_setup256: +_camellia_setup256: + + vzeroupper; + + vmovdqu (%rsi), %xmm0; + vmovdqu 16(%rsi), %xmm1; + + vpshufb .Lbswap128_mask(%rip), %xmm0, %xmm0; + vpshufb .Lbswap128_mask(%rip), %xmm1, %xmm1; + + vmovdqa .Linv_shift_row_and_unpcklbw(%rip), %xmm11; + vmovq .Lsbox4_input_mask(%rip), %xmm12; + vbroadcastss .L0f0f0f0f(%rip), %xmm13; + vmovdqa .Lpre_tf_lo_s1(%rip), %xmm14; + vmovdqa .Lpre_tf_hi_s1(%rip), %xmm15; + + + + + vpxor %xmm0, %xmm1, %xmm3; + vpsrldq $8, %xmm1, %xmm6; + vpsrldq $8, %xmm3, %xmm2; + vpslldq $8, %xmm3, %xmm3; + vpsrldq $8, %xmm3, %xmm3; + + vmovq .Lsigma1(%rip), %xmm5; vpxor %xmm4, %xmm4, %xmm9; vpxor %xmm2, %xmm5, %xmm4; vpand %xmm4, %xmm12, %xmm5; vpandn %xmm4, %xmm12, %xmm4; vpaddw %xmm5, %xmm5, %xmm7; vpsrlw $7, %xmm5, %xmm5; vpor %xmm5, %xmm7, %xmm5; vpand %xmm12, %xmm5, %xmm5; vpor %xmm5, %xmm4, %xmm4; vmovdqa .Lpost_tf_lo_s1(%rip), %xmm5; vmovdqa .Lpost_tf_hi_s1(%rip), %xmm7; vpand %xmm4, %xmm13, %xmm8; vpandn %xmm4, %xmm13, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm8, %xmm14, %xmm8; vpshufb %xmm4, %xmm15, %xmm4; vpxor %xmm8, %xmm4, %xmm4;; vaesenclast %xmm9, %xmm4, %xmm4; vpand %xmm4, %xmm13, %xmm8; vpandn %xmm4, %xmm13, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm8, %xmm5, %xmm8; vpshufb %xmm4, %xmm7, %xmm4; vpxor %xmm8, %xmm4, %xmm4;; vpshufb %xmm11, %xmm4, %xmm7; vpshufb .Lsp0044440444044404mask(%rip), %xmm4, %xmm10; vpshufb .Lsp1110111010011110mask(%rip), %xmm4, %xmm4; vpaddb %xmm7, %xmm7, %xmm8; vpsrlw $7, %xmm7, %xmm5; vpsllw $7, %xmm7, %xmm9; vpor %xmm5, %xmm8, %xmm5; vpsrlw $1, %xmm7, %xmm7; vpshufb .Lsp0222022222000222mask(%rip), %xmm5, %xmm5; vpor %xmm7, %xmm9, %xmm7; vpxor %xmm4, %xmm10, %xmm10; vpshufb .Lsp3033303303303033mask(%rip), %xmm7, %xmm7; vpxor %xmm10, %xmm5, %xmm5; vpxor %xmm7, %xmm5, %xmm5; vpsrldq $8, %xmm5, %xmm4; vpxor %xmm5, %xmm4, %xmm4;; + + + vpxor %xmm4, %xmm3, %xmm3; + vmovq .Lsigma2(%rip), %xmm5; vpxor %xmm2, %xmm2, %xmm9; vpxor %xmm3, %xmm5, %xmm2; vpand %xmm2, %xmm12, %xmm5; vpandn %xmm2, %xmm12, %xmm2; vpaddw %xmm5, %xmm5, %xmm7; vpsrlw $7, %xmm5, %xmm5; vpor %xmm5, %xmm7, %xmm5; vpand %xmm12, %xmm5, %xmm5; vpor %xmm5, %xmm2, %xmm2; vmovdqa .Lpost_tf_lo_s1(%rip), %xmm5; vmovdqa .Lpost_tf_hi_s1(%rip), %xmm7; vpand %xmm2, %xmm13, %xmm8; vpandn %xmm2, %xmm13, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm8, %xmm14, %xmm8; vpshufb %xmm2, %xmm15, %xmm2; vpxor %xmm8, %xmm2, %xmm2;; vaesenclast %xmm9, %xmm2, %xmm2; vpand %xmm2, %xmm13, %xmm8; vpandn %xmm2, %xmm13, %xmm2; vpsrld $4, %xmm2, %xmm2; vpshufb %xmm8, %xmm5, %xmm8; vpshufb %xmm2, %xmm7, %xmm2; vpxor %xmm8, %xmm2, %xmm2;; vpshufb %xmm11, %xmm2, %xmm7; vpshufb .Lsp0044440444044404mask(%rip), %xmm2, %xmm10; vpshufb .Lsp1110111010011110mask(%rip), %xmm2, %xmm2; vpaddb %xmm7, %xmm7, %xmm8; vpsrlw $7, %xmm7, %xmm5; vpsllw $7, %xmm7, %xmm9; vpor %xmm5, %xmm8, %xmm5; vpsrlw $1, %xmm7, %xmm7; vpshufb .Lsp0222022222000222mask(%rip), %xmm5, %xmm5; vpor %xmm7, %xmm9, %xmm7; vpxor %xmm2, %xmm10, %xmm10; vpshufb .Lsp3033303303303033mask(%rip), %xmm7, %xmm7; vpxor %xmm10, %xmm5, %xmm5; vpxor %xmm7, %xmm5, %xmm5; vpsrldq $8, %xmm5, %xmm2; vpxor %xmm5, %xmm2, %xmm2;; + + + vpxor %xmm6, %xmm2, %xmm2; + vmovq .Lsigma3(%rip), %xmm5; vpxor %xmm3, %xmm3, %xmm9; vpxor %xmm2, %xmm5, %xmm3; vpand %xmm3, %xmm12, %xmm5; vpandn %xmm3, %xmm12, %xmm3; vpaddw %xmm5, %xmm5, %xmm7; vpsrlw $7, %xmm5, %xmm5; vpor %xmm5, %xmm7, %xmm5; vpand %xmm12, %xmm5, %xmm5; vpor %xmm5, %xmm3, %xmm3; vmovdqa .Lpost_tf_lo_s1(%rip), %xmm5; vmovdqa .Lpost_tf_hi_s1(%rip), %xmm7; vpand %xmm3, %xmm13, %xmm8; vpandn %xmm3, %xmm13, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm8, %xmm14, %xmm8; vpshufb %xmm3, %xmm15, %xmm3; vpxor %xmm8, %xmm3, %xmm3;; vaesenclast %xmm9, %xmm3, %xmm3; vpand %xmm3, %xmm13, %xmm8; vpandn %xmm3, %xmm13, %xmm3; vpsrld $4, %xmm3, %xmm3; vpshufb %xmm8, %xmm5, %xmm8; vpshufb %xmm3, %xmm7, %xmm3; vpxor %xmm8, %xmm3, %xmm3;; vpshufb %xmm11, %xmm3, %xmm7; vpshufb .Lsp0044440444044404mask(%rip), %xmm3, %xmm10; vpshufb .Lsp1110111010011110mask(%rip), %xmm3, %xmm3; vpaddb %xmm7, %xmm7, %xmm8; vpsrlw $7, %xmm7, %xmm5; vpsllw $7, %xmm7, %xmm9; vpor %xmm5, %xmm8, %xmm5; vpsrlw $1, %xmm7, %xmm7; vpshufb .Lsp0222022222000222mask(%rip), %xmm5, %xmm5; vpor %xmm7, %xmm9, %xmm7; vpxor %xmm3, %xmm10, %xmm10; vpshufb .Lsp3033303303303033mask(%rip), %xmm7, %xmm7; vpxor %xmm10, %xmm5, %xmm5; vpxor %xmm7, %xmm5, %xmm5; vpsrldq $8, %xmm5, %xmm3; vpxor %xmm5, %xmm3, %xmm3;; + + + vpxor %xmm4, %xmm3, %xmm3; + vpxor %xmm1, %xmm3, %xmm3; + vmovq .Lsigma4(%rip), %xmm5; vpxor %xmm4, %xmm4, %xmm9; vpxor %xmm3, %xmm5, %xmm4; vpand %xmm4, %xmm12, %xmm5; vpandn %xmm4, %xmm12, %xmm4; vpaddw %xmm5, %xmm5, %xmm7; vpsrlw $7, %xmm5, %xmm5; vpor %xmm5, %xmm7, %xmm5; vpand %xmm12, %xmm5, %xmm5; vpor %xmm5, %xmm4, %xmm4; vmovdqa .Lpost_tf_lo_s1(%rip), %xmm5; vmovdqa .Lpost_tf_hi_s1(%rip), %xmm7; vpand %xmm4, %xmm13, %xmm8; vpandn %xmm4, %xmm13, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm8, %xmm14, %xmm8; vpshufb %xmm4, %xmm15, %xmm4; vpxor %xmm8, %xmm4, %xmm4;; vaesenclast %xmm9, %xmm4, %xmm4; vpand %xmm4, %xmm13, %xmm8; vpandn %xmm4, %xmm13, %xmm4; vpsrld $4, %xmm4, %xmm4; vpshufb %xmm8, %xmm5, %xmm8; vpshufb %xmm4, %xmm7, %xmm4; vpxor %xmm8, %xmm4, %xmm4;; vpshufb %xmm11, %xmm4, %xmm7; vpshufb .Lsp0044440444044404mask(%rip), %xmm4, %xmm10; vpshufb .Lsp1110111010011110mask(%rip), %xmm4, %xmm4; vpaddb %xmm7, %xmm7, %xmm8; vpsrlw $7, %xmm7, %xmm5; vpsllw $7, %xmm7, %xmm9; vpor %xmm5, %xmm8, %xmm5; vpsrlw $1, %xmm7, %xmm7; vpshufb .Lsp0222022222000222mask(%rip), %xmm5, %xmm5; vpor %xmm7, %xmm9, %xmm7; vpxor %xmm4, %xmm10, %xmm10; vpshufb .Lsp3033303303303033mask(%rip), %xmm7, %xmm7; vpxor %xmm10, %xmm5, %xmm5; vpxor %xmm7, %xmm5, %xmm5; vpsrldq $8, %xmm5, %xmm4; vpxor %xmm5, %xmm4, %xmm4;; + + + + vpslldq $8, %xmm3, %xmm3; + vpxor %xmm4, %xmm2, %xmm2; + vpsrldq $8, %xmm3, %xmm3; + vpslldq $8, %xmm2, %xmm2; + vpor %xmm3, %xmm2, %xmm2; + + + + + vpxor %xmm2, %xmm1, %xmm3; + vpsrldq $8, %xmm3, %xmm4; + vpslldq $8, %xmm3, %xmm3; + vpsrldq $8, %xmm3, %xmm3; + + vmovq .Lsigma5(%rip), %xmm6; vpxor %xmm5, %xmm5, %xmm9; vpxor %xmm4, %xmm6, %xmm5; vpand %xmm5, %xmm12, %xmm6; vpandn %xmm5, %xmm12, %xmm5; vpaddw %xmm6, %xmm6, %xmm7; vpsrlw $7, %xmm6, %xmm6; vpor %xmm6, %xmm7, %xmm6; vpand %xmm12, %xmm6, %xmm6; vpor %xmm6, %xmm5, %xmm5; vmovdqa .Lpost_tf_lo_s1(%rip), %xmm6; vmovdqa .Lpost_tf_hi_s1(%rip), %xmm7; vpand %xmm5, %xmm13, %xmm8; vpandn %xmm5, %xmm13, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm8, %xmm14, %xmm8; vpshufb %xmm5, %xmm15, %xmm5; vpxor %xmm8, %xmm5, %xmm5;; vaesenclast %xmm9, %xmm5, %xmm5; vpand %xmm5, %xmm13, %xmm8; vpandn %xmm5, %xmm13, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm8, %xmm6, %xmm8; vpshufb %xmm5, %xmm7, %xmm5; vpxor %xmm8, %xmm5, %xmm5;; vpshufb %xmm11, %xmm5, %xmm7; vpshufb .Lsp0044440444044404mask(%rip), %xmm5, %xmm10; vpshufb .Lsp1110111010011110mask(%rip), %xmm5, %xmm5; vpaddb %xmm7, %xmm7, %xmm8; vpsrlw $7, %xmm7, %xmm6; vpsllw $7, %xmm7, %xmm9; vpor %xmm6, %xmm8, %xmm6; vpsrlw $1, %xmm7, %xmm7; vpshufb .Lsp0222022222000222mask(%rip), %xmm6, %xmm6; vpor %xmm7, %xmm9, %xmm7; vpxor %xmm5, %xmm10, %xmm10; vpshufb .Lsp3033303303303033mask(%rip), %xmm7, %xmm7; vpxor %xmm10, %xmm6, %xmm6; vpxor %xmm7, %xmm6, %xmm6; vpsrldq $8, %xmm6, %xmm5; vpxor %xmm6, %xmm5, %xmm5;; + + + vpxor %xmm5, %xmm3, %xmm3; + + vmovq .Lsigma6(%rip), %xmm6; vpxor %xmm5, %xmm5, %xmm9; vpxor %xmm3, %xmm6, %xmm5; vpand %xmm5, %xmm12, %xmm6; vpandn %xmm5, %xmm12, %xmm5; vpaddw %xmm6, %xmm6, %xmm7; vpsrlw $7, %xmm6, %xmm6; vpor %xmm6, %xmm7, %xmm6; vpand %xmm12, %xmm6, %xmm6; vpor %xmm6, %xmm5, %xmm5; vmovdqa .Lpost_tf_lo_s1(%rip), %xmm6; vmovdqa .Lpost_tf_hi_s1(%rip), %xmm7; vpand %xmm5, %xmm13, %xmm8; vpandn %xmm5, %xmm13, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm8, %xmm14, %xmm8; vpshufb %xmm5, %xmm15, %xmm5; vpxor %xmm8, %xmm5, %xmm5;; vaesenclast %xmm9, %xmm5, %xmm5; vpand %xmm5, %xmm13, %xmm8; vpandn %xmm5, %xmm13, %xmm5; vpsrld $4, %xmm5, %xmm5; vpshufb %xmm8, %xmm6, %xmm8; vpshufb %xmm5, %xmm7, %xmm5; vpxor %xmm8, %xmm5, %xmm5;; vpshufb %xmm11, %xmm5, %xmm7; vpshufb .Lsp0044440444044404mask(%rip), %xmm5, %xmm10; vpshufb .Lsp1110111010011110mask(%rip), %xmm5, %xmm5; vpaddb %xmm7, %xmm7, %xmm8; vpsrlw $7, %xmm7, %xmm6; vpsllw $7, %xmm7, %xmm9; vpor %xmm6, %xmm8, %xmm6; vpsrlw $1, %xmm7, %xmm7; vpshufb .Lsp0222022222000222mask(%rip), %xmm6, %xmm6; vpor %xmm7, %xmm9, %xmm7; vpxor %xmm5, %xmm10, %xmm10; vpshufb .Lsp3033303303303033mask(%rip), %xmm7, %xmm7; vpxor %xmm10, %xmm6, %xmm6; vpxor %xmm7, %xmm6, %xmm6; vpsrldq $8, %xmm6, %xmm5; vpxor %xmm6, %xmm5, %xmm5;; + + + vpslldq $8, %xmm3, %xmm3; + vpxor %xmm5, %xmm4, %xmm4; + vpsrldq $8, %xmm3, %xmm3; + vpslldq $8, %xmm4, %xmm4; + vpor %xmm3, %xmm4, %xmm3; + + + + + vmovdqu %xmm3, (((32)*8))(%rdi); + vpshufd $0x4e, %xmm1, %xmm4; vpsllq $(15), %xmm1, %xmm15; vpsrlq $(64-(15)), %xmm4, %xmm4; vpaddd %xmm15, %xmm4, %xmm4;; + vpshufd $0x4e, %xmm2, %xmm5; vpsllq $(15), %xmm2, %xmm15; vpsrlq $(64-(15)), %xmm5, %xmm5; vpaddd %xmm15, %xmm5, %xmm5;; + vpshufd $0x4e, %xmm1, %xmm6; vpsllq $(30), %xmm1, %xmm15; vpsrlq $(64-(30)), %xmm6, %xmm6; vpaddd %xmm15, %xmm6, %xmm6;; + vpshufd $0x4e, %xmm3, %xmm7; vpsllq $(30), %xmm3, %xmm15; vpsrlq $(64-(30)), %xmm7, %xmm7; vpaddd %xmm15, %xmm7, %xmm7;; + vpshufd $0x4e, %xmm0, %xmm8; vpsllq $(45), %xmm0, %xmm15; vpsrlq $(64-(45)), %xmm8, %xmm8; vpaddd %xmm15, %xmm8, %xmm8;; + vpshufd $0x4e, %xmm2, %xmm9; vpsllq $(45), %xmm2, %xmm15; vpsrlq $(64-(45)), %xmm9, %xmm9; vpaddd %xmm15, %xmm9, %xmm9;; + vpshufd $0x4e, %xmm0, %xmm10; vpsllq $(60), %xmm0, %xmm15; vpsrlq $(64-(60)), %xmm10, %xmm10; vpaddd %xmm15, %xmm10, %xmm10;; + vpshufd $0x4e, %xmm1, %xmm11; vpsllq $(60), %xmm1, %xmm15; vpsrlq $(64-(60)), %xmm11, %xmm11; vpaddd %xmm15, %xmm11, %xmm11;; + vpshufd $0x4e, %xmm3, %xmm12; vpsllq $(60), %xmm3, %xmm15; vpsrlq $(64-(60)), %xmm12, %xmm12; vpaddd %xmm15, %xmm12, %xmm12;; + + + vpslldq $8, %xmm0, %xmm15; + vpsrldq $8, %xmm15, %xmm15; + vpxor %xmm15, %xmm3, %xmm3; + vpxor %xmm15, %xmm4, %xmm4; + vpxor %xmm15, %xmm5, %xmm5; + + + vpandn %xmm15, %xmm6, %xmm13; + vpslldq $12, %xmm13, %xmm13; + vpsrldq $8, %xmm13, %xmm13; + vpxor %xmm13, %xmm15, %xmm15; + + vpand %xmm15, %xmm6, %xmm14; + vpslld $1, %xmm14, %xmm13; + vpsrld $31, %xmm14, %xmm14; + vpaddd %xmm13, %xmm14, %xmm14; + vpslldq $8, %xmm14, %xmm14; + vpsrldq $12, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpxor %xmm15, %xmm7, %xmm7; + vpxor %xmm15, %xmm8, %xmm8; + vpxor %xmm15, %xmm9, %xmm9; + + vpshufd $0x1b, %xmm0, %xmm0; + vpshufd $0x1b, %xmm3, %xmm3; + vpshufd $0x1b, %xmm4, %xmm4; + vpshufd $0x1b, %xmm5, %xmm5; + vpshufd $0x1b, %xmm6, %xmm6; + vpshufd $0x1b, %xmm7, %xmm7; + vpshufd $0x1b, %xmm8, %xmm8; + vpshufd $0x1b, %xmm9, %xmm9; + + vmovdqu %xmm0, (((0)*8))(%rdi); + vpshufd $0x1b, %xmm0, %xmm0; + vmovdqu %xmm3, (((2)*8))(%rdi); + vmovdqu %xmm4, (((4)*8))(%rdi); + vmovdqu %xmm5, (((6)*8))(%rdi); + vmovdqu %xmm6, (((8)*8))(%rdi); + vmovdqu %xmm7, (((10)*8))(%rdi); + vmovdqu %xmm8, (((12)*8))(%rdi); + vmovdqu %xmm9, (((14)*8))(%rdi); + + vmovdqu (((32)*8))(%rdi), %xmm3; + + + vpandn %xmm15, %xmm10, %xmm13; + vpslldq $12, %xmm13, %xmm13; + vpsrldq $8, %xmm13, %xmm13; + vpxor %xmm13, %xmm15, %xmm15; + + vpand %xmm15, %xmm10, %xmm14; + vpslld $1, %xmm14, %xmm13; + vpsrld $31, %xmm14, %xmm14; + vpaddd %xmm13, %xmm14, %xmm14; + vpslldq $8, %xmm14, %xmm14; + vpsrldq $12, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpxor %xmm15, %xmm11, %xmm11; + vpxor %xmm15, %xmm12, %xmm12; + + vpshufd $0x4e, %xmm0, %xmm4; vpsrlq $(128-77), %xmm0, %xmm14; vpsllq $(64-(128-77)), %xmm4, %xmm4; vpaddd %xmm14, %xmm4, %xmm4;; + vpshufd $0x4e, %xmm2, %xmm5; vpsrlq $(128-77), %xmm2, %xmm14; vpsllq $(64-(128-77)), %xmm5, %xmm5; vpaddd %xmm14, %xmm5, %xmm5;; + vpshufd $0x4e, %xmm1, %xmm6; vpsrlq $(128-94), %xmm1, %xmm14; vpsllq $(64-(128-94)), %xmm6, %xmm6; vpaddd %xmm14, %xmm6, %xmm6;; + vpshufd $0x4e, %xmm2, %xmm7; vpsrlq $(128-94), %xmm2, %xmm14; vpsllq $(64-(128-94)), %xmm7, %xmm7; vpaddd %xmm14, %xmm7, %xmm7;; + vpshufd $0x4e, %xmm0, %xmm8; vpsrlq $(128-111), %xmm0, %xmm14; vpsllq $(64-(128-111)), %xmm8, %xmm8; vpaddd %xmm14, %xmm8, %xmm8;; + vpshufd $0x4e, %xmm3, %xmm9; vpsrlq $(128-111), %xmm3, %xmm14; vpsllq $(64-(128-111)), %xmm9, %xmm9; vpaddd %xmm14, %xmm9, %xmm9;; + + vpxor %xmm15, %xmm4, %xmm4; + + vpshufd $0x1b, %xmm10, %xmm10; + vpshufd $0x1b, %xmm11, %xmm11; + vpshufd $0x1b, %xmm12, %xmm12; + vpshufd $0x1b, %xmm4, %xmm4; + + vmovdqu %xmm10, (((16)*8))(%rdi); + vmovdqu %xmm11, (((18)*8))(%rdi); + vmovdqu %xmm12, (((20)*8))(%rdi); + vmovdqu %xmm4, (((22)*8))(%rdi); + + + vpandn %xmm15, %xmm5, %xmm13; + vpslldq $12, %xmm13, %xmm13; + vpsrldq $8, %xmm13, %xmm13; + vpxor %xmm13, %xmm15, %xmm15; + + vpand %xmm15, %xmm5, %xmm14; + vpslld $1, %xmm14, %xmm13; + vpsrld $31, %xmm14, %xmm14; + vpaddd %xmm13, %xmm14, %xmm14; + vpslldq $8, %xmm14, %xmm14; + vpsrldq $12, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpxor %xmm15, %xmm6, %xmm6; + vpxor %xmm15, %xmm7, %xmm7; + vpxor %xmm15, %xmm8, %xmm8; + vpslldq $8, %xmm15, %xmm15; + vpxor %xmm15, %xmm9, %xmm9; + + + vpslldq $8, %xmm9, %xmm15; + vpxor %xmm15, %xmm8, %xmm8; + vpxor %xmm15, %xmm7, %xmm7; + vpxor %xmm15, %xmm6, %xmm6; + + + vpandn %xmm15, %xmm5, %xmm14; + vpslldq $4, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpand %xmm15, %xmm5, %xmm14; + vpslld $1, %xmm14, %xmm13; + vpsrld $31, %xmm14, %xmm14; + vpaddd %xmm13, %xmm14, %xmm14; + vpsrldq $12, %xmm14, %xmm14; + vpslldq $8, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpshufd $0x1b, %xmm5, %xmm5; + vpshufd $0x1b, %xmm6, %xmm6; + vpshufd $0x1b, %xmm7, %xmm7; + vpshufd $0x1b, %xmm8, %xmm8; + vpshufd $0x1b, %xmm9, %xmm9; + + vmovdqu %xmm5, (((24)*8))(%rdi); + vmovdqu %xmm6, (((26)*8))(%rdi); + vmovdqu %xmm7, (((28)*8))(%rdi); + vmovdqu %xmm8, (((30)*8))(%rdi); + vmovdqu %xmm9, (((32)*8))(%rdi); + + vpshufd $0x1b, (((22)*8))(%rdi), %xmm0; + vpshufd $0x1b, (((20)*8))(%rdi), %xmm1; + vpshufd $0x1b, (((18)*8))(%rdi), %xmm2; + vpshufd $0x1b, (((16)*8))(%rdi), %xmm3; + vpshufd $0x1b, (((14)*8))(%rdi), %xmm4; + vpshufd $0x1b, (((12)*8))(%rdi), %xmm5; + vpshufd $0x1b, (((10)*8))(%rdi), %xmm6; + vpshufd $0x1b, (((8)*8))(%rdi), %xmm7; + + vpxor %xmm15, %xmm0, %xmm0; + vpxor %xmm15, %xmm1, %xmm1; + vpxor %xmm15, %xmm2, %xmm2; + + + vpandn %xmm15, %xmm3, %xmm14; + vpslldq $4, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpand %xmm15, %xmm3, %xmm14; + vpslld $1, %xmm14, %xmm13; + vpsrld $31, %xmm14, %xmm14; + vpaddd %xmm13, %xmm14, %xmm14; + vpsrldq $12, %xmm14, %xmm14; + vpslldq $8, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpxor %xmm15, %xmm4, %xmm4; + vpxor %xmm15, %xmm5, %xmm5; + vpxor %xmm15, %xmm6, %xmm6; + + vpshufd $0x1b, %xmm0, %xmm0; + vpshufd $0x1b, %xmm1, %xmm1; + vpshufd $0x1b, %xmm2, %xmm2; + vpshufd $0x1b, %xmm4, %xmm4; + vpshufd $0x1b, %xmm5, %xmm5; + vpshufd $0x1b, %xmm6, %xmm6; + + vmovdqu %xmm0, (((22)*8))(%rdi); + vmovdqu %xmm1, (((20)*8))(%rdi); + vmovdqu %xmm2, (((18)*8))(%rdi); + vmovdqu %xmm4, (((14)*8))(%rdi); + vmovdqu %xmm5, (((12)*8))(%rdi); + vmovdqu %xmm6, (((10)*8))(%rdi); + + vpshufd $0x1b, (((6)*8))(%rdi), %xmm6; + vpshufd $0x1b, (((4)*8))(%rdi), %xmm4; + vpshufd $0x1b, (((2)*8))(%rdi), %xmm2; + vpshufd $0x1b, (((0)*8))(%rdi), %xmm0; + + + vpandn %xmm15, %xmm7, %xmm14; + vpslldq $4, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpand %xmm15, %xmm7, %xmm14; + vpslld $1, %xmm14, %xmm13; + vpsrld $31, %xmm14, %xmm14; + vpaddd %xmm13, %xmm14, %xmm14; + vpsrldq $12, %xmm14, %xmm14; + vpslldq $8, %xmm14, %xmm14; + vpxor %xmm14, %xmm15, %xmm15; + + vpxor %xmm15, %xmm6, %xmm6; + vpxor %xmm15, %xmm4, %xmm4; + vpxor %xmm15, %xmm2, %xmm2; + vpxor %xmm15, %xmm0, %xmm0; + + vpshufd $0x1b, %xmm6, %xmm6; + vpshufd $0x1b, %xmm4, %xmm4; + vpshufd $0x1b, %xmm2, %xmm2; + vpshufd $0x1b, %xmm0, %xmm0; + + vpsrldq $8, %xmm2, %xmm3; + vpsrldq $8, %xmm4, %xmm5; + vpsrldq $8, %xmm6, %xmm7; + + + + + vpxor %xmm2, %xmm0, %xmm0; + vpxor %xmm4, %xmm2, %xmm2; + + vmovq %xmm0, (((0)*8))(%rdi); + vmovq %xmm3, (((2)*8))(%rdi); + vpxor %xmm5, %xmm3, %xmm3; + vpxor %xmm6, %xmm4, %xmm4; + vpxor %xmm7, %xmm5, %xmm5; + vmovq %xmm2, (((3)*8))(%rdi); + vmovq %xmm3, (((4)*8))(%rdi); + vmovq %xmm4, (((5)*8))(%rdi); + vmovq %xmm5, (((6)*8))(%rdi); + + vmovq (((7)*8))(%rdi), %xmm7; + vmovq (((8)*8))(%rdi), %xmm8; + vmovq (((9)*8))(%rdi), %xmm9; + vmovq (((10)*8))(%rdi), %xmm10; + + vpandn %xmm10, %xmm8, %xmm15; + vpsrldq $4, %xmm15, %xmm15; + vpxor %xmm15, %xmm10, %xmm0; + + vpand %xmm8, %xmm0, %xmm15; + vpslld $1, %xmm15, %xmm14; + vpsrld $31, %xmm15, %xmm15; + vpaddd %xmm14, %xmm15, %xmm15; + vpslldq $12, %xmm15, %xmm15; + vpsrldq $8, %xmm15, %xmm15; + vpxor %xmm15, %xmm0, %xmm0; + + vpxor %xmm0, %xmm6, %xmm6; + vmovq %xmm6, (((7)*8))(%rdi); + + vmovq (((11)*8))(%rdi), %xmm11; + vmovq (((12)*8))(%rdi), %xmm12; + vmovq (((13)*8))(%rdi), %xmm13; + vmovq (((14)*8))(%rdi), %xmm14; + vmovq (((15)*8))(%rdi), %xmm15; + + vpandn %xmm7, %xmm9, %xmm1; + vpsrldq $4, %xmm1, %xmm1; + vpxor %xmm1, %xmm7, %xmm0; + + vpand %xmm9, %xmm0, %xmm1; + vpslld $1, %xmm1, %xmm2; + vpsrld $31, %xmm1, %xmm1; + vpaddd %xmm2, %xmm1, %xmm1; + vpslldq $12, %xmm1, %xmm1; + vpsrldq $8, %xmm1, %xmm1; + vpxor %xmm1, %xmm0, %xmm0; + + vpxor %xmm11, %xmm0, %xmm0; + vpxor %xmm12, %xmm10, %xmm10; + vpxor %xmm13, %xmm11, %xmm11; + vpxor %xmm14, %xmm12, %xmm12; + vpxor %xmm15, %xmm13, %xmm13; + vmovq %xmm0, (((10)*8))(%rdi); + vmovq %xmm10, (((11)*8))(%rdi); + vmovq %xmm11, (((12)*8))(%rdi); + vmovq %xmm12, (((13)*8))(%rdi); + vmovq %xmm13, (((14)*8))(%rdi); + + vmovq (((16)*8))(%rdi), %xmm6; + vmovq (((17)*8))(%rdi), %xmm7; + vmovq (((18)*8))(%rdi), %xmm8; + vmovq (((19)*8))(%rdi), %xmm9; + vmovq (((20)*8))(%rdi), %xmm10; + + vpandn %xmm8, %xmm6, %xmm1; + vpsrldq $4, %xmm1, %xmm1; + vpxor %xmm1, %xmm8, %xmm0; + + vpand %xmm6, %xmm0, %xmm1; + vpslld $1, %xmm1, %xmm2; + vpsrld $31, %xmm1, %xmm1; + vpaddd %xmm2, %xmm1, %xmm1; + vpslldq $12, %xmm1, %xmm1; + vpsrldq $8, %xmm1, %xmm1; + vpxor %xmm1, %xmm0, %xmm0; + + vpxor %xmm14, %xmm0, %xmm0; + vmovq %xmm0, (((15)*8))(%rdi); + + + vpandn %xmm15, %xmm7, %xmm1; + vpsrldq $4, %xmm1, %xmm1; + vpxor %xmm1, %xmm15, %xmm0; + + vpand %xmm7, %xmm0, %xmm1; + vpslld $1, %xmm1, %xmm2; + vpsrld $31, %xmm1, %xmm1; + vpaddd %xmm2, %xmm1, %xmm1; + vpslldq $12, %xmm1, %xmm1; + vpsrldq $8, %xmm1, %xmm1; + vpxor %xmm1, %xmm0, %xmm0; + + vmovq (((21)*8))(%rdi), %xmm1; + vmovq (((22)*8))(%rdi), %xmm2; + vmovq (((23)*8))(%rdi), %xmm3; + vmovq (((24)*8))(%rdi), %xmm4; + + vpxor %xmm9, %xmm0, %xmm0; + vpxor %xmm10, %xmm8, %xmm8; + vpxor %xmm1, %xmm9, %xmm9; + vpxor %xmm2, %xmm10, %xmm10; + vpxor %xmm3, %xmm1, %xmm1; + + vmovq %xmm0, (((18)*8))(%rdi); + vmovq %xmm8, (((19)*8))(%rdi); + vmovq %xmm9, (((20)*8))(%rdi); + vmovq %xmm10, (((21)*8))(%rdi); + vmovq %xmm1, (((22)*8))(%rdi); + + vmovq (((25)*8))(%rdi), %xmm5; + vmovq (((26)*8))(%rdi), %xmm6; + vmovq (((27)*8))(%rdi), %xmm7; + vmovq (((28)*8))(%rdi), %xmm8; + vmovq (((29)*8))(%rdi), %xmm9; + vmovq (((30)*8))(%rdi), %xmm10; + vmovq (((31)*8))(%rdi), %xmm11; + vmovq (((32)*8))(%rdi), %xmm12; + + + vpandn %xmm6, %xmm4, %xmm15; + vpsrldq $4, %xmm15, %xmm15; + vpxor %xmm15, %xmm6, %xmm0; + + vpand %xmm4, %xmm0, %xmm15; + vpslld $1, %xmm15, %xmm14; + vpsrld $31, %xmm15, %xmm15; + vpaddd %xmm14, %xmm15, %xmm15; + vpslldq $12, %xmm15, %xmm15; + vpsrldq $8, %xmm15, %xmm15; + vpxor %xmm15, %xmm0, %xmm0; + + vpxor %xmm0, %xmm2, %xmm2; + vmovq %xmm2, (((23)*8))(%rdi); + + + vpandn %xmm3, %xmm5, %xmm15; + vpsrldq $4, %xmm15, %xmm15; + vpxor %xmm15, %xmm3, %xmm0; + + vpand %xmm5, %xmm0, %xmm15; + vpslld $1, %xmm15, %xmm14; + vpsrld $31, %xmm15, %xmm15; + vpaddd %xmm14, %xmm15, %xmm15; + vpslldq $12, %xmm15, %xmm15; + vpsrldq $8, %xmm15, %xmm15; + vpxor %xmm15, %xmm0, %xmm0; + + vpxor %xmm7, %xmm0, %xmm0; + vpxor %xmm8, %xmm6, %xmm6; + vpxor %xmm9, %xmm7, %xmm7; + vpxor %xmm10, %xmm8, %xmm8; + vpxor %xmm11, %xmm9, %xmm9; + vpxor %xmm12, %xmm11, %xmm11; + + vmovq %xmm0, (((26)*8))(%rdi); + vmovq %xmm6, (((27)*8))(%rdi); + vmovq %xmm7, (((28)*8))(%rdi); + vmovq %xmm8, (((29)*8))(%rdi); + vmovq %xmm9, (((30)*8))(%rdi); + vmovq %xmm10, (((31)*8))(%rdi); + vmovq %xmm11, (((32)*8))(%rdi); + + + movq $0, (((1)*8))(%rdi); + movq $0, (((33)*8))(%rdi); + + vzeroupper; + + ret; + + .ifndef WINABI +#if defined(__linux__) && defined(__ELF__) +.section .note.GNU-stack,"",%progbits +#endif + .endif + diff --git a/src/Crypto/Camellia_aesni_x86.S b/src/Crypto/Camellia_aesni_x86.S new file mode 100644 index 00000000..4a466888 --- /dev/null +++ b/src/Crypto/Camellia_aesni_x86.S @@ -0,0 +1,5 @@ + .ifndef WINABI +#if defined(__linux__) && defined(__ELF__) +.section .note.GNU-stack,"",%progbits +#endif + .endif diff --git a/src/Crypto/Camellia_x64.S b/src/Crypto/Camellia_x64.S new file mode 100644 index 00000000..d57e5a4e --- /dev/null +++ b/src/Crypto/Camellia_x64.S @@ -0,0 +1,339 @@ +/* camellia_asm.S ver 1.1 + * + * Copyright © 2012-2013 Jussi Kivilinna <jussi.kivilinna@iki.fi> + * + * Permission to use, copy, modify, and/or distribute this software for any + * purpose with or without fee is hereby granted, provided that the above + * copyright notice and this permission notice appear in all copies. + * + * THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES WITH + * REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY + * AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY SPECIAL, DIRECT, + * INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM + * LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE + * OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR + * PERFORMANCE OF THIS SOFTWARE. + */ + + /* Adapted to VeraCrypt + - original file pre-processed using "gcc -E" + - added instructions at begining of each functiont to adapt to Windows parameters passing convention + - Fix "'ADDR32' relocation" error when building Windows driver by using lea to load address of tables into + registers instead of using immediat form in xorq. This required saving many registers in the stack in order + to free 7 general purpose registers %r9-%r15 and %xmm0/%xmm1 are used for the 8th table: %xmm0 stores table + address and %xmm1 is used to save/restore %r8 each time it is used for memory addressed by %xmm0. + These changes reduce performance compared to original code by around 8%. + Original code did not have 'ADDR32' relocation issue because it was implemented as an executable, not a shared + library like the case of Windows driver. + + */ + +.text + +.extern camellia_sp10011110; +.extern camellia_sp22000222; +.extern camellia_sp03303033; +.extern camellia_sp00444404; +.extern camellia_sp02220222; +.extern camellia_sp30333033; +.extern camellia_sp44044404; +.extern camellia_sp11101110; + +.align 8 +.global camellia_encrypt_asm; +.global _camellia_encrypt_asm; + +camellia_encrypt_asm: +_camellia_encrypt_asm: + +.ifdef WINABI +pushq %rsi +pushq %rdi +movq %rcx, %rdi; +movq %rdx, %rsi; +movq %r8, %rdx; +.endif + +pushq %r12 +pushq %r13 +pushq %r14 +pushq %r15 + +leaq camellia_sp10011110(%rip), %r12 +leaq camellia_sp22000222(%rip), %r13 +leaq camellia_sp03303033(%rip), %r14 +leaq camellia_sp00444404(%rip), %r15 +leaq camellia_sp02220222(%rip), %r9 +leaq camellia_sp30333033(%rip), %r10 +leaq camellia_sp44044404(%rip), %r11 +leaq camellia_sp11101110(%rip), %rax +movq %rax, %xmm0 + + pushq %rbp + + pushq %rsi + movq %rdx, %rsi; + + movq (%rsi), %rax; bswapq %rax; rolq $32, %rax; movq 4*2(%rsi), %rcx; bswapq %rcx; rorq $32, %rcx; xorq 0(%rdi), %rax;; + + movq (0 + ((0 + 2) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((0 + 3) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((0 + 4) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((0 + 5) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((0 + 6) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((0 + 7) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + movl (0 + ((8 + 0) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((8 + 1) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movq (0 + ((8 + 0) * 2) * 4)(%rdi), %r8; orq %rax, %r8; shrq $32, %r8; xorq %r8, %rax; movl (0 + ((8 + 1) * 2) * 4)(%rdi), %esi; andl %ecx, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rcx;;; + movq (0 + ((8 + 2) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((8 + 3) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((8 + 4) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((8 + 5) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((8 + 6) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((8 + 7) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + movl (0 + ((16 + 0) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((16 + 1) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movq (0 + ((16 + 0) * 2) * 4)(%rdi), %r8; orq %rax, %r8; shrq $32, %r8; xorq %r8, %rax; movl (0 + ((16 + 1) * 2) * 4)(%rdi), %esi; andl %ecx, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rcx;;; + movq (0 + ((16 + 2) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((16 + 3) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((16 + 4) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((16 + 5) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((16 + 6) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((16 + 7) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + movl $24, %ebp; + + cmpb $16, 272(%rdi); + je __enc_done; + + movl (0 + ((24 + 0) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((24 + 1) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movq (0 + ((24 + 0) * 2) * 4)(%rdi), %r8; orq %rax, %r8; shrq $32, %r8; xorq %r8, %rax; movl (0 + ((24 + 1) * 2) * 4)(%rdi), %esi; andl %ecx, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rcx;;; + movq (0 + ((24 + 2) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((24 + 3) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((24 + 4) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((24 + 5) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((24 + 6) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((24 + 7) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + movl $32, %ebp; + +__enc_done: + popq %rsi + + xorq 0(%rdi, %rbp, 8), %rcx; rorq $32, %rcx; bswapq %rcx; movq %rcx, (%rsi); rolq $32, %rax; bswapq %rax; movq %rax, 4*2(%rsi);; + + popq %rbp + +popq %r15 +popq %r14 +popq %r13 +popq %r12 + +.ifdef WINABI +popq %rdi +popq %rsi +.endif + + ret; + +.align 8 +.global camellia_decrypt_asm; +.global _camellia_decrypt_asm; + +camellia_decrypt_asm: +_camellia_decrypt_asm: + +.ifdef WINABI +pushq %rsi +pushq %rdi +movq %rcx, %rdi; +movq %rdx, %rsi; +movq %r8, %rdx; +.endif + +pushq %r12 +pushq %r13 +pushq %r14 +pushq %r15 + + + cmpl $16, 272(%rdi); + movl $32, %r8d; + movl $24, %r9d; + cmovel %r9d, %r8d; + +leaq camellia_sp10011110(%rip), %r12 +leaq camellia_sp22000222(%rip), %r13 +leaq camellia_sp03303033(%rip), %r14 +leaq camellia_sp00444404(%rip), %r15 +leaq camellia_sp02220222(%rip), %r9 +leaq camellia_sp30333033(%rip), %r10 +leaq camellia_sp44044404(%rip), %r11 +leaq camellia_sp11101110(%rip), %rax +movq %rax, %xmm0 + + pushq %rbp + pushq %rsi + movq %rdx, %rsi; + + movq (%rsi), %rax; bswapq %rax; rolq $32, %rax; movq 4*2(%rsi), %rcx; bswapq %rcx; rorq $32, %rcx; xorq 0(%rdi, %r8, 8), %rax;; + + cmpb $24, %r8b; + je __dec_rounds16; + + movq (0 + ((24 + 7) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((24 + 6) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((24 + 5) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((24 + 4) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((24 + 3) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((24 + 2) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + movl (0 + ((24 + 1) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((24 + 0) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movq (0 + ((24 + 1) * 2) * 4)(%rdi), %r8; orq %rax, %r8; shrq $32, %r8; xorq %r8, %rax; movl (0 + ((24 + 0) * 2) * 4)(%rdi), %esi; andl %ecx, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rcx;;; + +__dec_rounds16: + movq (0 + ((16 + 7) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((16 + 6) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((16 + 5) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((16 + 4) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((16 + 3) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((16 + 2) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + movl (0 + ((16 + 1) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((16 + 0) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movq (0 + ((16 + 1) * 2) * 4)(%rdi), %r8; orq %rax, %r8; shrq $32, %r8; xorq %r8, %rax; movl (0 + ((16 + 0) * 2) * 4)(%rdi), %esi; andl %ecx, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rcx;;; + movq (0 + ((8 + 7) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((8 + 6) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((8 + 5) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((8 + 4) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((8 + 3) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((8 + 2) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + movl (0 + ((8 + 1) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((8 + 0) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movq (0 + ((8 + 1) * 2) * 4)(%rdi), %r8; orq %rax, %r8; shrq $32, %r8; xorq %r8, %rax; movl (0 + ((8 + 0) * 2) * 4)(%rdi), %esi; andl %ecx, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rcx;;; + movq (0 + ((0 + 7) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((0 + 6) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((0 + 5) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((0 + 4) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;; movq (0 + ((0 + 3) * 2) * 4)(%rdi), %r8; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rcx;;; movq (0 + ((0 + 2) * 2) * 4)(%rdi), %r8; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; xorq %r8, %rax;;;; + + popq %rsi + + xorq 0(%rdi), %rcx; rorq $32, %rcx; bswapq %rcx; movq %rcx, (%rsi); rolq $32, %rax; bswapq %rax; movq %rax, 4*2(%rsi);; + + popq %rbp + + popq %r15 +popq %r14 +popq %r13 +popq %r12 + + .ifdef WINABI +popq %rdi +popq %rsi +.endif + + ret; + +.align 8 +.global camellia_enc_blk2 +.global _camellia_enc_blk2 + +camellia_enc_blk2: +_camellia_enc_blk2: + +.ifdef WINABI +pushq %rsi +pushq %rdi +movq %rcx, %rdi; +movq %rdx, %rsi; +movq %r8, %rdx; +.endif + +pushq %r12 +pushq %r13 +pushq %r14 +pushq %r15 + +leaq camellia_sp10011110(%rip), %r12 +leaq camellia_sp22000222(%rip), %r13 +leaq camellia_sp03303033(%rip), %r14 +leaq camellia_sp00444404(%rip), %r15 +leaq camellia_sp02220222(%rip), %r9 +leaq camellia_sp30333033(%rip), %r10 +leaq camellia_sp44044404(%rip), %r11 +leaq camellia_sp11101110(%rip), %rax +movq %rax, %xmm0 + + + pushq %rbx; + + pushq %rbp + pushq %rsi + movq %rdx, %rsi; + + movq (%rsi), %rax; bswapq %rax; rorq $32, %rax; movq 4*2(%rsi), %rcx; bswapq %rcx; rolq $32, %rcx; xorq 0(%rdi), %rax; movq 8*2(%rsi), %rbx; bswapq %rbx; rorq $32, %rbx; movq 12*2(%rsi), %rdx; bswapq %rdx; rolq $32, %rdx; xorq 0(%rdi), %rbx;; + + movq (0 + ((0 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((0 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((0 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((0 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((0 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((0 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + movl (0 + ((8 + 0) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((8 + 1) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movl (0 + ((8 + 0) * 2) * 4)(%rdi), %r8d; andl %ebx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rbx; movq (0 + ((8 + 1) * 2) * 4)(%rdi), %rsi; orq %rdx, %rsi; shrq $32, %rsi; xorq %rsi, %rdx; movq (0 + ((8 + 0) * 2) * 4)(%rdi), %rbp; orq %rax, %rbp; shrq $32, %rbp; xorq %rbp, %rax; movl (0 + ((8 + 1) * 2) * 4)(%rdi), %r8d; andl %ecx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rcx; movq (0 + ((8 + 0) * 2) * 4)(%rdi), %rsi; orq %rbx, %rsi; shrq $32, %rsi; xorq %rsi, %rbx; movl (0 + ((8 + 1) * 2) * 4)(%rdi), %ebp; andl %edx, %ebp; roll $1, %ebp; shlq $32, %rbp; xorq %rbp, %rdx;;; + movq (0 + ((8 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((8 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((8 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((8 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((8 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((8 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + movl (0 + ((16 + 0) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((16 + 1) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movl (0 + ((16 + 0) * 2) * 4)(%rdi), %r8d; andl %ebx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rbx; movq (0 + ((16 + 1) * 2) * 4)(%rdi), %rsi; orq %rdx, %rsi; shrq $32, %rsi; xorq %rsi, %rdx; movq (0 + ((16 + 0) * 2) * 4)(%rdi), %rbp; orq %rax, %rbp; shrq $32, %rbp; xorq %rbp, %rax; movl (0 + ((16 + 1) * 2) * 4)(%rdi), %r8d; andl %ecx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rcx; movq (0 + ((16 + 0) * 2) * 4)(%rdi), %rsi; orq %rbx, %rsi; shrq $32, %rsi; xorq %rsi, %rbx; movl (0 + ((16 + 1) * 2) * 4)(%rdi), %ebp; andl %edx, %ebp; roll $1, %ebp; shlq $32, %rbp; xorq %rbp, %rdx;;; + movq (0 + ((16 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((16 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((16 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((16 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((16 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((16 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + movl $24, %r8d; + + cmpb $16, 272(%rdi); + je __enc2_done; + + movl (0 + ((24 + 0) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((24 + 1) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movl (0 + ((24 + 0) * 2) * 4)(%rdi), %r8d; andl %ebx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rbx; movq (0 + ((24 + 1) * 2) * 4)(%rdi), %rsi; orq %rdx, %rsi; shrq $32, %rsi; xorq %rsi, %rdx; movq (0 + ((24 + 0) * 2) * 4)(%rdi), %rbp; orq %rax, %rbp; shrq $32, %rbp; xorq %rbp, %rax; movl (0 + ((24 + 1) * 2) * 4)(%rdi), %r8d; andl %ecx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rcx; movq (0 + ((24 + 0) * 2) * 4)(%rdi), %rsi; orq %rbx, %rsi; shrq $32, %rsi; xorq %rsi, %rbx; movl (0 + ((24 + 1) * 2) * 4)(%rdi), %ebp; andl %edx, %ebp; roll $1, %ebp; shlq $32, %rbp; xorq %rbp, %rdx;;; + movq (0 + ((24 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((24 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((24 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((24 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((24 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((24 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + movl $32, %r8d; + +__enc2_done: + popq %rsi + + xorq 0(%rdi, %r8, 8), %rcx; rolq $32, %rcx; bswapq %rcx; movq %rcx, (%rsi); rorq $32, %rax; bswapq %rax; movq %rax, 4*2(%rsi); xorq 0(%rdi, %r8, 8), %rdx; rolq $32, %rdx; bswapq %rdx; movq %rdx, 8*2(%rsi); rorq $32, %rbx; bswapq %rbx; movq %rbx, 12*2(%rsi);; + + popq %rbp + popq %rbx; + + popq %r15 +popq %r14 +popq %r13 +popq %r12 + + .ifdef WINABI +popq %rdi +popq %rsi +.endif + + ret; + +.align 8 +.global camellia_dec_blk2 +.global _camellia_dec_blk2 + +camellia_dec_blk2: +_camellia_dec_blk2: + +.ifdef WINABI +pushq %rsi +pushq %rdi +movq %rcx, %rdi; +movq %rdx, %rsi; +movq %r8, %rdx; +.endif + +pushq %r12 +pushq %r13 +pushq %r14 +pushq %r15 + + cmpl $16, 272(%rdi); + movl $32, %r8d; + movl $24, %r9d; + cmovel %r9d, %r8d; + +leaq camellia_sp10011110(%rip), %r12 +leaq camellia_sp22000222(%rip), %r13 +leaq camellia_sp03303033(%rip), %r14 +leaq camellia_sp00444404(%rip), %r15 +leaq camellia_sp02220222(%rip), %r9 +leaq camellia_sp30333033(%rip), %r10 +leaq camellia_sp44044404(%rip), %r11 +leaq camellia_sp11101110(%rip), %rax +movq %rax, %xmm0 + + pushq %rbx + + pushq %rbp + pushq %rsi + movq %rdx, %rsi; + + movq (%rsi), %rax; bswapq %rax; rorq $32, %rax; movq 4*2(%rsi), %rcx; bswapq %rcx; rolq $32, %rcx; xorq 0(%rdi, %r8, 8), %rax; movq 8*2(%rsi), %rbx; bswapq %rbx; rorq $32, %rbx; movq 12*2(%rsi), %rdx; bswapq %rdx; rolq $32, %rdx; xorq 0(%rdi, %r8, 8), %rbx;; + + cmpb $24, %r8b; + je __dec2_rounds16; + + movq (0 + ((24 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((24 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((24 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((24 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((24 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((24 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + movl (0 + ((24 + 1) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((24 + 0) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movl (0 + ((24 + 1) * 2) * 4)(%rdi), %r8d; andl %ebx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rbx; movq (0 + ((24 + 0) * 2) * 4)(%rdi), %rsi; orq %rdx, %rsi; shrq $32, %rsi; xorq %rsi, %rdx; movq (0 + ((24 + 1) * 2) * 4)(%rdi), %rbp; orq %rax, %rbp; shrq $32, %rbp; xorq %rbp, %rax; movl (0 + ((24 + 0) * 2) * 4)(%rdi), %r8d; andl %ecx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rcx; movq (0 + ((24 + 1) * 2) * 4)(%rdi), %rsi; orq %rbx, %rsi; shrq $32, %rsi; xorq %rsi, %rbx; movl (0 + ((24 + 0) * 2) * 4)(%rdi), %ebp; andl %edx, %ebp; roll $1, %ebp; shlq $32, %rbp; xorq %rbp, %rdx;;; + +__dec2_rounds16: + movq (0 + ((16 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((16 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((16 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((16 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((16 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((16 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + movl (0 + ((16 + 1) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((16 + 0) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movl (0 + ((16 + 1) * 2) * 4)(%rdi), %r8d; andl %ebx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rbx; movq (0 + ((16 + 0) * 2) * 4)(%rdi), %rsi; orq %rdx, %rsi; shrq $32, %rsi; xorq %rsi, %rdx; movq (0 + ((16 + 1) * 2) * 4)(%rdi), %rbp; orq %rax, %rbp; shrq $32, %rbp; xorq %rbp, %rax; movl (0 + ((16 + 0) * 2) * 4)(%rdi), %r8d; andl %ecx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rcx; movq (0 + ((16 + 1) * 2) * 4)(%rdi), %rsi; orq %rbx, %rsi; shrq $32, %rsi; xorq %rsi, %rbx; movl (0 + ((16 + 0) * 2) * 4)(%rdi), %ebp; andl %edx, %ebp; roll $1, %ebp; shlq $32, %rbp; xorq %rbp, %rdx;;; + movq (0 + ((8 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((8 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((8 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((8 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((8 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((8 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + movl (0 + ((8 + 1) * 2) * 4)(%rdi), %esi; andl %eax, %esi; roll $1, %esi; shlq $32, %rsi; xorq %rsi, %rax; movq (0 + ((8 + 0) * 2) * 4)(%rdi), %rbp; orq %rcx, %rbp; shrq $32, %rbp; xorq %rbp, %rcx; movl (0 + ((8 + 1) * 2) * 4)(%rdi), %r8d; andl %ebx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rbx; movq (0 + ((8 + 0) * 2) * 4)(%rdi), %rsi; orq %rdx, %rsi; shrq $32, %rsi; xorq %rsi, %rdx; movq (0 + ((8 + 1) * 2) * 4)(%rdi), %rbp; orq %rax, %rbp; shrq $32, %rbp; xorq %rbp, %rax; movl (0 + ((8 + 0) * 2) * 4)(%rdi), %r8d; andl %ecx, %r8d; roll $1, %r8d; shlq $32, %r8; xorq %r8, %rcx; movq (0 + ((8 + 1) * 2) * 4)(%rdi), %rsi; orq %rbx, %rsi; shrq $32, %rsi; xorq %rsi, %rbx; movl (0 + ((8 + 0) * 2) * 4)(%rdi), %ebp; andl %edx, %ebp; roll $1, %ebp; shlq $32, %rbp; xorq %rbp, %rdx;;; + movq (0 + ((0 + 7) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((0 + 6) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((0 + 5) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((0 + 4) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;; movq (0 + ((0 + 3) * 2) * 4)(%rdi), %r8; xorq %r8, %rdx; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r15, %rbp, 8), %rcx; xorq (%r14, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rcx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rcx;; movzbl %al, %ebp; movzbl %ah, %esi; rorq $16, %rax; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r15, %rbp, 8), %rdx; xorq (%r14, %rsi, 8), %rdx;; xorq %r8, %rcx; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r13, %rbp, 8), %rdx; xorq (%r12, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rdx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rdx;; movzbl %bl, %ebp; movzbl %bh, %esi; rorq $16, %rbx; xorq (%r10, %rbp, 8), %rdx; xorq (%r9, %rsi, 8), %rdx;;;; movq (0 + ((0 + 2) * 2) * 4)(%rdi), %r8; xorq %r8, %rbx; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r15, %rbp, 8), %rax; xorq (%r14, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r13, %rbp, 8), %r8; xorq (%r12, %rsi, 8), %r8;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rax; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rax;; movzbl %cl, %ebp; movzbl %ch, %esi; rorq $16, %rcx; xorq (%r10, %rbp, 8), %r8; xorq (%r9, %rsi, 8), %r8;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r15, %rbp, 8), %rbx; xorq (%r14, %rsi, 8), %rbx;; xorq %r8, %rax; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r13, %rbp, 8), %rbx; xorq (%r12, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; movq %r8, %xmm1; movq %xmm0, %r8; xorq (%r8, %rbp, 8), %rbx; movq %xmm1, %r8; xorq (%r11, %rsi, 8), %rbx;; movzbl %dl, %ebp; movzbl %dh, %esi; rorq $16, %rdx; xorq (%r10, %rbp, 8), %rbx; xorq (%r9, %rsi, 8), %rbx;;;;; + + popq %rsi + + xorq 0(%rdi), %rcx; rolq $32, %rcx; bswapq %rcx; movq %rcx, (%rsi); rorq $32, %rax; bswapq %rax; movq %rax, 4*2(%rsi); xorq 0(%rdi), %rdx; rolq $32, %rdx; bswapq %rdx; movq %rdx, 8*2(%rsi); rorq $32, %rbx; bswapq %rbx; movq %rbx, 12*2(%rsi);; + + popq %rbp + + popq %rbx; + + popq %r15 +popq %r14 +popq %r13 +popq %r12 + + .ifdef WINABI +popq %rdi +popq %rsi +.endif + + ret; + + .ifndef WINABI +#if defined(__linux__) && defined(__ELF__) +.section .note.GNU-stack,"",%progbits +#endif + .endif + diff --git a/src/Crypto/Camellia_x86.S b/src/Crypto/Camellia_x86.S new file mode 100644 index 00000000..4a466888 --- /dev/null +++ b/src/Crypto/Camellia_x86.S @@ -0,0 +1,5 @@ + .ifndef WINABI +#if defined(__linux__) && defined(__ELF__) +.section .note.GNU-stack,"",%progbits +#endif + .endif diff --git a/src/Crypto/Crypto.vcxproj b/src/Crypto/Crypto.vcxproj index c95874c6..d7b686b1 100644 --- a/src/Crypto/Crypto.vcxproj +++ b/src/Crypto/Crypto.vcxproj @@ -264,6 +264,26 @@ <Outputs Condition="'$(Configuration)|$(Platform)'=='Release|x64'">$(TargetDir)\%(Filename).obj;%(Outputs)</Outputs> </CustomBuild> </ItemGroup> + <ItemGroup> + <CustomBuild Include="Camellia_aesni_x64.S"> + <ExcludedFromBuild Condition="'$(Configuration)|$(Platform)'=='Debug|Win32'">true</ExcludedFromBuild> + <ExcludedFromBuild Condition="'$(Configuration)|$(Platform)'=='Release|Win32'">true</ExcludedFromBuild> + <FileType>Document</FileType> + <Command Condition="'$(Configuration)|$(Platform)'=='Release|x64'">echo %(Filename)%(Extension) & yasm.exe -p gas -D WINABI -f win64 -o "$(TargetDir)\%(Filename).obj" -l "$(TargetDir)\%(Filename).lst" "%(FullPath)"</Command> + <Outputs Condition="'$(Configuration)|$(Platform)'=='Release|x64'">$(TargetDir)\%(Filename).obj;%(Outputs)</Outputs> + <Outputs Condition="'$(Configuration)|$(Platform)'=='Debug|x64'">$(TargetDir)\%(Filename).obj;%(Outputs)</Outputs> + <Command Condition="'$(Configuration)|$(Platform)'=='Debug|x64'">echo %(Filename)%(Extension) & yasm.exe -p gas -D WINABI -f win64 -o "$(TargetDir)\%(Filename).obj" -l "$(TargetDir)\%(Filename).lst" "%(FullPath)"</Command> + </CustomBuild> + <CustomBuild Include="Camellia_x64.S"> + <ExcludedFromBuild Condition="'$(Configuration)|$(Platform)'=='Debug|Win32'">true</ExcludedFromBuild> + <ExcludedFromBuild Condition="'$(Configuration)|$(Platform)'=='Release|Win32'">true</ExcludedFromBuild> + <FileType>Document</FileType> + <Command Condition="'$(Configuration)|$(Platform)'=='Release|x64'">echo %(Filename)%(Extension) & yasm.exe -p gas -D WINABI -f win64 -o "$(TargetDir)\%(Filename).obj" -l "$(TargetDir)\%(Filename).lst" "%(FullPath)"</Command> + <Outputs Condition="'$(Configuration)|$(Platform)'=='Release|x64'">$(TargetDir)\%(Filename).obj;%(Outputs)</Outputs> + <Command Condition="'$(Configuration)|$(Platform)'=='Debug|x64'">echo %(Filename)%(Extension) & yasm.exe -p gas -D WINABI -f win64 -o "$(TargetDir)\%(Filename).obj" -l "$(TargetDir)\%(Filename).lst" "%(FullPath)"</Command> + <Outputs Condition="'$(Configuration)|$(Platform)'=='Debug|x64'">$(TargetDir)\%(Filename).obj;%(Outputs)</Outputs> + </CustomBuild> + </ItemGroup> <Import Project="$(VCTargetsPath)\Microsoft.Cpp.targets" /> <ImportGroup Label="ExtensionTargets"> </ImportGroup> diff --git a/src/Crypto/Crypto.vcxproj.filters b/src/Crypto/Crypto.vcxproj.filters index 702dedbf..d94e0bc4 100644 --- a/src/Crypto/Crypto.vcxproj.filters +++ b/src/Crypto/Crypto.vcxproj.filters @@ -21,9 +21,6 @@ <ClCompile Include="Aestab.c"> <Filter>Source Files</Filter> </ClCompile> - <ClCompile Include="Camellia.c"> - <Filter>Source Files</Filter> - </ClCompile> <ClCompile Include="cpu.c"> <Filter>Source Files</Filter> </ClCompile> @@ -54,6 +51,9 @@ <ClCompile Include="SerpentFast_simd.cpp"> <Filter>Source Files</Filter> </ClCompile> + <ClCompile Include="Camellia.c"> + <Filter>Source Files</Filter> + </ClCompile> </ItemGroup> <ItemGroup> <ClInclude Include="Aes.h"> @@ -124,5 +124,11 @@ <CustomBuild Include="Twofish_x64.S"> <Filter>Source Files</Filter> </CustomBuild> + <CustomBuild Include="Camellia_x64.S"> + <Filter>Source Files</Filter> + </CustomBuild> + <CustomBuild Include="Camellia_aesni_x64.S"> + <Filter>Source Files</Filter> + </CustomBuild> </ItemGroup> </Project>
\ No newline at end of file diff --git a/src/Crypto/Makefile.inc b/src/Crypto/Makefile.inc index e014976a..9fecd39e 100644 --- a/src/Crypto/Makefile.inc +++ b/src/Crypto/Makefile.inc @@ -22,3 +22,10 @@ TC_ASM_ERR_LOG = ..\Driver\build_errors_asm.log "$(OBJ_PATH)\$(O)\Twofish_$(TC_ARCH).obj": Twofish_$(TC_ARCH).S yasm.exe $(VC_YASMFLAGS) -o "$@" -l "$(OBJ_PATH)\$(O)\Twofish_$(TC_ARCH).lst" Twofish_$(TC_ARCH).S 2>$(TC_ASM_ERR_LOG) + +"$(OBJ_PATH)\$(O)\Camellia_$(TC_ARCH).obj": Camellia_$(TC_ARCH).S + yasm.exe $(VC_YASMFLAGS) -o "$@" -l "$(OBJ_PATH)\$(O)\Camellia_$(TC_ARCH).lst" Camellia_$(TC_ARCH).S 2>$(TC_ASM_ERR_LOG) + +"$(OBJ_PATH)\$(O)\Camellia_aesni_$(TC_ARCH).obj": Camellia_aesni_$(TC_ARCH).S + yasm.exe $(VC_YASMFLAGS) -o "$@" -l "$(OBJ_PATH)\$(O)\Camellia_aesni_$(TC_ARCH).lst" Camellia_aesni_$(TC_ARCH).S 2>$(TC_ASM_ERR_LOG) + diff --git a/src/Crypto/Sources b/src/Crypto/Sources index edddd4c6..60412bf1 100644 --- a/src/Crypto/Sources +++ b/src/Crypto/Sources @@ -7,7 +7,9 @@ NTTARGETFILES = \ "$(OBJ_PATH)\$(O)\Aes_$(TC_ARCH).obj" \ "$(OBJ_PATH)\$(O)\Aes_hw_cpu.obj" \ "$(OBJ_PATH)\$(O)\gost89_$(TC_ARCH).obj" \ - "$(OBJ_PATH)\$(O)\Twofish_$(TC_ARCH).obj" + "$(OBJ_PATH)\$(O)\Twofish_$(TC_ARCH).obj" \ + "$(OBJ_PATH)\$(O)\Camellia_$(TC_ARCH).obj" \ + "$(OBJ_PATH)\$(O)\Camellia_aesni_$(TC_ARCH).obj" SOURCES = \ Aes_$(TC_ARCH).asm \ @@ -26,4 +28,7 @@ SOURCES = \ Streebog.c \ kuznyechik.c \ Whirlpool.c \ - Camellia.c + Camellia.c \ + Camellia_$(TC_ARCH).S \ + Camellia_aesni_$(TC_ARCH).S + diff --git a/src/Crypto/cpu.c b/src/Crypto/cpu.c index 7a4656d4..5c74eca0 100644 --- a/src/Crypto/cpu.c +++ b/src/Crypto/cpu.c @@ -189,7 +189,7 @@ static int TrySSE2() int g_x86DetectionDone = 0; int g_hasISSE = 0, g_hasSSE2 = 0, g_hasSSSE3 = 0, g_hasMMX = 0, g_hasAESNI = 0, g_hasCLMUL = 0, g_isP4 = 0; -int g_hasAVX = 0, g_hasAVX2 = 0, g_hasBMI2 = 0, g_hasSSE42 = 0, g_hasSSE41 = 0; +int g_hasAVX = 0, g_hasAVX2 = 0, g_hasBMI2 = 0, g_hasSSE42 = 0, g_hasSSE41 = 0, g_isIntel = 0, g_isAMD = 0; uint32 g_cacheLineSize = CRYPTOPP_L1_CACHE_LINE_SIZE; VC_INLINE int IsIntel(const uint32 output[4]) @@ -325,11 +325,13 @@ void DetectX86Features() if (IsIntel(cpuid)) { + g_isIntel = 1; g_isP4 = ((cpuid1[0] >> 8) & 0xf) == 0xf; g_cacheLineSize = 8 * GETBYTE(cpuid1[1], 1); } else if (IsAMD(cpuid)) { + g_isAMD = 1; CpuId(0x80000005, cpuid); g_cacheLineSize = GETBYTE(cpuid[2], 0); } diff --git a/src/Crypto/cpu.h b/src/Crypto/cpu.h index 05ce9d8f..68041190 100644 --- a/src/Crypto/cpu.h +++ b/src/Crypto/cpu.h @@ -196,6 +196,8 @@ extern int g_hasSSSE3; extern int g_hasAESNI; extern int g_hasCLMUL; extern int g_isP4; +extern int g_isIntel; +extern int g_isAMD; extern uint32 g_cacheLineSize; void DetectX86Features(); // must be called at the start of the program/driver int CpuId(uint32 input, uint32 *output); @@ -225,6 +227,8 @@ extern int g_hasMMX; #define HasAESNI() g_hasAESNI #define HasCLMUL() g_hasCLMUL #define IsP4() g_isP4 +#define IsCpuIntel() g_isIntel +#define IsCpuAMD() g_isAMD #define GetCacheLineSize() g_cacheLineSize #if defined(__cplusplus) |