From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <gcc-return-196660-listarch-gcc=gcc.gnu.org@gcc.gnu.org>
Received: (qmail 38746 invoked by alias); 10 Jul 2018 11:09:15 -0000
Mailing-List: contact gcc-help@gcc.gnu.org; run by ezmlm
Precedence: bulk
List-Id: <gcc.gcc.gnu.org>
List-Archive: <http://gcc.gnu.org/ml/gcc/>
List-Post: <mailto:gcc@gcc.gnu.org>
List-Help: <http://gcc.gnu.org/ml/>
Sender: gcc-owner@gcc.gnu.org
Received: (qmail 38725 invoked by uid 89); 10 Jul 2018 11:09:14 -0000
Authentication-Results: sourceware.org; auth=none
X-Spam-SWARE-Status: No, score=-1.6 required=5.0 tests=BAYES_00,FREEMAIL_ENVFROM_END_DIGIT,FREEMAIL_FROM,RCVD_IN_DNSWL_NONE,SPF_PASS autolearn=no version=3.3.2 spammy=average, warren, Warren, acknowledge
X-HELO: mail-lf0-f51.google.com
Received: from mail-lf0-f51.google.com (HELO mail-lf0-f51.google.com) (209.85.215.51) by sourceware.org (qpsmtpd/0.93/v0.84-503-g423c35a) with ESMTP; Tue, 10 Jul 2018 11:09:10 +0000
Received: by mail-lf0-f51.google.com with SMTP id f18-v6so1827958lfc.2        for <gcc@gcc.gnu.org>; Tue, 10 Jul 2018 04:09:09 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;        d=gmail.com; s=20161025;        h=mime-version:in-reply-to:references:from:date:message-id:subject:to;        bh=vXPVNsL15v6TQcxaMGTm1VJiPA66rnHlpogKQroxJKQ=;        b=Z8oLoFFjHygA7UYvVjdh8NErl9vBWBVwrP4KnS/3FIT6ahOvNOXiCoycq9LQFVCQjz         aZUi97q9bA1+8SPGkI3tJJvqBdM5EfNMjz+57YnPuuxdne+1/g/wPBtUDqN3yfTKea1C         ekX4itlH9pKELYp1qCCRZGDohn8YI0zM39nOkUy6HgGt3+F2paJqAgwomn3ypbFz/7bf         rJTlgy6jzOxscIhdau7D8NQFa2R+m1ZlOyS2BpVNq/uSDE6HD0JPTmpKbr/q699uFd9V         M8n9bYv2/blRWLHHk9fMMYdZJjknGXofeQNhd8L4xl79Ki+uE1xWLQA9OqRyqJX+XkdN         d3Rg==
MIME-Version: 1.0
Received: by 2002:a19:5510:0:0:0:0:0 with HTTP; Tue, 10 Jul 2018 04:09:06 -0700 (PDT)
In-Reply-To: <CAMfC4qj_rfkcLnOYNDdnAU2RAqFmrPhHH+1g4mCW=4wgcHNwDg@mail.gmail.com>
References: <CAMfC4qj_rfkcLnOYNDdnAU2RAqFmrPhHH+1g4mCW=4wgcHNwDg@mail.gmail.com>
From: "colinb2 ." <colinb2@gmail.com>
Date: Tue, 10 Jul 2018 11:09:00 -0000
Message-ID: <CAMfC4qisYoYZG=Prk-KT+igA25y_Qzc4FyBtn0NiKCY3BBNRUQ@mail.gmail.com>
Subject: Making GNU GCC choose_multiplier in expmed.c significantly faster
To: gcc@gcc.gnu.org
Content-Type: multipart/mixed; boundary="000000000000a25d5f0570a32815"
X-SW-Source: 2018-07/txt/msg00159.txt.bz2


--000000000000a25d5f0570a32815
Content-Type: text/plain; charset="UTF-8"
Content-length: 5909

Feel free to copy this email and attachment to anyone who might be interested.
I'm very happy to answer any questions anyone has.
The program can be compiled and run like this on Linux with GNU GCC:
gcc -O2 -o expmed2.exe expmed2.c
./expmed2.exe

This email deals with making part of the GNU GCC compiler - integer division
by a constant divisor - faster. (The calculation of the parameters for the
machine code will be faster; compiled programs won't run faster.)
Further down I mention inequality (1) which can be used to make the LLVM
compiler somewhat faster, because that currently uses code based on (2).
I don't know what - if anything - the Java JVM uses for this, or how other
compilers do this, but these ideas may be useful there.

By significantly faster I mean I have benchmarked alternative versions of
choose_multiplier which on my low specification netbook can take maybe less than
half the time the current version takes. Time saved in compilation is much less
important than time saved in running compiled programs, but the code for the
faster versions is about the same length as the code for the current version,
and is only a bit more complicated, so is worth considering?

A short summary of the following is that choose_multiplier currently uses an
elegant algorithm due to Granlund & Montgomery, but which as implemented seems
rather slow. We can make it faster while retaining the basic structure, and
using a different, mostly equivalent, algorithm, may be a bit faster than that.

Licencing: in Fractint people's words "Don't want money, want recognition!"
The version choose_multiplier_v2 is based - but improves - on what's in
the GCC choose_multiplier function in file expmed.c, so the GCC licence.
The version choose_multiplier_v4 is based - but improves - on magicu2 in
"Hacker's Delight", so the licence is you needn't acknowledge the source
but it would be nice to credit the code as from
magicu2 in "Hacker's Delight" by Henry S Warren http://hackersdelight.org
with improvements by Colin Bartlett <colinb2@gmail.com>.
This latter also applies to choose_multiplier_power2_divrem because that
is also an obvious (?) idea from magicu2 in "Hacker's Delight".  */

The idea is using "wide int" seems slow compared to "unsigned HOST_WIDE_INT",
so it makes sense to avoid using "wide int" as much as possible. We can easily
rewrite choose_multiplier to only use "wide int" to calculate the initial mlow;
this is choose_multiplier_v2. An alternative for choose_multiplier_v2 completely
avoids using "wide int" by iterating upwards for the initial mlow, but if that
benchmarks as faster than using "wide int" even once (I suspect it might) then
just iterating upwards may even be a bit faster; this is choose_multiplier_v4.

The attachment is self-contained, and I have checked that the values produced
agree with a "Hacker's Delight" table of M/2^s for small d and n=precision=32.

What follows is a short summary of the theory, applying it to choose_multiplier.

Problem: find M/2^s so that for 0<=i<=iMax>=d we have floor(i/d)=floor(i*M/2^s).
Let qc=floor((iMax+1)/d); nc=qc*d-1; lgup=ceiling(log2(d)).
Given s let M=floor(2^s/d)+1; delta=M*d-2^s.

For GCC choose_multiplier:

* equivalent necessary & sufficient conditions:
(1) 0<delta and qc*delta<M
(2) 0<delta and nc*delta<2^s
Proof of (1) if and only if (2):
qc*delta*d-delta=nc*delta<2^s==M*d-delta
(3) 1/d<M/2^s<(1+1/nc)*1/d

* equivalent sufficient conditions: we have nc<2^precision, so:
(4) 0<delta and 2^precision*delta<=2^s
(4.1) 0<delta and delta<=2^(s-precision)
(5) 1/d<M/2^s<=(1+1/2^precision)*1/d
(5.1) 2^s/d<M<=(2^s+2^(s-precision))/d

(1) seems to be new to the literature, but is equivalent to (2) which is in
"Hacker's Delight" (Chapter 10) by Henry S Warren. Both give upwards iterating
algorithms which give minimal M/2^s and which avoid needing to use "wide int",
but the algorithm code using (1) is simpler and faster than that using (2).

(4.1) is in "Hacker's Delight". It gives an upwards iterating algorithm which
avoids using "wide int", and the algorithm code is a bit simpler than using (1).
Mostly it gives the same result as GCC choose_multiplier which implements
(possibly slowly because it uses "wide int") the elegant algorithm due to
Granlund & Montgomery. (Which perhaps builds on work by Alverson.)

We can prove if iMax<2^precision then for 0<=i<2^(precision/2) inequality (4)
etc give the same M/2^s as inequality (1) etc. For n=precision=32
the smallest d for which (4) gives a non-minimal M is d=102807.

Rough not necessarily reliable statistics suggest that using (4) etc
we have that if n=precision the average post_shift=lgup-1.

So if we can *quickly" calculate M/2^s at s=n+lgup-1, then either that fails
and we need to use an extra "top" bit for M and use post_shift=lgup,
or it works and we can try reducing M.

The catch is *if* we can *quickly* calculate M/2^s at s=n+lgup-1;
it's easy to directly calculate M/2^s at that s using "wide int", but using
"wide int" seems slow, and it might actually be faster to iterate upwards
from s=n and completely avoid using "wide int".

In any case "wide int" seems slow compared with using "unsigned HOST_WIDE_INT",
so it makes sense to avoid "wide int" as far as possible.

So in the attachment choose_multiplier_v2 rewrites choose_multiplier to:
(a) only use "wide int" to calculate the initial mlow at s=n+lgup-1;
    all other calculations are made using "unsigned HOST_WIDE_INT";
or (b) avoid using "wide int" to calculate the initial mlow at s=n+lgup-1,
       by iterating upwards from s=n to find the initial mlow.
But if (b) benchmarks as faster than (a), which I suspect might be the case,
then it may even be on average a bit faster to use choose_multiplier_v4 which
iterates upwards to find M/2^s, and which would avoid needing to calculate lgup
unless that is useful as a return value of choose_multiplier.

Colin Bartlett

--000000000000a25d5f0570a32815
Content-Type: text/x-csrc; charset="US-ASCII"; name="expmed2.c"
Content-Disposition: attachment; filename="expmed2.c"
Content-Transfer-Encoding: base64
X-Attachment-Id: file0
Content-length: 12131

CiNpbmNsdWRlIDxzdGRpby5oPgojaW5jbHVkZSA8c3RkbGliLmg+CgojZGVm
aW5lIEhPU1RfV0lERV9JTlQgaW50CiNkZWZpbmUgSE9TVF9CSVRTX1BFUl9X
SURFX0lOVCAzMgojZGVmaW5lIEhPU1RfQklUU19QRVJfRE9VQkxFX0lOVCAo
MiAqIEhPU1RfQklUU19QRVJfV0lERV9JTlQpCgovKiBNYWtpbmcgR05VIEdD
QyBjaG9vc2VfbXVsdGlwbGllciBpbiBleHBtZWQuYyBzaWduaWZpY2FudGx5
IGZhc3Rlci4KICAgQnkgd2hpY2ggd2UgbWVhbiB1cCB0byA1MCUgb3IgbW9y
ZSBmYXN0ZXIgZm9yIHRoZSBjb21waWxlciB0byBjYWxjdWxhdGUKICAgcGFy
YW1ldGVycyBmb3IgdGhlIG1hY2hpbmUgY29kZSBmb3IgaW50ZWdlciBkaXZp
c2lvbiBieSBhIGNvbnN0YW50IGRpdmlzb3IuCiAgIChDb21waWxlZCBwcm9n
cmFtcyB3b24ndCBydW4gZmFzdGVyLikKICAgTGljZW5jaW5nOiBpbiBGcmFj
dGludCBwZW9wbGUncyB3b3JkcyAiRG9uJ3Qgd2FudCBtb25leSwgd2FudCBy
ZWNvZ25pdGlvbiEiCiAgIFRoZSB2ZXJzaW9uIGNob29zZV9tdWx0aXBsaWVy
X3YyIGlzIGJhc2VkIC0gYnV0IGltcHJvdmVzIC0gb24gd2hhdCdzIGluCiAg
IHRoZSBHQ0MgY2hvb3NlX211bHRpcGxpZXIgZnVuY3Rpb24gaW4gZmlsZSBl
eHBtZWQuYywgc28gdGhlIEdDQyBsaWNlbmNlLgogICBUaGUgdmVyc2lvbiBj
aG9vc2VfbXVsdGlwbGllcl92NCBpcyBiYXNlZCAtIGJ1dCBpbXByb3ZlcyAt
IG9uIG1hZ2ljdTIgaW4KICAgIkhhY2tlcidzIERlbGlnaHQiLCBzbyB0aGUg
bGljZW5jZSBpcyB5b3UgbmVlZG4ndCBhY2tub3dsZWRnZSB0aGUgc291cmNl
CiAgIGJ1dCBpdCB3b3VsZCBiZSBuaWNlIHRvIGNyZWRpdCB0aGUgY29kZSBh
cyBmcm9tCiAgIG1hZ2ljdTIgaW4gIkhhY2tlcidzIERlbGlnaHQiIGJ5IEhl
bnJ5IFMgV2FycmVuIGh0dHA6Ly9oYWNrZXJzZGVsaWdodC5vcmcKICAgd2l0
aCBpbXByb3ZlbWVudHMgYnkgQ29saW4gQmFydGxldHQgPGNvbGluYjJAZ21h
aWwuY29tPi4KICAgVGhpcyBsYXR0ZXIgYWxzbyBhcHBsaWVzIHRvIGNob29z
ZV9tdWx0aXBsaWVyX3Bvd2VyMl9kaXZyZW0gYmVjYXVzZSB0aGF0CiAgIGlz
IGFsc28gYW4gb2J2aW91cyAoPykgaWRlYSBmcm9tIG1hZ2ljdTIgaW4gIkhh
Y2tlcidzIERlbGlnaHQiLiAgKi8KCmludApjZWlsX2xvZzIgKHVuc2lnbmVk
IGxvbmcgbG9uZyBpbnQgaXYpCnsKICAvKiBmb3Igbm93IGRvIGl0IHRoZSBs
b25nIHdheSAqLwogIGludCBzOwogIGlmIChpdiA9PSAwKSByZXR1cm4gLTE7
CiAgaXYgLT0gMTsKICBzID0gMDsKICB3aGlsZSAoaXYpCiAgICB7CiAgICAg
IHMgKz0gMTsKICAgICAgaXYgPSBpdiA+PiAxOwogICAgfQogIHJldHVybiBz
Owp9Cgp2b2lkCmdjY19hc3NlcnQgKGludCBpdikKewogIGlmIChpdikgcmV0
dXJuOwogIHByaW50ZiAoImdjY19hc3NlcnQgZXJyb3JcbiIpOwogIGV4aXQg
KDEpOwp9CgoKDAovKiBDaG9vc2UgYSBtaW5pbWFsIE4gKyAxIGJpdCBhcHBy
b3hpbWF0aW9uIHRvIDEvRCB0aGF0IGNhbiBiZSB1c2VkIHRvCiAgIHJlcGxh
Y2UgZGl2aXNpb24gYnkgRCwgYW5kIHB1dCB0aGUgbGVhc3Qgc2lnbmlmaWNh
bnQgTiBiaXRzIG9mIHRoZSByZXN1bHQKICAgaW4gKk1VTFRJUExJRVJfUFRS
IGFuZCByZXR1cm4gdGhlIG1vc3Qgc2lnbmlmaWNhbnQgYml0LgoKICAgVGhl
IHdpZHRoIG9mIG9wZXJhdGlvbnMgaXMgTiAoc2hvdWxkIGJlIDw9IEhPU1Rf
QklUU19QRVJfV0lERV9JTlQpLCB0aGUKICAgbmVlZGVkIHByZWNpc2lvbiBp
cyBpbiBQUkVDSVNJT04gKHNob3VsZCBiZSA8PSBOKS4KCiAgIFBSRUNJU0lP
TiBzaG91bGQgYmUgYXMgc21hbGwgYXMgcG9zc2libGUgc28gdGhpcyBmdW5j
dGlvbiBjYW4gY2hvb3NlCiAgIG11bHRpcGxpZXIgbW9yZSBmcmVlbHkuCgog
ICBUaGUgcm91bmRlZC11cCBsb2dhcml0aG0gb2YgRCBpcyBwbGFjZWQgaW4g
KmxndXBfcHRyLiAgQSBzaGlmdCBjb3VudCB0aGF0CiAgIGlzIHRvIGJlIHVz
ZWQgZm9yIGEgZmluYWwgcmlnaHQgc2hpZnQgaXMgcGxhY2VkIGluICpQT1NU
X1NISUZUX1BUUi4KCiAgIFVzaW5nIHRoaXMgZnVuY3Rpb24sIHgvRCB3aWxs
IGJlIGVxdWFsIHRvICh4ICogbSkgPj4gKCpQT1NUX1NISUZUX1BUUiksCiAg
IHdoZXJlIG0gaXMgdGhlIGZ1bGwgSE9TVF9CSVRTX1BFUl9XSURFX0lOVCAr
IDEgYml0IG11bHRpcGxpZXIuICAqLwoKCiNkZWZpbmUgQ01VSFdJMSAoKHVu
c2lnbmVkIEhPU1RfV0lERV9JTlQpIDEpCi8vICNkZWZpbmUgQ01VSFdJMiAo
KHVuc2lnbmVkIEhPU1RfV0lERV9JTlQpIDIpCgovKiBMaWNlbmNpbmc6ICov
Cgp2b2lkCmNob29zZV9tdWx0aXBsaWVyX3Bvd2VyMl9kaXZyZW0gKGludCB0
d29fZXhwLCB1bnNpZ25lZCBIT1NUX1dJREVfSU5UIGQsCgkJICAgdW5zaWdu
ZWQgSE9TVF9XSURFX0lOVCAqcXVvdGllbnQsIHVuc2lnbmVkIEhPU1RfV0lE
RV9JTlQgKnJlbWFpbmRlcikgCnsKICAvKiBNdXN0IGhhdmUgdGhhdCAyXnR3
b19leHAgLyBkIDwgMl5IT1NUX0JJVFNfUEVSX1dJREVfSU5UICovCiAgdW5z
aWduZWQgSE9TVF9XSURFX0lOVCBxLCByLCBydGVzdDsKICBpbnQgczsKICBp
ZiAodHdvX2V4cCA8IEhPU1RfQklUU19QRVJfV0lERV9JTlQpCiAgICB7CiAg
ICAgIHIgPSBDTVVIV0kxIDw8IHR3b19leHA7CiAgICAgIHEgPSByIC8gZDsK
ICAgICAgciA9IHIgLSBxICogZDsKICAgIH0KLy8gIGVsc2UgaWYgKDAgPT0g
MCkKLy8gICAgewovLyAgICAgIC8qIFVzaW5nIHdpZGVfaW50IHNlZW1zIHNs
b3dpc2ggJiBpdCBtYXkgYmUgZmFzdGVyIHRvIGl0ZXJhdGUgdXB3YXJkcy4g
Ki8KLy8gICAgICB3aWRlX2ludCB2YWwgPSB3aTo6c2V0X2JpdF9pbl96ZXJv
ICh0d29fZXhwLCBIT1NUX0JJVFNfUEVSX0RPVUJMRV9JTlQpOwovLyAgICAg
IHEgPSB3aTo6dWRpdl90cnVuYyAodmFsLCBkKS50b191aHdpICgpOwovLyAg
ICAgIHIgPSAwIC0gcSAqIGQ7Ci8vICAgIH0KICBlbHNlCiAgICB7CiAgICAg
IC8qIEl0ZXJhdGUgdXB3YXJkcyB0byBnZXQgcSwgcjsKICAgICAgICAgdGhl
cmUgbWF5IGJlICJvdmVyZmxvd3MiIGJ1dCB0aGF0J3MgT0sgYXMgdXNpbmcg
dW5zaWduZWQgaW50ZWdlcnMuICovCiAgICAgIHMgPSBIT1NUX0JJVFNfUEVS
X1dJREVfSU5UOwogICAgICBxID0gKDAgLSBkKSAvIGQgKyAxOwogICAgICBy
ID0gMCAtIHEgKiBkOwogICAgICBydGVzdCA9IChkIC0gMSkgPj4gMTsKICAg
ICAgd2hpbGUgKHMgPCB0d29fZXhwKQogICAgICAgIHsKICAgICAgICAgIHMg
PSBzICsgMTsKICAgICAgICAgIGlmIChyIDw9IHJ0ZXN0KQogICAgICAgICAg
ICB7CiAgICAgICAgICAgICAgcSA9IHEgPDwgMTsKICAgICAgICAgICAgICBy
ID0gciA8PCAxOwogICAgICAgICAgICB9CiAgICAgICAgICBlbHNlCiAgICAg
ICAgICAgIHsKICAgICAgICAgICAgICBxID0gKHEgPDwgMSkgfCAxOwogICAg
ICAgICAgICAgIHIgPSAociA8PCAxKSAtIGQ7CiAgICAgICAgICAgIH0KICAg
ICAgICB9CiAgICB9CiAgKnF1b3RpZW50ID0gcTsKICAqcmVtYWluZGVyID0g
cjsKICByZXR1cm47Cn0KCi8qIFdoeSBpcyBjaG9vc2VfbXVsdGlwbGllciAi
dW5zaWduZWQgSE9TVF9XSURFX0lOVCIgaW5zdGVhZCBvZiBqdXN0ICJpbnQi
PwogICBJdCBvbmx5IHJldHVybnMgMCBvciAxLiAgICAgICAgICAgICAgICAg
ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAqLwoKaW50CmNob29z
ZV9tdWx0aXBsaWVyX3YyICh1bnNpZ25lZCBIT1NUX1dJREVfSU5UIGQsIGlu
dCBuLCBpbnQgcHJlY2lzaW9uLAoJCSAgIHVuc2lnbmVkIEhPU1RfV0lERV9J
TlQgKm11bHRpcGxpZXJfcHRyLAoJCSAgIGludCAqcG9zdF9zaGlmdF9wdHIs
IGludCAqbGd1cF9wdHIpCnsKICBpbnQgbGd1cCwgc2hpZnR2LCB0b3BiaXQs
IHM7CiAgdW5zaWduZWQgSE9TVF9XSURFX0lOVCBtbG93LCBtaGlnaCwgbWxv
d3YsIG1oaWdodjsKCiAgLyogbGd1cCA9IGNlaWwobG9nMihkaXZpc29yKSk7
ICovCiAgbGd1cCA9IGNlaWxfbG9nMiAoZCk7CgogIGdjY19hc3NlcnQgKGxn
dXAgPD0gbik7CgogIGlmIChsZ3VwID09IDApCiAgICB7CiAgICAgIC8qIEl0
J3MgZWFzaWVyIHRvIGRlYWwgd2l0aCBkID0gMSBzZXBhcmF0ZWx5LCBhcyB0
aGF0CiAgICAgICAgIGlzIHRoZSBvbmx5IGQgZm9yIHdoaWNoIHdlIG5lZWQg
dG8gYmUgdmVyeSBjYXJlZnVsCiAgICAgICAgIGFib3V0IGF2b2lkaW5nIHNo
aWZ0aW5nIGJpdHMgYnkgPj0gSE9TVF9CSVRTX1BFUl9XSURFX0lOVC4gKi8g
CiAgICAgICptdWx0aXBsaWVyX3B0ciA9IENNVUhXSTEgPDwgKG4gLSBwcmVj
aXNpb24pOwogICAgICAqcG9zdF9zaGlmdF9wdHIgPSAwOwogICAgICAqbGd1
cF9wdHIgPSBsZ3VwOwogICAgICByZXR1cm4gMTsKICAgIH0KCiAgdG9wYml0
ID0gMDsKICAvKiBzaGlmdHYgPSAobiBvciBwcmVjaXNpb24pICsgbGd1cCAt
IDEKICAgICBtbG93ID0gMl5zaGlmdHYgLyBkCiAgICAgbWhpZ2ggPSAoMl5z
aGlmdHYgKyAyXihzaGlmdHYgLSBwcmVjaXNpb24pKSAvIGQKICAgICBBbiB1
bmxpa2VseSBjYXNlIGlzIGlmIHByZWNpc2lvbiA8IGxndXAKICAgICB3aGVu
IHdlIGNvdWxkIGp1c3QgdXNlIG1oaWdoID0gMCwgc2hpZnR2ID09IDAuICov
CiAgc2hpZnR2ID0gbiArIGxndXAgLSAxOwogIGNob29zZV9tdWx0aXBsaWVy
X3Bvd2VyMl9kaXZyZW0gKHNoaWZ0diwgZCwgJm1sb3csICZtbG93dik7CiAg
cyA9IHNoaWZ0diAtIHByZWNpc2lvbjsKICAvKiBBdm9pZCBzaGlmdHMgYnkg
Pj0gSE9TVF9CSVRTX1BFUl9XSURFX0lOVC4gKi8KICBtaGlnaCA9IHByZWNp
c2lvbiA8IEhPU1RfQklUU19QRVJfV0lERV9JTlQgPyBtbG93ID4+IHByZWNp
c2lvbiA6IDA7CiAgbWhpZ2h2ID0gKHMgPCBIT1NUX0JJVFNfUEVSX1dJREVf
SU5UID8gQ01VSFdJMSA8PCBzIDogMCkgLSBkICogbWhpZ2g7CiAgbWhpZ2gg
Kz0gbWxvdyArIChtbG93diA8IGQgLSBtaGlnaHYgPyAwIDogMSk7CiAgaWYg
KG1sb3cgPCBtaGlnaCkKICAgIHsKICAgICAgLyogUmVkdWNlIHRvIGxvd2Vz
dCB0ZXJtcy4gKi8KICAgICAgc2hpZnR2IC09IG47CiAgICAgIHdoaWxlIChz
aGlmdHYgPiAwKQogICAgICAgIHsKICAgICAgICAgIG1sb3d2ID0gbWxvdyA+
PiAxOwogICAgICAgICAgbWhpZ2h2ID0gbWhpZ2ggPj4gMTsKICAgICAgICAg
IGlmIChtbG93diA+PSBtaGlnaHYpCiAgICAgICAgICAgIGJyZWFrOwogICAg
ICAgICAgbWxvdyA9IG1sb3d2OwogICAgICAgICAgbWhpZ2ggPSBtaGlnaHY7
CiAgICAgICAgICBzaGlmdHYgLT0gMTsKICAgICAgICB9CiAgICB9CiAgZWxz
ZQogICAgewogICAgICBtaGlnaCA9ICgobWhpZ2ggLSAoQ01VSFdJMSA8PCAo
biAtIDEpKSkgPDwgMSkgfCAxOwogICAgICBzaGlmdHYgPSBsZ3VwOwogICAg
ICB0b3BiaXQgPSAxOwogICAgfQoKICAqbXVsdGlwbGllcl9wdHIgPSBtaGln
aDsKICAqcG9zdF9zaGlmdF9wdHIgPSBzaGlmdHY7CiAgKmxndXBfcHRyID0g
bGd1cDsKICByZXR1cm4gdG9wYml0Owp9CgppbnQKY2hvb3NlX211bHRpcGxp
ZXJfdjQgKHVuc2lnbmVkIEhPU1RfV0lERV9JTlQgZCwgaW50IG4sIGludCBw
cmVjaXNpb24sCgkJICAgdW5zaWduZWQgSE9TVF9XSURFX0lOVCAqbXVsdGlw
bGllcl9wdHIsCgkJICAgaW50ICpwb3N0X3NoaWZ0X3B0ciwgaW50ICpsZ3Vw
X3B0cikKewogIGludCBsZ3VwLCBzaGlmdHYsIHRvcGJpdDsKICB1bnNpZ25l
ZCBIT1NUX1dJREVfSU5UIHEsIGRlbHRhLCBkZWx0YXRlc3QsIHR3b3MsIHRv
cGJpdGNoZWNrOwoKICAvKiBsZ3VwID0gY2VpbChsb2cyKGRpdmlzb3IpKTsg
Ki8KICBsZ3VwID0gY2VpbF9sb2cyIChkKTsKCiAgZ2NjX2Fzc2VydCAobGd1
cCA8PSBuKTsKCiAgaWYgKGxndXAgPT0gMCkKICAgIHsKICAgICAgLyogSXQn
cyBlYXNpZXIgdG8gZGVhbCB3aXRoIGQgPSAxIHNlcGFyYXRlbHksIGFzIHRo
YXQKICAgICAgICAgaXMgdGhlIG9ubHkgZCBmb3Igd2hpY2ggd2UgbmVlZCB0
byBiZSB2ZXJ5IGNhcmVmdWwKICAgICAgICAgYWJvdXQgYXZvaWRpbmcgc2hp
ZnRpbmcgYml0cyBieSA+PSBIT1NUX0JJVFNfUEVSX1dJREVfSU5ULiAqLyAK
ICAgICAgKm11bHRpcGxpZXJfcHRyID0gQ01VSFdJMSA8PCAobiAtIHByZWNp
c2lvbik7CiAgICAgICpwb3N0X3NoaWZ0X3B0ciA9IDA7CiAgICAgICpsZ3Vw
X3B0ciA9IGxndXA7CiAgICAgIHJldHVybiAxOwogICAgfQoKICAvKiBJdGVy
YXRlIHVwd2FyZHMgdG8gZmluZCBtdWx0aXBsaWVyIGFuZCBwb3N0X3NoaWZ0
LiAqLwogIHRvcGJpdCA9IDA7CiAgc2hpZnR2ID0gMDsKICB0d29zID0gQ01V
SFdJMSA8PCAobiAtIHByZWNpc2lvbik7CiAgdG9wYml0Y2hlY2sgPSBDTVVI
V0kxIDw8IChuIC0gMSk7CiAgZGVsdGF0ZXN0ID0gZCA+PiAxOwogIGlmIChu
IDwgSE9TVF9CSVRTX1BFUl9XSURFX0lOVCkKICAgIHsKICAgICAgZGVsdGEg
PSBDTVVIV0kxIDw8IG47CiAgICAgIHEgPSBkZWx0YSAvIGQ7CiAgICB9CiAg
ZWxzZQogICAgewogICAgICBkZWx0YSA9IDA7CiAgICAgIHEgPSAoZGVsdGEg
LSBkKSAvIGQgKyAxOwogICAgfQogIGRlbHRhID0gKHEgKyAxKSAqIGQgLSBk
ZWx0YTsKLy8gcHJpbnRmKCJcbiIpOwovLyBwcmludGYgKCIvLyMvLyBOICUy
ZCBQICUyZCBMICUyZCBkICUxMGQgPSAweCU4eDsgTSAweCAlOHggJTh4IHJ2
ICUxZCAlMWQgcyAlMmQgJTJkO1xuIiwKLy8gICAgICAgICAgbiwgcHJlY2lz
aW9uLCBsZ3VwLCBkLCBkLCBtLCBtdiwgcnYsIHJ2diwgcywgc3YpOwogIHdo
aWxlIChkZWx0YSA+IHR3b3MpCiAgICB7CiAgICAgIHNoaWZ0diArPSAxOwog
ICAgICBpZiAoZGVsdGEgPD0gZGVsdGF0ZXN0KQogICAgICAgIHsKICAgICAg
ICAgIHEgPSAocSA8PCAxKSB8IDE7CiAgICAgICAgICBkZWx0YSA9IGRlbHRh
IDw8IDE7CiAgICAgICAgfQogICAgICBlbHNlIGlmIChxIDwgdG9wYml0Y2hl
Y2spCiAgICAgICAgewogICAgICAgICAgcSA9IHEgPDwgMTsKICAgICAgICAg
IGRlbHRhID0gKGRlbHRhIDw8IDEpIC0gZDsKICAgICAgICB9CiAgICAgIGVs
c2UKICAgICAgICB7CiAgICAgICAgICB0b3BiaXQgPSAxOwogICAgICAgICAg
cSA9IChxIC0gdG9wYml0Y2hlY2spIDw8IDE7CiAgICAgICAgICBicmVhazsK
ICAgICAgICB9CiAgICAgIHR3b3MgPSB0d29zIDw8IDE7CiAgICB9CgogICpt
dWx0aXBsaWVyX3B0ciA9IHEgKyAxOwogICpwb3N0X3NoaWZ0X3B0ciA9IHNo
aWZ0djsKICAqbGd1cF9wdHIgPSBsZ3VwOwogIHJldHVybiB0b3BiaXQ7Cn0K
CmludAp0ZXN0X3YyIChpbnQgbiwgaW50IHByZWNpc2lvbiwgdW5zaWduZWQg
SE9TVF9XSURFX0lOVCBkLCBpbnQgcXNob3cpCnsKICBpbnQgcywgbGd1cCwg
cnYsIHN2LCBydnYsIG5lcTsKICB1bnNpZ25lZCBIT1NUX1dJREVfSU5UIG0s
IG12OwogIHJ2ID0gY2hvb3NlX211bHRpcGxpZXJfdjIgKGQsIG4sIHByZWNp
c2lvbiwgJm0sICZzLCAmbGd1cCk7CiAgcnZ2ID0gY2hvb3NlX211bHRpcGxp
ZXJfdjQgKGQsIG4sIHByZWNpc2lvbiwgJm12LCAmc3YsICZsZ3VwKTsKICBu
ZXEgPSAobSA9PSBtdiA/IDAgOiBtPm12ID8gMSA6IDIpIHwgKHJ2ID09IHJ2
diA/IDAgOiA0KSB8IChzID09IHN2ID8gMCA6IDgpOwogIGlmIChxc2hvdyA+
PSA0IHx8IChuZXEgJiYgcXNob3cpKQogICAgcHJpbnRmICgiLy8jLy8gTiAl
MmQgUCAlMmQgTCAlMmQgZCAlMTBkID0gMHglOHg7IE0gMHggJTh4ICU4eCBy
diAlMWQgJTFkIHMgJTJkICUyZDsgbmVxICUyZDtcbiIsCiAgICAgICAgICBu
LCBwcmVjaXNpb24sIGxndXAsIGQsIGQsIG0sIG12LCBydiwgcnZ2LCBzLCBz
diwgbmVxKTsKICByZXR1cm4gbmVxOwp9CgoKdm9pZAptYW55X3Rlc3RfdjIg
KGludCBxc2hvdykKewovKgoqLwogIHRlc3RfdjIgKDMyLCAzMiwgMSwgcXNo
b3cpOwogIHRlc3RfdjIgKDMyLCAzMiwgMiwgcXNob3cpOwogIHRlc3RfdjIg
KDMyLCAzMiwgNCwgcXNob3cpOwogIHRlc3RfdjIgKDMyLCAzMiwgOCwgcXNo
b3cpOwogIHRlc3RfdjIgKDMyLCAzMiwgMSA8PCA2LCBxc2hvdyk7CiAgdGVz
dF92MiAoMzIsIDMxLCAxIDw8IDYsIHFzaG93KTsKICB0ZXN0X3YyICgzMiwg
MzAsIDEgPDwgNiwgcXNob3cpOwogIHRlc3RfdjIgKDMyLCAyOSwgMSA8PCA2
LCBxc2hvdyk7CiAgdGVzdF92MiAoMzIsIDI4LCAxIDw8IDYsIHFzaG93KTsK
ICB0ZXN0X3YyICgzMiwgMjcsIDEgPDwgNiwgcXNob3cpOwogIHRlc3RfdjIg
KDMyLCAyNiwgMSA8PCA2LCBxc2hvdyk7CiAgdGVzdF92MiAoMzIsIDI1LCAx
IDw8IDYsIHFzaG93KTsKICB0ZXN0X3YyICgzMiwgMzIsIDB4ODAwMDAwLCBx
c2hvdyk7CiAgdGVzdF92MiAoMzIsIDMyLCAzLCBxc2hvdyk7CiAgdGVzdF92
MiAoMzIsIDMyLCA1LCBxc2hvdyk7CiAgdGVzdF92MiAoMzIsIDMyLCA2LCBx
c2hvdyk7CiAgdGVzdF92MiAoMzIsIDMyLCA3LCBxc2hvdyk7CiAgdGVzdF92
MiAoMzIsIDMxLCA3LCBxc2hvdyk7CiAgdGVzdF92MiAoMzIsIDMwLCA3LCBx
c2hvdyk7CiAgdGVzdF92MiAoMzIsIDI5LCA3LCBxc2hvdyk7CiAgdGVzdF92
MiAoMzIsIDI4LCA3LCBxc2hvdyk7CiAgdGVzdF92MiAoMzIsIDMyLCA5LCBx
c2hvdyk7CiAgdGVzdF92MiAoMzIsIDMyLCAxMCwgcXNob3cpOwogIHRlc3Rf
djIgKDMyLCAzMiwgMTEsIHFzaG93KTsKICB0ZXN0X3YyICgzMiwgMzIsIDEy
LCBxc2hvdyk7CiAgdGVzdF92MiAoMzIsIDMyLCAyNSwgcXNob3cpOwogIHRl
c3RfdjIgKDMyLCAzMiwgMTI1LCBxc2hvdyk7CiAgdGVzdF92MiAoMzIsIDMy
LCA2MjUsIHFzaG93KTsKICB0ZXN0X3YyICgzMiwgMzIsIDEwMjgwNywgcXNo
b3cpOwogIHRlc3RfdjIgKDMyLCAzMSwgMTAyODA3LCBxc2hvdyk7CiAgdGVz
dF92MiAoMzIsIDMwLCAxMDI4MDcsIHFzaG93KTsKICByZXR1cm47Cn0KCnZv
aWQKbG90c190ZXN0X3YyICgpCnsKICBpbnQgcXNob3cgPSAxOwogIHRlc3Rf
djIgKDMyLCAzMiwgMSwgcXNob3cpOwogIHJldHVybjsKfQoKaW50IG1haW4o
KQp7CiAgbWFueV90ZXN0X3YyICg0KTsKICBleGl0ICgwKTsKfQo=

--000000000000a25d5f0570a32815--