From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: Received: by sourceware.org (Postfix, from userid 48) id 5C4E33858CD1; Fri, 5 Jan 2024 21:29:50 +0000 (GMT) DKIM-Filter: OpenDKIM Filter v2.11.0 sourceware.org 5C4E33858CD1 DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gcc.gnu.org; s=default; t=1704490190; bh=s2kbhNqEPO5x+UItgQBRFCgyPXGWbZqbWNV1CJ069cw=; h=From:To:Subject:Date:In-Reply-To:References:From; b=yJojgGSFhYfLHhargdS1YBVESGxs3WWgRwamQ011mc7jNjaj3Ms32dYfClZ9mhjZI yNX8K8C807wtn0KXzLCUxzdwCOX3eVw6WCgvRuHg1O3bpUWpfLLp/1hil/DiRzYed5 8+l8lV1nNOFw4zXrAiv+UUpznBBcjm8oldcA73Jw= From: "hubicka at gcc dot gnu.org" To: gcc-bugs@gcc.gnu.org Subject: [Bug target/113236] WebP benchmark is 20% slower vs. Clang on AMD Zen 4 Date: Fri, 05 Jan 2024 21:29:49 +0000 X-Bugzilla-Reason: CC X-Bugzilla-Type: changed X-Bugzilla-Watch-Reason: None X-Bugzilla-Product: gcc X-Bugzilla-Component: target X-Bugzilla-Version: 14.0 X-Bugzilla-Keywords: X-Bugzilla-Severity: normal X-Bugzilla-Who: hubicka at gcc dot gnu.org X-Bugzilla-Status: NEW X-Bugzilla-Resolution: X-Bugzilla-Priority: P3 X-Bugzilla-Assigned-To: unassigned at gcc dot gnu.org X-Bugzilla-Target-Milestone: --- X-Bugzilla-Flags: X-Bugzilla-Changed-Fields: everconfirmed cf_reconfirmed_on cc bug_status Message-ID: In-Reply-To: References: Content-Type: text/plain; charset="UTF-8" Content-Transfer-Encoding: quoted-printable X-Bugzilla-URL: http://gcc.gnu.org/bugzilla/ Auto-Submitted: auto-generated MIME-Version: 1.0 List-Id: https://gcc.gnu.org/bugzilla/show_bug.cgi?id=3D113236 Jan Hubicka changed: What |Removed |Added ---------------------------------------------------------------------------- Ever confirmed|0 |1 Last reconfirmed| |2024-01-05 CC| |hubicka at gcc dot gnu.org Status|UNCONFIRMED |NEW --- Comment #2 from Jan Hubicka --- On zen3 I get 0.75MP/s for GCC and 0.80MP/s for clang, so only 6.6%, but se= ems reproducible. Profile looks comparable: gcc 30.96% cwebp libwebp.so.7.1.5 [.] GetCombinedEntropyUnre 26.19% cwebp libwebp.so.7.1.5 [.] VP8LHashChain= Fill=20 3.34% cwebp libwebp.so.7.1.5 [.] CalculateBestCacheSize 3.30% cwebp libwebp.so.7.1.5 [.] CombinedShannonEntropy 3.21% cwebp libwebp.so.7.1.5 [.] CollectColorBlueTransf clang: 34.06% cwebp libwebp.so.7.1.5 [.] GetCombinedEntro= py=20=20=20 28.95% cwebp libwebp.so.7.1.5 [.] VP8LHashChainFil= l=20=20=20=20 5.37% cwebp libwebp.so.7.1.5 [.] VP8LGetBackwardReferences 4.39% cwebp libwebp.so.7.1.5 [.] CombinedShannonEntropy_SS 4.28% cwebp libwebp.so.7.1.5 [.] CollectColorBlueTransform In the first loop clang seems to ifconvert while GCC doesn't: 0.59 =E2=94=82 lea kSLog2Table,%rdi 3.69 =E2=94=82 vmovss (%rdi,%rax,4),%xmm0 0.98 =E2=94=82 6f: vcvtsi2ss %edx,%xmm2,%xmm1 0.63 =E2=94=82 vfnmadd213ss 0x0(%r13),%xmm0,%xmm1 38.16 =E2=94=82 vmovss %xmm1,0x0(%r13) 5.48 =E2=94=82 cmp %r12d,0xc(%r13) 0.06 =E2=94=82 =E2=86=93 jae 89=20=20=20=20=20=20=20=20=20= =20=20=20=20 =E2=94=82 mov %r12d,0xc(%r13) 0.99 =E2=94=82 89: mov 0x4(%r13),%edi=20 0.96 =E2=94=82 8d: xor %eax,%eax=20=20=20=20=20=20 0.40 =E2=94=82 test %r12d,%r12d=20=20=20=20 0.60 =E2=94=82 setne %al=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20 =E2=94=82 vcvtsd2ss %xmm0,%xmm0,%xmm1=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20 0.02 =E2=94=82362: mov %r15d,%eax=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20 0.57 =E2=94=82 imul %r12d,%eax=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20 0.00 =E2=94=82 cmp %r12d,%r9d=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20 0.03 =E2=94=82 cmovbe %r12d,%r9d=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20 0.02 =E2=94=82 vmovd %eax,%xmm0=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20 0.08 =E2=94=82 vpinsrd $0x1,%r15d,%xmm0,%xmm0=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20 1.50 =E2=94=82 vpaddd %xmm0,%xmm4,%xmm4=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20 1.08 =E2=94=82 vcvtsi2ss %r15d,%xmm5,%xmm0=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20 0.87 =E2=94=82 vfnmadd231ss %xmm0,%xmm1,%xmm3=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20 5.40 =E2=94=82 vmovaps %xmm3,%xmm0=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20 0.02 =E2=94=8238c: xor %eax,%eax=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20=20= =20=20=20=20=20=20=20=20 0.16 =E2=94=82 cmp $0x4,%r15d=