From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <gcc-bugzilla@gcc.gnu.org>
Received: by sourceware.org (Postfix, from userid 48)
	id BC5E33858CD1; Thu,  7 Dec 2023 00:59:23 +0000 (GMT)
DKIM-Filter: OpenDKIM Filter v2.11.0 sourceware.org BC5E33858CD1
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gcc.gnu.org;
	s=default; t=1701910763;
	bh=BLZGykvVMdCEC6XwcgdhLEcdXgEuOZ7Wvj7AXT9Gsm0=;
	h=From:To:Subject:Date:From;
	b=BHONu/9T548cyDp82iULihwTodTDbk1Q+IAmuahntaqAr2LS8GMVy+SFquknl2pAH
	 cZg+FMtTMn/o6C1FnFA0gXC5JjK4XdS6tIe6XhiqXhMHeJA0v/aOxPN/vveZpXnvvK
	 cfZ71tiddReiYP0N7rWIFzSeRQbSCloJTJ/htw8A=
From: "liuhongt at gcc dot gnu.org" <gcc-bugzilla@gcc.gnu.org>
To: gcc-bugs@gcc.gnu.org
Subject: [Bug target/112891] New: [10/11/12/13/14 Regression] Missing
 vzeroupper insert.
Date: Thu, 07 Dec 2023 00:59:22 +0000
X-Bugzilla-Reason: CC
X-Bugzilla-Type: new
X-Bugzilla-Watch-Reason: None
X-Bugzilla-Product: gcc
X-Bugzilla-Component: target
X-Bugzilla-Version: 14.0
X-Bugzilla-Keywords: 
X-Bugzilla-Severity: normal
X-Bugzilla-Who: liuhongt at gcc dot gnu.org
X-Bugzilla-Status: UNCONFIRMED
X-Bugzilla-Resolution: 
X-Bugzilla-Priority: P3
X-Bugzilla-Assigned-To: unassigned at gcc dot gnu.org
X-Bugzilla-Target-Milestone: ---
X-Bugzilla-Flags: 
X-Bugzilla-Changed-Fields: bug_id short_desc product version bug_status
 bug_severity priority component assigned_to reporter target_milestone
Message-ID: <bug-112891-4@http.gcc.gnu.org/bugzilla/>
Content-Type: text/plain; charset="UTF-8"
Content-Transfer-Encoding: quoted-printable
X-Bugzilla-URL: http://gcc.gnu.org/bugzilla/
Auto-Submitted: auto-generated
MIME-Version: 1.0
List-Id: <gcc-bugs.sourceware.org>

https://gcc.gnu.org/bugzilla/show_bug.cgi?id=3D112891

            Bug ID: 112891
           Summary: [10/11/12/13/14 Regression] Missing vzeroupper insert.
           Product: gcc
           Version: 14.0
            Status: UNCONFIRMED
          Severity: normal
          Priority: P3
         Component: target
          Assignee: unassigned at gcc dot gnu.org
          Reporter: liuhongt at gcc dot gnu.org
  Target Milestone: ---

#include<math.h>
void
__attribute__((noinline))
bar (double* a)
{
    a[0] =3D 1.0;
    a[1] =3D 2.0;
}

void
__attribute__((noinline))
foo (double* __restrict a, double* b)
{
    a[0] +=3D b[0];
    a[1] +=3D b[1];
    a[2] +=3D b[2];
    a[3] +=3D b[3];
    bar (b);
}

double
foo1 (double* __restrict a, double* b)
{
    foo (a, b);
    return exp (b[1]);
}


gcc -O3 -mavx2 Got

bar(double*):
        vmovapd xmm0, XMMWORD PTR .LC0[rip]
        vmovupd XMMWORD PTR [rdi], xmm0
        ret
foo(double*, double*):
        mov     rax, rdi
        vmovupd ymm0, YMMWORD PTR [rsi]
        mov     rdi, rsi
        vaddpd  ymm0, ymm0, YMMWORD PTR [rax]
        vmovupd YMMWORD PTR [rax], ymm0
        jmp     bar(double*)
foo1(double*, double*):
        sub     rsp, 8
        call    foo(double*, double*)
        vmovsd  xmm0, QWORD PTR [rsi+8]
        add     rsp, 8
        jmp     exp
.LC0:
        .long   0
        .long   1072693248
        .long   0
        .long   1073741824

In foo, 256-bit ymm are used, and the upper bits are dirty, but there's no
vzeroupper inserted by exp which cause big avx->sse transition penalty.=