[PATCH v1 13/27] x86/fpu: Optimize svml_s_atanf8_core_avx2.S

public inbox for libc-alpha@sourceware.org
 help / color / mirror / Atom feed

From: Noah Goldstein <goldstein.w.n@gmail.com>
To: libc-alpha@sourceware.org
Cc: goldstein.w.n@gmail.com, hjl.tools@gmail.com,
	andrey.kolesov@intel.com, carlos@systemhalted.org
Subject: [PATCH v1 13/27] x86/fpu: Optimize svml_s_atanf8_core_avx2.S
Date: Wed,  7 Dec 2022 00:52:22 -0800	[thread overview]
Message-ID: <20221207085236.1424424-13-goldstein.w.n@gmail.com> (raw)
In-Reply-To: <20221207085236.1424424-1-goldstein.w.n@gmail.com>

1. Cleanup some missed optimizations in instruction selection /
   unnecissary repeated rodata references.
2. Remove unused rodata.
3. Use common data definitions where possible.

Code Size Change: -12 Bytes (163 - 175)

Input                                 New Time / Old Time
0F          (0x00000000)           -> 0.8484
0F          (0x0000ffff, Denorm)   -> 0.9993
.1F         (0x3dcccccd)           -> 0.9368
5F          (0x40a00000)           -> 0.9476
2315255808F (0x4f0a0000)           -> 0.9454
-NaN        (0xffffffff)           -> 0.9193
---
 .../fpu/multiarch/svml_s_atanf8_core_avx2.S   | 162 +++++++-----------
 1 file changed, 58 insertions(+), 104 deletions(-)

diff --git a/sysdeps/x86_64/fpu/multiarch/svml_s_atanf8_core_avx2.S b/sysdeps/x86_64/fpu/multiarch/svml_s_atanf8_core_avx2.S
index ee49a3e10e..649277c682 100644
--- a/sysdeps/x86_64/fpu/multiarch/svml_s_atanf8_core_avx2.S
+++ b/sysdeps/x86_64/fpu/multiarch/svml_s_atanf8_core_avx2.S
@@ -28,120 +28,74 @@
  *
  */
 
-/* Offsets for data table __svml_satan_data_internal
- */
-#define _sSIGN_MASK			0
-#define _sABS_MASK			32
-#define _sONE				64
-#define _sPIO2				96
-#define _sPC8				128
-#define _sPC7				160
-#define _sPC6				192
-#define _sPC5				224
-#define _sPC4				256
-#define _sPC3				288
-#define _sPC2				320
-#define _sPC1				352
-#define _sPC0				384
+
+#define LOCAL_DATA_NAME	__svml_satan_data_internal
+#include "svml_s_common_avx2_rodata_offsets.h"
+/* Offsets for data table __svml_satan_data_internal.  */
+#define _sPC8	0
+#define _sPC7	32
+#define _sPC6	64
+#define _sPC5	96
+#define _sPC4	128
+#define _sPC3	160
+#define _sPC2	192
+#define _sPC1	224
+#define _sPC0	256
 
 #include <sysdep.h>
 
 	.section .text.avx2, "ax", @progbits
 ENTRY(_ZGVdN8v_atanf_avx2)
-	/*
-	 * 1) If x>1,      then r=-1/x, PIO2=Pi/2
-	 * 2) If -1<=x<=1, then r=x,    PIO2=0
-	 * 3) If x<-1,     then r=-1/x, PIO2=-Pi/2
-	 */
-	vmovups	_sONE+__svml_satan_data_internal(%rip), %ymm2
-	vmovups	__svml_satan_data_internal(%rip), %ymm7
-	vmovups	_sPC7+__svml_satan_data_internal(%rip), %ymm13
+	/* 1) If x>1,      then r=-1/x, PIO2=Pi/2
+	   2) If -1<=x<=1, then r=x,    PIO2=0
+	   3) If x<-1,     then r=-1/x, PIO2=-Pi/2.  */
+	vmovups	COMMON_DATA(_AbsMask)(%rip), %ymm7
+	vmovups	COMMON_DATA(_OneF)(%rip), %ymm2
+
+	vandps	%ymm0, %ymm7, %ymm3
+	/* Use minud\maxud operations for argument reduction.  */
+	vpmaxud	%ymm3, %ymm2, %ymm5
+	vpminud	%ymm3, %ymm2, %ymm4
 
-	/*
-	 * To use minps\maxps operations for argument reduction
-	 * uncomment _AT_USEMINMAX_ definition
-	 *  Declarations
-	 * Variables
-	 * Constants
-	 */
-	vandps	_sABS_MASK+__svml_satan_data_internal(%rip), %ymm0, %ymm3
-	vmaxps	%ymm3, %ymm2, %ymm5
-	vminps	%ymm3, %ymm2, %ymm4
-	vcmple_oqps %ymm2, %ymm3, %ymm6
-	vdivps	%ymm5, %ymm4, %ymm11
-	vandps	%ymm7, %ymm0, %ymm9
-	vandnps	%ymm7, %ymm6, %ymm8
-	vxorps	%ymm9, %ymm8, %ymm10
-	vxorps	%ymm11, %ymm10, %ymm15
+	vdivps	%ymm5, %ymm4, %ymm4
 
-	/* Polynomial. */
-	vmulps	%ymm15, %ymm15, %ymm14
-	vmovups	_sPC8+__svml_satan_data_internal(%rip), %ymm0
-	vmulps	%ymm14, %ymm14, %ymm12
-	vfmadd213ps _sPC6+__svml_satan_data_internal(%rip), %ymm12, %ymm0
-	vfmadd213ps _sPC5+__svml_satan_data_internal(%rip), %ymm12, %ymm13
-	vfmadd213ps _sPC4+__svml_satan_data_internal(%rip), %ymm12, %ymm0
-	vfmadd213ps _sPC3+__svml_satan_data_internal(%rip), %ymm12, %ymm13
-	vfmadd213ps _sPC2+__svml_satan_data_internal(%rip), %ymm12, %ymm0
-	vfmadd213ps _sPC1+__svml_satan_data_internal(%rip), %ymm12, %ymm13
-	vfmadd213ps %ymm13, %ymm14, %ymm0
-	vfmadd213ps _sPC0+__svml_satan_data_internal(%rip), %ymm14, %ymm0
-	vandnps	_sPIO2+__svml_satan_data_internal(%rip), %ymm6, %ymm1
-	vxorps	%ymm9, %ymm1, %ymm1
+	vpcmpgtd %ymm2, %ymm3, %ymm6
+	vandnps	%ymm0, %ymm7, %ymm3
+	vandnps	%ymm6, %ymm7, %ymm7
+	vxorps	%ymm3, %ymm7, %ymm5
+	vxorps	%ymm4, %ymm5, %ymm7
+	/* Polynomial.  */
+	vmulps	%ymm4, %ymm4, %ymm1
+	vmovups	LOCAL_DATA(_sPC8)(%rip), %ymm0
+	vmovups	LOCAL_DATA(_sPC7)(%rip), %ymm4
+	vmulps	%ymm1, %ymm1, %ymm5
+	vfmadd213ps LOCAL_DATA(_sPC6)(%rip), %ymm5, %ymm0
+	vfmadd213ps LOCAL_DATA(_sPC5)(%rip), %ymm5, %ymm4
+	vfmadd213ps LOCAL_DATA(_sPC4)(%rip), %ymm5, %ymm0
+	vfmadd213ps LOCAL_DATA(_sPC3)(%rip), %ymm5, %ymm4
+	vfmadd213ps LOCAL_DATA(_sPC2)(%rip), %ymm5, %ymm0
+	vfmadd213ps LOCAL_DATA(_sPC1)(%rip), %ymm5, %ymm4
+	vfmadd213ps %ymm4, %ymm1, %ymm0
+	vfmadd213ps %ymm2, %ymm1, %ymm0
+	vandps	COMMON_DATA(_TanSPI1_FMA)(%rip), %ymm6, %ymm1
+	vxorps	%ymm3, %ymm1, %ymm1
 
-	/* Reconstruction. */
-	vfmadd213ps %ymm1, %ymm15, %ymm0
+	/* Reconstruction.  */
+	vfmadd213ps %ymm1, %ymm7, %ymm0
 	ret
 
 END(_ZGVdN8v_atanf_avx2)
 
-	.section .rodata, "a"
-	.align	32
-
-#ifdef __svml_satan_data_internal_typedef
-typedef unsigned int VUINT32;
-typedef struct {
-	__declspec(align(32)) VUINT32 _sSIGN_MASK[8][1];
-	__declspec(align(32)) VUINT32 _sABS_MASK[8][1];
-	__declspec(align(32)) VUINT32 _sONE[8][1];
-	__declspec(align(32)) VUINT32 _sPIO2[8][1];
-	__declspec(align(32)) VUINT32 _sPC8[8][1];
-	__declspec(align(32)) VUINT32 _sPC7[8][1];
-	__declspec(align(32)) VUINT32 _sPC6[8][1];
-	__declspec(align(32)) VUINT32 _sPC5[8][1];
-	__declspec(align(32)) VUINT32 _sPC4[8][1];
-	__declspec(align(32)) VUINT32 _sPC3[8][1];
-	__declspec(align(32)) VUINT32 _sPC2[8][1];
-	__declspec(align(32)) VUINT32 _sPC1[8][1];
-	__declspec(align(32)) VUINT32 _sPC0[8][1];
-} __svml_satan_data_internal;
-#endif
-__svml_satan_data_internal:
-	.long	0x80000000, 0x80000000, 0x80000000, 0x80000000, 0x80000000, 0x80000000, 0x80000000, 0x80000000 // _sSIGN_MASK
-	.align	32
-	.long	0x7FFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF // _sABS_MASK
-	.align	32
-	.long	0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000 // _sONE
-	.align	32
-	.long	0x3FC90FDB, 0x3FC90FDB, 0x3FC90FDB, 0x3FC90FDB, 0x3FC90FDB, 0x3FC90FDB, 0x3FC90FDB, 0x3FC90FDB // _sPIO2
-	.align	32
-	.long	0x3B322CC0, 0x3B322CC0, 0x3B322CC0, 0x3B322CC0, 0x3B322CC0, 0x3B322CC0, 0x3B322CC0, 0x3B322CC0 // _sPC8
-	.align	32
-	.long	0xBC7F2631, 0xBC7F2631, 0xBC7F2631, 0xBC7F2631, 0xBC7F2631, 0xBC7F2631, 0xBC7F2631, 0xBC7F2631 // _sPC7
-	.align	32
-	.long	0x3D2BC384, 0x3D2BC384, 0x3D2BC384, 0x3D2BC384, 0x3D2BC384, 0x3D2BC384, 0x3D2BC384, 0x3D2BC384 // _sPC6
-	.align	32
-	.long	0xBD987629, 0xBD987629, 0xBD987629, 0xBD987629, 0xBD987629, 0xBD987629, 0xBD987629, 0xBD987629 // _sPC5
-	.align	32
-	.long	0x3DD96474, 0x3DD96474, 0x3DD96474, 0x3DD96474, 0x3DD96474, 0x3DD96474, 0x3DD96474, 0x3DD96474 // _sPC4
-	.align	32
-	.long	0xBE1161F8, 0xBE1161F8, 0xBE1161F8, 0xBE1161F8, 0xBE1161F8, 0xBE1161F8, 0xBE1161F8, 0xBE1161F8 // _sPC3
-	.align	32
-	.long	0x3E4CB79F, 0x3E4CB79F, 0x3E4CB79F, 0x3E4CB79F, 0x3E4CB79F, 0x3E4CB79F, 0x3E4CB79F, 0x3E4CB79F // _sPC2
-	.align	32
-	.long	0xBEAAAA49, 0xBEAAAA49, 0xBEAAAA49, 0xBEAAAA49, 0xBEAAAA49, 0xBEAAAA49, 0xBEAAAA49, 0xBEAAAA49 // _sPC1
-	.align	32
-	.long	0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000, 0x3f800000 // _sPC0
+	.section .rodata.avx2, "a"
 	.align	32
-	.type	__svml_satan_data_internal, @object
-	.size	__svml_satan_data_internal, .-__svml_satan_data_internal
+LOCAL_DATA_NAME:
+	DATA_VEC (LOCAL_DATA_NAME, _sPC8, 0x3B322CC0)
+	DATA_VEC (LOCAL_DATA_NAME, _sPC7, 0xBC7F2631)
+	DATA_VEC (LOCAL_DATA_NAME, _sPC6, 0x3D2BC384)
+	DATA_VEC (LOCAL_DATA_NAME, _sPC5, 0xBD987629)
+	DATA_VEC (LOCAL_DATA_NAME, _sPC4, 0x3DD96474)
+	DATA_VEC (LOCAL_DATA_NAME, _sPC3, 0xBE1161F8)
+	DATA_VEC (LOCAL_DATA_NAME, _sPC2, 0x3E4CB79F)
+	DATA_VEC (LOCAL_DATA_NAME, _sPC1, 0xBEAAAA49)
+	.type	LOCAL_DATA_NAME, @object
+	.size	LOCAL_DATA_NAME, .-LOCAL_DATA_NAME
-- 
2.34.1

next prev parent reply	other threads:[~2022-12-07  8:53 UTC|newest]

Thread overview: 38+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2022-12-07  8:52 [PATCH v1 01/27] x86/fpu: Create helper file for common data macros Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 02/27] x86/fpu: Add file for common data used across svml_s_*_avx2.S files Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 03/27] x86/fpu: Add file for common data used across svml_s_*_avx512.S files Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 04/27] x86/fpu: Add file for common data used across svml_s_*_sse4.S files Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 05/27] x86/fpu: Build common data files for svml_s_*_{avx512,avx2,sse4}.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 06/27] x86/fpu: Update rodata usage in svml_s_tanhf_*_{avx2,sse4} Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 07/27] x86/fpu: Update rodata usage in svml_s_tanhf16_core_avx512.S Noah Goldstein
2022-12-16 17:05   ` H.J. Lu
2022-12-16 18:17     ` Noah Goldstein
2022-12-16 21:37       ` H.J. Lu
2022-12-16 21:51         ` Noah Goldstein
2022-12-16 22:01           ` H.J. Lu
2022-12-16 22:54             ` Sunil Pandey
2023-06-27 18:23             ` Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 08/27] x86/fpu: Update rodata usage in svml_s_atanhf16_core_avx512.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 09/27] x86/fpu: Update rodata usage in svml_s_atanhf4_core_sse4.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 10/27] x86/fpu: Update rodata usage in svml_s_atanhf8_core_avx2.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 11/27] x86/fpu: Optimize svml_s_atanf16_core_avx512.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 12/27] x86/fpu: Optimize svml_s_atanf4_core_sse4.S Noah Goldstein
2022-12-07  8:52 ` Noah Goldstein [this message]
2022-12-07  8:52 ` [PATCH v1 14/27] x86/fpu: Add common rodata file for svml_s_tanf_*_{avx512,avx2,sse4}.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 15/27] x86/fpu: Optimize svml_s_tanf16_core_avx512.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 16/27] x86/fpu: Optimize svml_s_tanf4_core_sse4.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 17/27] x86/fpu: Optimize svml_s_tanf8_core_avx2.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 18/27] x86/fpu: Optimize svml_s_log10f16_core_avx512.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 19/27] x86/fpu: Optimize svml_s_log10f4_core_sse4.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 20/27] x86/fpu: Optimize svml_s_log10f8_core_avx2.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 21/27] x86/fpu: Optimize svml_s_log2f16_core_avx512.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 22/27] x86/fpu: Optimize svml_s_log2f4_core_sse4.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 23/27] x86/fpu: Optimize svml_s_log2f8_core_avx2.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 24/27] x86/fpu: Optimize svml_s_logf16_core_avx512.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 25/27] x86/fpu: Optimize svml_s_logf4_core_sse4.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 26/27] x86/fpu: Optimize svml_s_logf8_core_avx2.S Noah Goldstein
2022-12-07  8:52 ` [PATCH v1 27/27] x86/fpu: Remove unused svml_s_logf_data.S file Noah Goldstein
2022-12-07 23:53 ` [PATCH v1 01/27] x86/fpu: Create helper file for common data macros H.J. Lu
2022-12-08  0:13   ` Noah Goldstein
2022-12-08  0:22     ` H.J. Lu
2022-12-08  0:46       ` Noah Goldstein

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20221207085236.1424424-13-goldstein.w.n@gmail.com \
    --to=goldstein.w.n@gmail.com \
    --cc=andrey.kolesov@intel.com \
    --cc=carlos@systemhalted.org \
    --cc=hjl.tools@gmail.com \
    --cc=libc-alpha@sourceware.org \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

Be sure your reply has a Subject: header at the top and a blank line before the message body.

This is a public inbox, see mirroring instructions
for how to clone and mirror all data and code used for this inbox;
as well as URLs for read-only IMAP folder(s) and NNTP newsgroup(s).