FIX BUILD (with GHC 6.2.x): System.Directory.Internals is no more
[ghc-hetmet.git] / rts / gmp / mpn / alpha / lshift.asm
1 dnl  Alpha mpn_lshift -- Shift a number left.
2
3 dnl  Copyright (C) 1994, 1995, 2000 Free Software Foundation, Inc.
4
5 dnl  This file is part of the GNU MP Library.
6
7 dnl  The GNU MP Library is free software; you can redistribute it and/or modify
8 dnl  it under the terms of the GNU Lesser General Public License as published by
9 dnl  the Free Software Foundation; either version 2.1 of the License, or (at your
10 dnl  option) any later version.
11
12 dnl  The GNU MP Library is distributed in the hope that it will be useful, but
13 dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
14 dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
15 dnl  License for more details.
16
17 dnl  You should have received a copy of the GNU Lesser General Public License
18 dnl  along with the GNU MP Library; see the file COPYING.LIB.  If not, write to
19 dnl  the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston,
20 dnl  MA 02111-1307, USA.
21
22 include(`../config.m4')
23
24 dnl  INPUT PARAMETERS
25 dnl  res_ptr    r16
26 dnl  s1_ptr     r17
27 dnl  size       r18
28 dnl  cnt        r19
29
30 dnl  This code runs at 4.8 cycles/limb on the 21064.  With infinite unrolling,
31 dnl  it would take 4 cycles/limb.  It should be possible to get down to 3
32 dnl  cycles/limb since both ldq and stq can be paired with the other used
33 dnl  instructions.  But there are many restrictions in the 21064 pipeline that
34 dnl  makes it hard, if not impossible, to get down to 3 cycles/limb:
35
36 dnl  1. ldq has a 3 cycle delay, srl and sll have a 2 cycle delay.
37 dnl  2. Only aligned instruction pairs can be paired.
38 dnl  3. The store buffer or silo might not be able to deal with the bandwidth.
39
40 ASM_START()
41 PROLOGUE(mpn_lshift)
42         s8addq  r18,r17,r17     C make r17 point at end of s1
43         ldq     r4,-8(r17)      C load first limb
44         subq    r17,8,r17
45         subq    r31,r19,r7
46         s8addq  r18,r16,r16     C make r16 point at end of RES
47         subq    r18,1,r18
48         and     r18,4-1,r20     C number of limbs in first loop
49         srl     r4,r7,r0        C compute function result
50
51         beq     r20,$L0
52         subq    r18,r20,r18
53
54         ALIGN(8)
55 $Loop0:
56         ldq     r3,-8(r17)
57         subq    r16,8,r16
58         subq    r17,8,r17
59         subq    r20,1,r20
60         sll     r4,r19,r5
61         srl     r3,r7,r6
62         bis     r3,r3,r4
63         bis     r5,r6,r8
64         stq     r8,0(r16)
65         bne     r20,$Loop0
66
67 $L0:    beq     r18,$Lend
68
69         ALIGN(8)
70 $Loop:  ldq     r3,-8(r17)
71         subq    r16,32,r16
72         subq    r18,4,r18
73         sll     r4,r19,r5
74         srl     r3,r7,r6
75
76         ldq     r4,-16(r17)
77         sll     r3,r19,r1
78         bis     r5,r6,r8
79         stq     r8,24(r16)
80         srl     r4,r7,r2
81
82         ldq     r3,-24(r17)
83         sll     r4,r19,r5
84         bis     r1,r2,r8
85         stq     r8,16(r16)
86         srl     r3,r7,r6
87
88         ldq     r4,-32(r17)
89         sll     r3,r19,r1
90         bis     r5,r6,r8
91         stq     r8,8(r16)
92         srl     r4,r7,r2
93
94         subq    r17,32,r17
95         bis     r1,r2,r8
96         stq     r8,0(r16)
97
98         bgt     r18,$Loop
99
100 $Lend:  sll     r4,r19,r8
101         stq     r8,-8(r16)
102         ret     r31,(r26),1
103 EPILOGUE(mpn_lshift)
104 ASM_END()