libavcodec/x86/vp9lpf_16bpp.asm - manifest_repos/ffmpeg - Git at Google

 ;******************************************************************************
 ;* VP9 loop filter SIMD optimizations
 ;*
 ;* Copyright (C) 2015 Ronald S. Bultje <rsbultje@gmail.com>
 ;*
 ;* This file is part of FFmpeg.
 ;*
 ;* FFmpeg is free software; you can redistribute it and/or
 ;* modify it under the terms of the GNU Lesser General Public
 ;* License as published by the Free Software Foundation; either
 ;* version 2.1 of the License, or (at your option) any later version.
 ;*
 ;* FFmpeg is distributed in the hope that it will be useful,
 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 ;* Lesser General Public License for more details.
 ;*
 ;* You should have received a copy of the GNU Lesser General Public
 ;* License along with FFmpeg; if not, write to the Free Software
 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 ;******************************************************************************

 %include "libavutil/x86/x86util.asm"

 SECTION_RODATA

 pw_511: times 16 dw 511
 pw_2047: times 16 dw 2047
 pw_16384: times 16 dw 16384
 pw_m512: times 16 dw -512
 pw_m2048: times 16 dw -2048

 cextern pw_1
 cextern pw_3
 cextern pw_4
 cextern pw_8
 cextern pw_16
 cextern pw_256
 cextern pw_1023
 cextern pw_4095
 cextern pw_m1

 SECTION .text

 %macro SCRATCH 3-4
 %if ARCH_X86_64
     SWAP                %1, %2
 %if %0 == 4
 %define reg_%4 m%2
 %endif
 %else
     mova              [%3], m%1
 %if %0 == 4
 %define reg_%4 [%3]
 %endif
 %endif
 %endmacro

 %macro UNSCRATCH 3-4
 %if ARCH_X86_64
     SWAP                %1, %2
 %else
     mova               m%1, [%3]
 %endif
 %if %0 == 4
 %undef reg_%4
 %endif
 %endmacro

 %macro PRELOAD 2-3
 %if ARCH_X86_64
     mova               m%1, [%2]
 %if %0 == 3
 %define reg_%3 m%1
 %endif
 %elif %0 == 3
 %define reg_%3 [%2]
 %endif
 %endmacro

 ; calculate p or q portion of flat8out
 %macro FLAT8OUT_HALF 0
     psubw               m4, m0                      ; q4-q0
     psubw               m5, m0                      ; q5-q0
     psubw               m6, m0                      ; q6-q0
     psubw               m7, m0                      ; q7-q0
     ABS2                m4, m5, m2, m3              ; abs(q4-q0) | abs(q5-q0)
     ABS2                m6, m7, m2, m3              ; abs(q6-q0) | abs(q7-q0)
     pcmpgtw             m4, reg_F                   ; abs(q4-q0) > F
     pcmpgtw             m5, reg_F                   ; abs(q5-q0) > F
     pcmpgtw             m6, reg_F                   ; abs(q6-q0) > F
     pcmpgtw             m7, reg_F                   ; abs(q7-q0) > F
     por                 m5, m4
     por                 m7, m6
     por                 m7, m5                      ; !flat8out, q portion
 %endmacro

 ; calculate p or q portion of flat8in/hev/fm (excluding mb_edge condition)
 %macro FLAT8IN_HALF 1
 %if %1 > 4
     psubw               m4, m3, m0                  ; q3-q0
     psubw               m5, m2, m0                  ; q2-q0
     ABS2                m4, m5, m6, m7              ; abs(q3-q0) | abs(q2-q0)
     pcmpgtw             m4, reg_F                   ; abs(q3-q0) > F
     pcmpgtw             m5, reg_F                   ; abs(q2-q0) > F
 %endif
     psubw               m3, m2                      ; q3-q2
     psubw               m2, m1                      ; q2-q1
     ABS2                m3, m2, m6, m7              ; abs(q3-q2) | abs(q2-q1)
     pcmpgtw             m3, reg_I                   ; abs(q3-q2) > I
     pcmpgtw             m2, reg_I                   ; abs(q2-q1) > I
 %if %1 > 4
     por                 m4, m5
 %endif
     por                 m2, m3
     psubw               m3, m1, m0                  ; q1-q0
     ABS1                m3, m5                      ; abs(q1-q0)
 %if %1 > 4
     pcmpgtw             m6, m3, reg_F               ; abs(q1-q0) > F
 %endif
     pcmpgtw             m7, m3, reg_H               ; abs(q1-q0) > H
     pcmpgtw             m3, reg_I                   ; abs(q1-q0) > I
 %if %1 > 4
     por                 m4, m6
 %endif
     por                 m2, m3
 %endmacro

 ; one step in filter_14/filter_6
 ;
 ; take sum $reg, downshift, apply mask and write into dst
 ;
 ; if sub2/add1-2 are present, add/sub as appropriate to prepare for the next
 ; step's sum $reg. This is omitted for the last row in each filter.
 ;
 ; if dont_store is set, don't write the result into memory, instead keep the
 ; values in register so we can write it out later
 %macro FILTER_STEP 6-10 "", "", "", 0 ; tmp, reg, mask, shift, dst, \
                                       ; src/sub1, sub2, add1, add2, dont_store
     psrlw               %1, %2, %4
     psubw               %1, %6                      ; abs->delta
 %ifnidn %7, ""
     psubw               %2, %6
     psubw               %2, %7
     paddw               %2, %8
     paddw               %2, %9
 %endif
     pand                %1, reg_%3                  ; apply mask
 %if %10 == 1
     paddw               %6, %1                      ; delta->abs
 %else
     paddw               %1, %6                      ; delta->abs
     mova              [%5], %1
 %endif
 %endmacro

 ; FIXME avx2 versions for 16_16 and mix2_{4,8}{4,8}

 %macro LOOP_FILTER 3 ; dir[h/v], wd[4/8/16], bpp[10/12]

 %if ARCH_X86_64
 %if %2 == 16
 %assign %%num_xmm_regs 16
 %elif %2 == 8
 %assign %%num_xmm_regs 15
 %else ; %2 == 4
 %assign %%num_xmm_regs 14
 %endif ; %2
 %assign %%bak_mem 0
 %else ; ARCH_X86_32
 %assign %%num_xmm_regs 8
 %if %2 == 16
 %assign %%bak_mem 7
 %elif %2 == 8
 %assign %%bak_mem 6
 %else ; %2 == 4
 %assign %%bak_mem 5
 %endif ; %2
 %endif ; ARCH_X86_64/32

 %if %2 == 16
 %ifidn %1, v
 %assign %%num_gpr_regs 6
 %else ; %1 == h
 %assign %%num_gpr_regs 5
 %endif ; %1
 %assign %%wd_mem 6
 %else ; %2 == 8/4
 %assign %%num_gpr_regs 5
 %if ARCH_X86_32 && %2 == 8
 %assign %%wd_mem 2
 %else ; ARCH_X86_64 || %2 == 4
 %assign %%wd_mem 0
 %endif ; ARCH_X86_64/32 etc.
 %endif ; %2

 %ifidn %1, v
 %assign %%tsp_mem 0
 %elif %2 == 16 ; && %1 == h
 %assign %%tsp_mem 16
 %else ; %1 == h && %1 == 8/4
 %assign %%tsp_mem 8
 %endif ; %1/%2

 %assign %%off %%wd_mem
 %assign %%tspoff %%bak_mem+%%wd_mem
 %assign %%stack_mem ((%%bak_mem+%%wd_mem+%%tsp_mem)*mmsize)

 %if %3 == 10
 %define %%maxsgn 511
 %define %%minsgn m512
 %define %%maxusgn 1023
 %define %%maxf 4
 %else ; %3 == 12
 %define %%maxsgn 2047
 %define %%minsgn m2048
 %define %%maxusgn 4095
 %define %%maxf 16
 %endif ; %3

 cglobal vp9_loop_filter_%1_%2_%3, 5, %%num_gpr_regs, %%num_xmm_regs, %%stack_mem, dst, stride, E, I, H
     ; prepare E, I and H masks
     shl                 Ed, %3-8
     shl                 Id, %3-8
     shl                 Hd, %3-8
 %if cpuflag(ssse3)
     mova                m0, [pw_256]
 %endif
     movd                m1, Ed
     movd                m2, Id
     movd                m3, Hd
 %if cpuflag(ssse3)
     pshufb              m1, m0                      ; E << (bit_depth - 8)
     pshufb              m2, m0                      ; I << (bit_depth - 8)
     pshufb              m3, m0                      ; H << (bit_depth - 8)
 %else
     punpcklwd           m1, m1
     punpcklwd           m2, m2
     punpcklwd           m3, m3
     pshufd              m1, m1, q0000
     pshufd              m2, m2, q0000
     pshufd              m3, m3, q0000
 %endif
     SCRATCH              1,  8, rsp+(%%off+0)*mmsize,  E
     SCRATCH              2,  9, rsp+(%%off+1)*mmsize,  I
     SCRATCH              3, 10, rsp+(%%off+2)*mmsize,  H
 %if %2 > 4
     PRELOAD                 11, pw_ %+ %%maxf, F
 %endif

     ; set up variables to load data
 %ifidn %1, v
     DEFINE_ARGS dst8, stride, stride3, dst0, dst4, dst12
     lea           stride3q, [strideq*3]
     neg            strideq
 %if %2 == 16
     lea              dst0q, [dst8q+strideq*8]
 %else
     lea              dst4q, [dst8q+strideq*4]
 %endif
     neg            strideq
 %if %2 == 16
     lea             dst12q, [dst8q+strideq*4]
     lea              dst4q, [dst0q+strideq*4]
 %endif

 %if %2 == 16
 %define %%p7 dst0q
 %define %%p6 dst0q+strideq
 %define %%p5 dst0q+strideq*2
 %define %%p4 dst0q+stride3q
 %endif
 %define %%p3 dst4q
 %define %%p2 dst4q+strideq
 %define %%p1 dst4q+strideq*2
 %define %%p0 dst4q+stride3q
 %define %%q0 dst8q
 %define %%q1 dst8q+strideq
 %define %%q2 dst8q+strideq*2
 %define %%q3 dst8q+stride3q
 %if %2 == 16
 %define %%q4 dst12q
 %define %%q5 dst12q+strideq
 %define %%q6 dst12q+strideq*2
 %define %%q7 dst12q+stride3q
 %endif
 %else ; %1 == h
     DEFINE_ARGS dst0, stride, stride3, dst4
     lea           stride3q, [strideq*3]
     lea              dst4q, [dst0q+strideq*4]

 %define %%p3 rsp+(%%tspoff+0)*mmsize
 %define %%p2 rsp+(%%tspoff+1)*mmsize
 %define %%p1 rsp+(%%tspoff+2)*mmsize
 %define %%p0 rsp+(%%tspoff+3)*mmsize
 %define %%q0 rsp+(%%tspoff+4)*mmsize
 %define %%q1 rsp+(%%tspoff+5)*mmsize
 %define %%q2 rsp+(%%tspoff+6)*mmsize
 %define %%q3 rsp+(%%tspoff+7)*mmsize

 %if %2 < 16
     movu                m0, [dst0q+strideq*0-8]
     movu                m1, [dst0q+strideq*1-8]
     movu                m2, [dst0q+strideq*2-8]
     movu                m3, [dst0q+stride3q -8]
     movu                m4, [dst4q+strideq*0-8]
     movu                m5, [dst4q+strideq*1-8]
     movu                m6, [dst4q+strideq*2-8]
     movu                m7, [dst4q+stride3q -8]

 %if ARCH_X86_64
     TRANSPOSE8x8W        0, 1, 2, 3, 4, 5, 6, 7, 12
 %else
     TRANSPOSE8x8W        0, 1, 2, 3, 4, 5, 6, 7, [%%p0], [%%q0]
 %endif

     mova            [%%p3], m0
     mova            [%%p2], m1
     mova            [%%p1], m2
     mova            [%%p0], m3
 %if ARCH_X86_64
     mova            [%%q0], m4
 %endif
     mova            [%%q1], m5
     mova            [%%q2], m6
     mova            [%%q3], m7

     ; FIXME investigate if we can _not_ load q0-3 below if h, and adjust register
     ; order here accordingly
 %else ; %2 == 16

 %define %%p7 rsp+(%%tspoff+ 8)*mmsize
 %define %%p6 rsp+(%%tspoff+ 9)*mmsize
 %define %%p5 rsp+(%%tspoff+10)*mmsize
 %define %%p4 rsp+(%%tspoff+11)*mmsize
 %define %%q4 rsp+(%%tspoff+12)*mmsize
 %define %%q5 rsp+(%%tspoff+13)*mmsize
 %define %%q6 rsp+(%%tspoff+14)*mmsize
 %define %%q7 rsp+(%%tspoff+15)*mmsize

     mova                m0, [dst0q+strideq*0-16]
     mova                m1, [dst0q+strideq*1-16]
     mova                m2, [dst0q+strideq*2-16]
     mova                m3, [dst0q+stride3q -16]
     mova                m4, [dst4q+strideq*0-16]
     mova                m5, [dst4q+strideq*1-16]
 %if ARCH_X86_64
     mova                m6, [dst4q+strideq*2-16]
 %endif
     mova                m7, [dst4q+stride3q -16]

 %if ARCH_X86_64
     TRANSPOSE8x8W        0, 1, 2, 3, 4, 5, 6, 7, 12
 %else
     TRANSPOSE8x8W        0, 1, 2, 3, 4, 5, 6, 7, [dst4q+strideq*2-16], [%%p3], 1
 %endif

     mova            [%%p7], m0
     mova            [%%p6], m1
     mova            [%%p5], m2
     mova            [%%p4], m3
 %if ARCH_X86_64
     mova            [%%p3], m4
 %endif
     mova            [%%p2], m5
     mova            [%%p1], m6
     mova            [%%p0], m7

     mova                m0, [dst0q+strideq*0]
     mova                m1, [dst0q+strideq*1]
     mova                m2, [dst0q+strideq*2]
     mova                m3, [dst0q+stride3q ]
     mova                m4, [dst4q+strideq*0]
     mova                m5, [dst4q+strideq*1]
 %if ARCH_X86_64
     mova                m6, [dst4q+strideq*2]
 %endif
     mova                m7, [dst4q+stride3q ]

 %if ARCH_X86_64
     TRANSPOSE8x8W        0, 1, 2, 3, 4, 5, 6, 7, 12
 %else
     TRANSPOSE8x8W        0, 1, 2, 3, 4, 5, 6, 7, [dst4q+strideq*2], [%%q4], 1
 %endif

     mova            [%%q0], m0
     mova            [%%q1], m1
     mova            [%%q2], m2
     mova            [%%q3], m3
 %if ARCH_X86_64
     mova            [%%q4], m4
 %endif
     mova            [%%q5], m5
     mova            [%%q6], m6
     mova            [%%q7], m7

     ; FIXME investigate if we can _not_ load q0|q4-7 below if h, and adjust register
     ; order here accordingly
 %endif ; %2
 %endif ; %1

     ; load q0|q4-7 data
     mova                m0, [%%q0]
 %if %2 == 16
     mova                m4, [%%q4]
     mova                m5, [%%q5]
     mova                m6, [%%q6]
     mova                m7, [%%q7]

     ; flat8out q portion
     FLAT8OUT_HALF
     SCRATCH              7, 15, rsp+(%%off+6)*mmsize, F8O
 %endif

     ; load q1-3 data
     mova                m1, [%%q1]
     mova                m2, [%%q2]
     mova                m3, [%%q3]

     ; r6-8|pw_4[m8-11]=reg_E/I/H/F
     ; r9[m15]=!flatout[q]
     ; m12-14=free
     ; m0-3=q0-q3
     ; m4-7=free

     ; flat8in|fm|hev q portion
     FLAT8IN_HALF        %2
     SCRATCH              7, 13, rsp+(%%off+4)*mmsize, HEV
 %if %2 > 4
     SCRATCH              4, 14, rsp+(%%off+5)*mmsize, F8I
 %endif

     ; r6-8|pw_4[m8-11]=reg_E/I/H/F
     ; r9[m15]=!flat8out[q]
     ; r10[m13]=hev[q]
     ; r11[m14]=!flat8in[q]
     ; m2=!fm[q]
     ; m0,1=q0-q1
     ; m2-7=free
     ; m12=free

     ; load p0-1
     mova                m3, [%%p0]
     mova                m4, [%%p1]

     ; fm mb_edge portion
     psubw               m5, m3, m0                  ; q0-p0
     psubw               m6, m4, m1                  ; q1-p1
 %if ARCH_X86_64
     ABS2                m5, m6, m7, m12             ; abs(q0-p0) | abs(q1-p1)
 %else
     ABS1                m5, m7                      ; abs(q0-p0)
     ABS1                m6, m7                      ; abs(q1-p1)
 %endif
     paddw               m5, m5
     psraw               m6, 1
     paddw               m6, m5                      ; abs(q0-p0)*2+(abs(q1-p1)>>1)
     pcmpgtw             m6, reg_E
     por                 m2, m6
     SCRATCH              2, 12, rsp+(%%off+3)*mmsize, FM

     ; r6-8|pw_4[m8-11]=reg_E/I/H/F
     ; r9[m15]=!flat8out[q]
     ; r10[m13]=hev[q]
     ; r11[m14]=!flat8in[q]
     ; r12[m12]=!fm[q]
     ; m3-4=q0-1
     ; m0-2/5-7=free

     ; load p4-7 data
     SWAP                 3, 0                       ; p0
     SWAP                 4, 1                       ; p1
 %if %2 == 16
     mova                m7, [%%p7]
     mova                m6, [%%p6]
     mova                m5, [%%p5]
     mova                m4, [%%p4]

     ; flat8out p portion
     FLAT8OUT_HALF
     por                 m7, reg_F8O
     SCRATCH              7, 15, rsp+(%%off+6)*mmsize, F8O
 %endif

     ; r6-8|pw_4[m8-11]=reg_E/I/H/F
     ; r9[m15]=!flat8out
     ; r10[m13]=hev[q]
     ; r11[m14]=!flat8in[q]
     ; r12[m12]=!fm[q]
     ; m0=p0
     ; m1-7=free

     ; load p2-3 data
     mova                m2, [%%p2]
     mova                m3, [%%p3]

     ; flat8in|fm|hev p portion
     FLAT8IN_HALF        %2
     por                 m7, reg_HEV
 %if %2 > 4
     por                 m4, reg_F8I
 %endif
     por                 m2, reg_FM
 %if %2 > 4
     por                 m4, m2                      ; !flat8|!fm
 %if %2 == 16
     por                 m5, m4, reg_F8O             ; !flat16|!fm
     pandn               m2, m4                      ; filter4_mask
     pandn               m4, m5                      ; filter8_mask
     pxor                m5, [pw_m1]                 ; filter16_mask
     SCRATCH              5, 15, rsp+(%%off+6)*mmsize, F16M
 %else
     pandn               m2, m4                      ; filter4_mask
     pxor                m4, [pw_m1]                 ; filter8_mask
 %endif
     SCRATCH              4, 14, rsp+(%%off+5)*mmsize, F8M
 %else
     pxor                m2, [pw_m1]                 ; filter4_mask
 %endif
     SCRATCH              7, 13, rsp+(%%off+4)*mmsize, HEV
     SCRATCH              2, 12, rsp+(%%off+3)*mmsize, F4M

     ; r9[m15]=filter16_mask
     ; r10[m13]=hev
     ; r11[m14]=filter8_mask
     ; r12[m12]=filter4_mask
     ; m0,1=p0-p1
     ; m2-7=free
     ; m8-11=free

 %if %2 > 4
 %if %2 == 16
     ; filter_14
     mova                m2, [%%p7]
     mova                m3, [%%p6]
     mova                m6, [%%p5]
     mova                m7, [%%p4]
     PRELOAD              8, %%p3, P3
     PRELOAD              9, %%p2, P2
 %endif
     PRELOAD             10, %%q0, Q0
     PRELOAD             11, %%q1, Q1
 %if %2 == 16
     psllw               m4, m2, 3
     paddw               m5, m3, m3
     paddw               m4, m6
     paddw               m5, m7
     paddw               m4, reg_P3
     paddw               m5, reg_P2
     paddw               m4, m1
     paddw               m5, m0
     paddw               m4, reg_Q0                  ; q0+p1+p3+p5+p7*8
     psubw               m5, m2                      ; p0+p2+p4+p6*2-p7
     paddw               m4, [pw_8]
     paddw               m5, m4                      ; q0+p0+p1+p2+p3+p4+p5+p6*2+p7*7+8

     ; below, we use r0-5 for storing pre-filter pixels for subsequent subtraction
     ; at the end of the filter

     mova    [rsp+0*mmsize], m3
     FILTER_STEP         m4, m5, F16M, 4, %%p6, m3,     m2,             m6,     reg_Q1
 %endif
     mova                m3, [%%q2]
 %if %2 == 16
     mova    [rsp+1*mmsize], m6
     FILTER_STEP         m4, m5, F16M, 4, %%p5, m6,     m2,             m7,     m3
 %endif
     mova                m6, [%%q3]
 %if %2 == 16
     mova    [rsp+2*mmsize], m7
     FILTER_STEP         m4, m5, F16M, 4, %%p4, m7,     m2,             reg_P3, m6
     mova                m7, [%%q4]
 %if ARCH_X86_64
     mova    [rsp+3*mmsize], reg_P3
 %else
     mova                m4, reg_P3
     mova    [rsp+3*mmsize], m4
 %endif
     FILTER_STEP         m4, m5, F16M, 4, %%p3, reg_P3, m2,             reg_P2, m7
     PRELOAD              8, %%q5, Q5
 %if ARCH_X86_64
     mova    [rsp+4*mmsize], reg_P2
 %else
     mova                m4, reg_P2
     mova    [rsp+4*mmsize], m4
 %endif
     FILTER_STEP         m4, m5, F16M, 4, %%p2, reg_P2, m2,             m1,     reg_Q5
     PRELOAD              9, %%q6, Q6
     mova    [rsp+5*mmsize], m1
     FILTER_STEP         m4, m5, F16M, 4, %%p1, m1,     m2,             m0,     reg_Q6
     mova                m1, [%%q7]
     FILTER_STEP         m4, m5, F16M, 4, %%p0, m0,     m2,             reg_Q0, m1,     1
     FILTER_STEP         m4, m5, F16M, 4, %%q0, reg_Q0, [rsp+0*mmsize], reg_Q1, m1,     ARCH_X86_64
     FILTER_STEP         m4, m5, F16M, 4, %%q1, reg_Q1, [rsp+1*mmsize], m3,     m1,     ARCH_X86_64
     FILTER_STEP         m4, m5, F16M, 4, %%q2, m3,     [rsp+2*mmsize], m6,     m1,     1
     FILTER_STEP         m4, m5, F16M, 4, %%q3, m6,     [rsp+3*mmsize], m7,     m1
     FILTER_STEP         m4, m5, F16M, 4, %%q4, m7,     [rsp+4*mmsize], reg_Q5, m1
     FILTER_STEP         m4, m5, F16M, 4, %%q5, reg_Q5, [rsp+5*mmsize], reg_Q6, m1
     FILTER_STEP         m4, m5, F16M, 4, %%q6, reg_Q6

     mova                m7, [%%p1]
 %else
     SWAP                 1, 7
 %endif

     mova                m2, [%%p3]
     mova                m1, [%%p2]

     ; reg_Q0-1 (m10-m11)
     ; m0=p0
     ; m1=p2
     ; m2=p3
     ; m3=q2
     ; m4-5=free
     ; m6=q3
     ; m7=p1
     ; m8-9 unused

     ; filter_6
     psllw               m4, m2, 2
     paddw               m5, m1, m1
     paddw               m4, m7
     psubw               m5, m2
     paddw               m4, m0
     paddw               m5, reg_Q0
     paddw               m4, [pw_4]
     paddw               m5, m4

 %if ARCH_X86_64
     mova                m8, m1
     mova                m9, m7
 %else
     mova    [rsp+0*mmsize], m1
     mova    [rsp+1*mmsize], m7
 %endif
 %ifidn %1, v
     FILTER_STEP         m4, m5, F8M, 3, %%p2, m1,     m2,             m7,     reg_Q1
 %else
     FILTER_STEP         m4, m5, F8M, 3, %%p2, m1,     m2,             m7,     reg_Q1, 1
 %endif
     FILTER_STEP         m4, m5, F8M, 3, %%p1, m7,     m2,             m0,     m3, 1
     FILTER_STEP         m4, m5, F8M, 3, %%p0, m0,     m2,             reg_Q0, m6, 1
 %if ARCH_X86_64
     FILTER_STEP         m4, m5, F8M, 3, %%q0, reg_Q0, m8,             reg_Q1, m6, ARCH_X86_64
     FILTER_STEP         m4, m5, F8M, 3, %%q1, reg_Q1, m9,             m3,     m6, ARCH_X86_64
 %else
     FILTER_STEP         m4, m5, F8M, 3, %%q0, reg_Q0, [rsp+0*mmsize], reg_Q1, m6, ARCH_X86_64
     FILTER_STEP         m4, m5, F8M, 3, %%q1, reg_Q1, [rsp+1*mmsize], m3,     m6, ARCH_X86_64
 %endif
     FILTER_STEP         m4, m5, F8M, 3, %%q2, m3

     UNSCRATCH            2, 10, %%q0
     UNSCRATCH            6, 11, %%q1
 %else
     SWAP                 1, 7
     mova                m2, [%%q0]
     mova                m6, [%%q1]
 %endif
     UNSCRATCH            3, 13, rsp+(%%off+4)*mmsize, HEV

     ; m0=p0
     ; m1=p2
     ; m2=q0
     ; m3=hev_mask
     ; m4-5=free
     ; m6=q1
     ; m7=p1

     ; filter_4
     psubw               m4, m7, m6              ; p1-q1
     psubw               m5, m2, m0              ; q0-p0
     pand                m4, m3
     pminsw              m4, [pw_ %+ %%maxsgn]
     pmaxsw              m4, [pw_ %+ %%minsgn]   ; clip_intp2(p1-q1, 9) -> f
     paddw               m4, m5
     paddw               m5, m5
     paddw               m4, m5                  ; 3*(q0-p0)+f
     pminsw              m4, [pw_ %+ %%maxsgn]
     pmaxsw              m4, [pw_ %+ %%minsgn]   ; clip_intp2(3*(q0-p0)+f, 9) -> f
     pand                m4, reg_F4M
     paddw               m5, m4, [pw_4]
     paddw               m4, [pw_3]
     pminsw              m5, [pw_ %+ %%maxsgn]
     pminsw              m4, [pw_ %+ %%maxsgn]
     psraw               m5, 3                   ; min_intp2(f+4, 9)>>3 -> f1
     psraw               m4, 3                   ; min_intp2(f+3, 9)>>3 -> f2
     psubw               m2, m5                  ; q0-f1
     paddw               m0, m4                  ; p0+f2
     pandn               m3, m5                  ; f1 & !hev (for p1/q1 adj)
     pxor                m4, m4
     mova                m5, [pw_ %+ %%maxusgn]
     pmaxsw              m2, m4
     pmaxsw              m0, m4
     pminsw              m2, m5
     pminsw              m0, m5
 %if cpuflag(ssse3)
     pmulhrsw            m3, [pw_16384]          ; (f1+1)>>1
 %else
     paddw               m3, [pw_1]
     psraw               m3, 1
 %endif
     paddw               m7, m3                  ; p1+f
     psubw               m6, m3                  ; q1-f
     pmaxsw              m7, m4
     pmaxsw              m6, m4
     pminsw              m7, m5
     pminsw              m6, m5

     ; store
 %ifidn %1, v
     mova            [%%p1], m7
     mova            [%%p0], m0
     mova            [%%q0], m2
     mova            [%%q1], m6
 %else ; %1 == h
 %if %2 == 4
     TRANSPOSE4x4W        7, 0, 2, 6, 1
     movh   [dst0q+strideq*0-4], m7
     movhps [dst0q+strideq*1-4], m7
     movh   [dst0q+strideq*2-4], m0
     movhps [dst0q+stride3q -4], m0
     movh   [dst4q+strideq*0-4], m2
     movhps [dst4q+strideq*1-4], m2
     movh   [dst4q+strideq*2-4], m6
     movhps [dst4q+stride3q -4], m6
 %elif %2 == 8
     mova                m3, [%%p3]
     mova                m4, [%%q2]
     mova                m5, [%%q3]

 %if ARCH_X86_64
     TRANSPOSE8x8W        3, 1, 7, 0, 2, 6, 4, 5, 8
 %else
     TRANSPOSE8x8W        3, 1, 7, 0, 2, 6, 4, 5, [%%q2], [%%q0], 1
     mova                m2, [%%q0]
 %endif

     movu [dst0q+strideq*0-8], m3
     movu [dst0q+strideq*1-8], m1
     movu [dst0q+strideq*2-8], m7
     movu [dst0q+stride3q -8], m0
     movu [dst4q+strideq*0-8], m2
     movu [dst4q+strideq*1-8], m6
     movu [dst4q+strideq*2-8], m4
     movu [dst4q+stride3q -8], m5
 %else ; %2 == 16
     SCRATCH              2, 8, %%q0
     SCRATCH              6, 9, %%q1
     mova                m2, [%%p7]
     mova                m3, [%%p6]
     mova                m4, [%%p5]
     mova                m5, [%%p4]
     mova                m6, [%%p3]

 %if ARCH_X86_64
     TRANSPOSE8x8W        2, 3, 4, 5, 6, 1, 7, 0, 10
 %else
     mova            [%%p1], m7
     TRANSPOSE8x8W        2, 3, 4, 5, 6, 1, 7, 0, [%%p1], [dst4q+strideq*0-16], 1
 %endif

     mova [dst0q+strideq*0-16], m2
     mova [dst0q+strideq*1-16], m3
     mova [dst0q+strideq*2-16], m4
     mova [dst0q+stride3q -16], m5
 %if ARCH_X86_64
     mova [dst4q+strideq*0-16], m6
 %endif
     mova [dst4q+strideq*1-16], m1
     mova [dst4q+strideq*2-16], m7
     mova [dst4q+stride3q -16], m0

     UNSCRATCH            2, 8, %%q0
     UNSCRATCH            6, 9, %%q1
     mova                m0, [%%q2]
     mova                m1, [%%q3]
     mova                m3, [%%q4]
     mova                m4, [%%q5]
 %if ARCH_X86_64
     mova                m5, [%%q6]
 %endif
     mova                m7, [%%q7]

 %if ARCH_X86_64
     TRANSPOSE8x8W        2, 6, 0, 1, 3, 4, 5, 7, 8
 %else
     TRANSPOSE8x8W        2, 6, 0, 1, 3, 4, 5, 7, [%%q6], [dst4q+strideq*0], 1
 %endif

     mova [dst0q+strideq*0], m2
     mova [dst0q+strideq*1], m6
     mova [dst0q+strideq*2], m0
     mova [dst0q+stride3q ], m1
 %if ARCH_X86_64
     mova [dst4q+strideq*0], m3
 %endif
     mova [dst4q+strideq*1], m4
     mova [dst4q+strideq*2], m5
     mova [dst4q+stride3q ], m7
 %endif ; %2
 %endif ; %1
     RET
 %endmacro

 %macro LOOP_FILTER_CPUSETS 3
 INIT_XMM sse2
 LOOP_FILTER %1, %2, %3
 INIT_XMM ssse3
 LOOP_FILTER %1, %2, %3
 INIT_XMM avx
 LOOP_FILTER %1, %2, %3
 %endmacro

 %macro LOOP_FILTER_WDSETS 2
 LOOP_FILTER_CPUSETS %1,  4, %2
 LOOP_FILTER_CPUSETS %1,  8, %2
 LOOP_FILTER_CPUSETS %1, 16, %2
 %endmacro

 LOOP_FILTER_WDSETS h, 10
 LOOP_FILTER_WDSETS v, 10
 LOOP_FILTER_WDSETS h, 12
 LOOP_FILTER_WDSETS v, 12
	;******************************************************************************
	;* VP9 loop filter SIMD optimizations
	;*
	;* Copyright (C) 2015 Ronald S. Bultje <rsbultje@gmail.com>
	;*
	;* This file is part of FFmpeg.
	;*
	;* FFmpeg is free software; you can redistribute it and/or
	;* modify it under the terms of the GNU Lesser General Public
	;* License as published by the Free Software Foundation; either
	;* version 2.1 of the License, or (at your option) any later version.
	;*
	;* FFmpeg is distributed in the hope that it will be useful,
	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	;* Lesser General Public License for more details.
	;*
	;* You should have received a copy of the GNU Lesser General Public
	;* License along with FFmpeg; if not, write to the Free Software
	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	;******************************************************************************

	%include "libavutil/x86/x86util.asm"

	SECTION_RODATA

	pw_511: times 16 dw 511
	pw_2047: times 16 dw 2047
	pw_16384: times 16 dw 16384
	pw_m512: times 16 dw -512
	pw_m2048: times 16 dw -2048

	cextern pw_1
	cextern pw_3
	cextern pw_4
	cextern pw_8
	cextern pw_16
	cextern pw_256
	cextern pw_1023
	cextern pw_4095
	cextern pw_m1

	SECTION .text

	%macro SCRATCH 3-4
	%if ARCH_X86_64
	SWAP %1, %2
	%if %0 == 4
	%define reg_%4 m%2
	%endif
	%else
	mova [%3], m%1
	%if %0 == 4
	%define reg_%4 [%3]
	%endif
	%endif
	%endmacro

	%macro UNSCRATCH 3-4
	%if ARCH_X86_64
	SWAP %1, %2
	%else
	mova m%1, [%3]
	%endif
	%if %0 == 4
	%undef reg_%4
	%endif
	%endmacro

	%macro PRELOAD 2-3
	%if ARCH_X86_64
	mova m%1, [%2]
	%if %0 == 3
	%define reg_%3 m%1
	%endif
	%elif %0 == 3
	%define reg_%3 [%2]
	%endif
	%endmacro

	; calculate p or q portion of flat8out
	%macro FLAT8OUT_HALF 0
	psubw m4, m0 ; q4-q0
	psubw m5, m0 ; q5-q0
	psubw m6, m0 ; q6-q0
	psubw m7, m0 ; q7-q0
	ABS2 m4, m5, m2, m3 ; abs(q4-q0) \| abs(q5-q0)
	ABS2 m6, m7, m2, m3 ; abs(q6-q0) \| abs(q7-q0)
	pcmpgtw m4, reg_F ; abs(q4-q0) > F
	pcmpgtw m5, reg_F ; abs(q5-q0) > F
	pcmpgtw m6, reg_F ; abs(q6-q0) > F
	pcmpgtw m7, reg_F ; abs(q7-q0) > F
	por m5, m4
	por m7, m6
	por m7, m5 ; !flat8out, q portion
	%endmacro

	; calculate p or q portion of flat8in/hev/fm (excluding mb_edge condition)
	%macro FLAT8IN_HALF 1
	%if %1 > 4
	psubw m4, m3, m0 ; q3-q0
	psubw m5, m2, m0 ; q2-q0
	ABS2 m4, m5, m6, m7 ; abs(q3-q0) \| abs(q2-q0)
	pcmpgtw m4, reg_F ; abs(q3-q0) > F
	pcmpgtw m5, reg_F ; abs(q2-q0) > F
	%endif
	psubw m3, m2 ; q3-q2
	psubw m2, m1 ; q2-q1
	ABS2 m3, m2, m6, m7 ; abs(q3-q2) \| abs(q2-q1)
	pcmpgtw m3, reg_I ; abs(q3-q2) > I
	pcmpgtw m2, reg_I ; abs(q2-q1) > I
	%if %1 > 4
	por m4, m5
	%endif
	por m2, m3
	psubw m3, m1, m0 ; q1-q0
	ABS1 m3, m5 ; abs(q1-q0)
	%if %1 > 4
	pcmpgtw m6, m3, reg_F ; abs(q1-q0) > F
	%endif
	pcmpgtw m7, m3, reg_H ; abs(q1-q0) > H
	pcmpgtw m3, reg_I ; abs(q1-q0) > I
	%if %1 > 4
	por m4, m6
	%endif
	por m2, m3
	%endmacro

	; one step in filter_14/filter_6
	;
	; take sum $reg, downshift, apply mask and write into dst
	;
	; if sub2/add1-2 are present, add/sub as appropriate to prepare for the next
	; step's sum $reg. This is omitted for the last row in each filter.
	;
	; if dont_store is set, don't write the result into memory, instead keep the
	; values in register so we can write it out later
	%macro FILTER_STEP 6-10 "", "", "", 0 ; tmp, reg, mask, shift, dst, \
	; src/sub1, sub2, add1, add2, dont_store
	psrlw %1, %2, %4
	psubw %1, %6 ; abs->delta
	%ifnidn %7, ""
	psubw %2, %6
	psubw %2, %7
	paddw %2, %8
	paddw %2, %9
	%endif
	pand %1, reg_%3 ; apply mask
	%if %10 == 1
	paddw %6, %1 ; delta->abs
	%else
	paddw %1, %6 ; delta->abs
	mova [%5], %1
	%endif
	%endmacro

	; FIXME avx2 versions for 16_16 and mix2_{4,8}{4,8}

	%macro LOOP_FILTER 3 ; dir[h/v], wd[4/8/16], bpp[10/12]

	%if ARCH_X86_64
	%if %2 == 16
	%assign %%num_xmm_regs 16
	%elif %2 == 8
	%assign %%num_xmm_regs 15
	%else ; %2 == 4
	%assign %%num_xmm_regs 14
	%endif ; %2
	%assign %%bak_mem 0
	%else ; ARCH_X86_32
	%assign %%num_xmm_regs 8
	%if %2 == 16
	%assign %%bak_mem 7
	%elif %2 == 8
	%assign %%bak_mem 6
	%else ; %2 == 4
	%assign %%bak_mem 5
	%endif ; %2
	%endif ; ARCH_X86_64/32

	%if %2 == 16
	%ifidn %1, v
	%assign %%num_gpr_regs 6
	%else ; %1 == h
	%assign %%num_gpr_regs 5
	%endif ; %1
	%assign %%wd_mem 6
	%else ; %2 == 8/4
	%assign %%num_gpr_regs 5
	%if ARCH_X86_32 && %2 == 8
	%assign %%wd_mem 2
	%else ; ARCH_X86_64 \|\| %2 == 4
	%assign %%wd_mem 0
	%endif ; ARCH_X86_64/32 etc.
	%endif ; %2

	%ifidn %1, v
	%assign %%tsp_mem 0
	%elif %2 == 16 ; && %1 == h
	%assign %%tsp_mem 16
	%else ; %1 == h && %1 == 8/4
	%assign %%tsp_mem 8
	%endif ; %1/%2

	%assign %%off %%wd_mem
	%assign %%tspoff %%bak_mem+%%wd_mem
	%assign %%stack_mem ((%%bak_mem+%%wd_mem+%%tsp_mem)*mmsize)

	%if %3 == 10
	%define %%maxsgn 511
	%define %%minsgn m512
	%define %%maxusgn 1023
	%define %%maxf 4
	%else ; %3 == 12
	%define %%maxsgn 2047
	%define %%minsgn m2048
	%define %%maxusgn 4095
	%define %%maxf 16
	%endif ; %3

	cglobal vp9_loop_filter_%1_%2_%3, 5, %%num_gpr_regs, %%num_xmm_regs, %%stack_mem, dst, stride, E, I, H
	; prepare E, I and H masks
	shl Ed, %3-8
	shl Id, %3-8
	shl Hd, %3-8
	%if cpuflag(ssse3)
	mova m0, [pw_256]
	%endif
	movd m1, Ed
	movd m2, Id
	movd m3, Hd
	%if cpuflag(ssse3)
	pshufb m1, m0 ; E << (bit_depth - 8)
	pshufb m2, m0 ; I << (bit_depth - 8)
	pshufb m3, m0 ; H << (bit_depth - 8)
	%else
	punpcklwd m1, m1
	punpcklwd m2, m2
	punpcklwd m3, m3
	pshufd m1, m1, q0000
	pshufd m2, m2, q0000
	pshufd m3, m3, q0000
	%endif
	SCRATCH 1, 8, rsp+(%%off+0)*mmsize, E
	SCRATCH 2, 9, rsp+(%%off+1)*mmsize, I
	SCRATCH 3, 10, rsp+(%%off+2)*mmsize, H
	%if %2 > 4
	PRELOAD 11, pw_ %+ %%maxf, F
	%endif

	; set up variables to load data
	%ifidn %1, v
	DEFINE_ARGS dst8, stride, stride3, dst0, dst4, dst12
	lea stride3q, [strideq*3]
	neg strideq
	%if %2 == 16
	lea dst0q, [dst8q+strideq*8]
	%else
	lea dst4q, [dst8q+strideq*4]
	%endif
	neg strideq
	%if %2 == 16
	lea dst12q, [dst8q+strideq*4]
	lea dst4q, [dst0q+strideq*4]
	%endif

	%if %2 == 16
	%define %%p7 dst0q
	%define %%p6 dst0q+strideq
	%define %%p5 dst0q+strideq*2
	%define %%p4 dst0q+stride3q
	%endif
	%define %%p3 dst4q
	%define %%p2 dst4q+strideq
	%define %%p1 dst4q+strideq*2
	%define %%p0 dst4q+stride3q
	%define %%q0 dst8q
	%define %%q1 dst8q+strideq
	%define %%q2 dst8q+strideq*2
	%define %%q3 dst8q+stride3q
	%if %2 == 16
	%define %%q4 dst12q
	%define %%q5 dst12q+strideq
	%define %%q6 dst12q+strideq*2
	%define %%q7 dst12q+stride3q
	%endif
	%else ; %1 == h
	DEFINE_ARGS dst0, stride, stride3, dst4
	lea stride3q, [strideq*3]
	lea dst4q, [dst0q+strideq*4]

	%define %%p3 rsp+(%%tspoff+0)*mmsize
	%define %%p2 rsp+(%%tspoff+1)*mmsize
	%define %%p1 rsp+(%%tspoff+2)*mmsize
	%define %%p0 rsp+(%%tspoff+3)*mmsize
	%define %%q0 rsp+(%%tspoff+4)*mmsize
	%define %%q1 rsp+(%%tspoff+5)*mmsize
	%define %%q2 rsp+(%%tspoff+6)*mmsize
	%define %%q3 rsp+(%%tspoff+7)*mmsize

	%if %2 < 16
	movu m0, [dst0q+strideq*0-8]
	movu m1, [dst0q+strideq*1-8]
	movu m2, [dst0q+strideq*2-8]
	movu m3, [dst0q+stride3q -8]
	movu m4, [dst4q+strideq*0-8]
	movu m5, [dst4q+strideq*1-8]
	movu m6, [dst4q+strideq*2-8]
	movu m7, [dst4q+stride3q -8]

	%if ARCH_X86_64
	TRANSPOSE8x8W 0, 1, 2, 3, 4, 5, 6, 7, 12
	%else
	TRANSPOSE8x8W 0, 1, 2, 3, 4, 5, 6, 7, [%%p0], [%%q0]
	%endif

	mova [%%p3], m0
	mova [%%p2], m1
	mova [%%p1], m2
	mova [%%p0], m3
	%if ARCH_X86_64
	mova [%%q0], m4
	%endif
	mova [%%q1], m5
	mova [%%q2], m6
	mova [%%q3], m7

	; FIXME investigate if we can _not_ load q0-3 below if h, and adjust register
	; order here accordingly
	%else ; %2 == 16

	%define %%p7 rsp+(%%tspoff+ 8)*mmsize
	%define %%p6 rsp+(%%tspoff+ 9)*mmsize
	%define %%p5 rsp+(%%tspoff+10)*mmsize
	%define %%p4 rsp+(%%tspoff+11)*mmsize
	%define %%q4 rsp+(%%tspoff+12)*mmsize
	%define %%q5 rsp+(%%tspoff+13)*mmsize
	%define %%q6 rsp+(%%tspoff+14)*mmsize
	%define %%q7 rsp+(%%tspoff+15)*mmsize

	mova m0, [dst0q+strideq*0-16]
	mova m1, [dst0q+strideq*1-16]
	mova m2, [dst0q+strideq*2-16]
	mova m3, [dst0q+stride3q -16]
	mova m4, [dst4q+strideq*0-16]
	mova m5, [dst4q+strideq*1-16]
	%if ARCH_X86_64
	mova m6, [dst4q+strideq*2-16]
	%endif
	mova m7, [dst4q+stride3q -16]

	%if ARCH_X86_64
	TRANSPOSE8x8W 0, 1, 2, 3, 4, 5, 6, 7, 12
	%else
	TRANSPOSE8x8W 0, 1, 2, 3, 4, 5, 6, 7, [dst4q+strideq*2-16], [%%p3], 1
	%endif

	mova [%%p7], m0
	mova [%%p6], m1
	mova [%%p5], m2
	mova [%%p4], m3
	%if ARCH_X86_64
	mova [%%p3], m4
	%endif
	mova [%%p2], m5
	mova [%%p1], m6
	mova [%%p0], m7

	mova m0, [dst0q+strideq*0]
	mova m1, [dst0q+strideq*1]
	mova m2, [dst0q+strideq*2]
	mova m3, [dst0q+stride3q ]
	mova m4, [dst4q+strideq*0]
	mova m5, [dst4q+strideq*1]
	%if ARCH_X86_64
	mova m6, [dst4q+strideq*2]
	%endif
	mova m7, [dst4q+stride3q ]

	%if ARCH_X86_64
	TRANSPOSE8x8W 0, 1, 2, 3, 4, 5, 6, 7, 12
	%else
	TRANSPOSE8x8W 0, 1, 2, 3, 4, 5, 6, 7, [dst4q+strideq*2], [%%q4], 1
	%endif

	mova [%%q0], m0
	mova [%%q1], m1
	mova [%%q2], m2
	mova [%%q3], m3
	%if ARCH_X86_64
	mova [%%q4], m4
	%endif
	mova [%%q5], m5
	mova [%%q6], m6
	mova [%%q7], m7

	; FIXME investigate if we can _not_ load q0\|q4-7 below if h, and adjust register
	; order here accordingly
	%endif ; %2
	%endif ; %1

	; load q0\|q4-7 data
	mova m0, [%%q0]
	%if %2 == 16
	mova m4, [%%q4]
	mova m5, [%%q5]
	mova m6, [%%q6]
	mova m7, [%%q7]

	; flat8out q portion
	FLAT8OUT_HALF
	SCRATCH 7, 15, rsp+(%%off+6)*mmsize, F8O
	%endif

	; load q1-3 data
	mova m1, [%%q1]
	mova m2, [%%q2]
	mova m3, [%%q3]

	; r6-8\|pw_4[m8-11]=reg_E/I/H/F
	; r9[m15]=!flatout[q]
	; m12-14=free
	; m0-3=q0-q3
	; m4-7=free

	; flat8in\|fm\|hev q portion
	FLAT8IN_HALF %2
	SCRATCH 7, 13, rsp+(%%off+4)*mmsize, HEV
	%if %2 > 4
	SCRATCH 4, 14, rsp+(%%off+5)*mmsize, F8I
	%endif

	; r6-8\|pw_4[m8-11]=reg_E/I/H/F
	; r9[m15]=!flat8out[q]
	; r10[m13]=hev[q]
	; r11[m14]=!flat8in[q]
	; m2=!fm[q]
	; m0,1=q0-q1
	; m2-7=free
	; m12=free

	; load p0-1
	mova m3, [%%p0]
	mova m4, [%%p1]

	; fm mb_edge portion
	psubw m5, m3, m0 ; q0-p0
	psubw m6, m4, m1 ; q1-p1
	%if ARCH_X86_64
	ABS2 m5, m6, m7, m12 ; abs(q0-p0) \| abs(q1-p1)
	%else
	ABS1 m5, m7 ; abs(q0-p0)
	ABS1 m6, m7 ; abs(q1-p1)
	%endif
	paddw m5, m5
	psraw m6, 1
	paddw m6, m5 ; abs(q0-p0)*2+(abs(q1-p1)>>1)
	pcmpgtw m6, reg_E
	por m2, m6
	SCRATCH 2, 12, rsp+(%%off+3)*mmsize, FM

	; r6-8\|pw_4[m8-11]=reg_E/I/H/F
	; r9[m15]=!flat8out[q]
	; r10[m13]=hev[q]
	; r11[m14]=!flat8in[q]
	; r12[m12]=!fm[q]
	; m3-4=q0-1
	; m0-2/5-7=free

	; load p4-7 data
	SWAP 3, 0 ; p0
	SWAP 4, 1 ; p1
	%if %2 == 16
	mova m7, [%%p7]
	mova m6, [%%p6]
	mova m5, [%%p5]
	mova m4, [%%p4]

	; flat8out p portion
	FLAT8OUT_HALF
	por m7, reg_F8O
	SCRATCH 7, 15, rsp+(%%off+6)*mmsize, F8O
	%endif

	; r6-8\|pw_4[m8-11]=reg_E/I/H/F
	; r9[m15]=!flat8out
	; r10[m13]=hev[q]
	; r11[m14]=!flat8in[q]
	; r12[m12]=!fm[q]
	; m0=p0
	; m1-7=free

	; load p2-3 data
	mova m2, [%%p2]
	mova m3, [%%p3]

	; flat8in\|fm\|hev p portion
	FLAT8IN_HALF %2
	por m7, reg_HEV
	%if %2 > 4
	por m4, reg_F8I
	%endif
	por m2, reg_FM
	%if %2 > 4
	por m4, m2 ; !flat8\|!fm
	%if %2 == 16
	por m5, m4, reg_F8O ; !flat16\|!fm
	pandn m2, m4 ; filter4_mask
	pandn m4, m5 ; filter8_mask
	pxor m5, [pw_m1] ; filter16_mask
	SCRATCH 5, 15, rsp+(%%off+6)*mmsize, F16M
	%else
	pandn m2, m4 ; filter4_mask
	pxor m4, [pw_m1] ; filter8_mask
	%endif
	SCRATCH 4, 14, rsp+(%%off+5)*mmsize, F8M
	%else
	pxor m2, [pw_m1] ; filter4_mask
	%endif
	SCRATCH 7, 13, rsp+(%%off+4)*mmsize, HEV
	SCRATCH 2, 12, rsp+(%%off+3)*mmsize, F4M

	; r9[m15]=filter16_mask
	; r10[m13]=hev
	; r11[m14]=filter8_mask
	; r12[m12]=filter4_mask
	; m0,1=p0-p1
	; m2-7=free
	; m8-11=free

	%if %2 > 4
	%if %2 == 16
	; filter_14
	mova m2, [%%p7]
	mova m3, [%%p6]
	mova m6, [%%p5]
	mova m7, [%%p4]
	PRELOAD 8, %%p3, P3
	PRELOAD 9, %%p2, P2
	%endif
	PRELOAD 10, %%q0, Q0
	PRELOAD 11, %%q1, Q1
	%if %2 == 16
	psllw m4, m2, 3
	paddw m5, m3, m3
	paddw m4, m6
	paddw m5, m7
	paddw m4, reg_P3
	paddw m5, reg_P2
	paddw m4, m1
	paddw m5, m0
	paddw m4, reg_Q0 ; q0+p1+p3+p5+p7*8
	psubw m5, m2 ; p0+p2+p4+p6*2-p7
	paddw m4, [pw_8]
	paddw m5, m4 ; q0+p0+p1+p2+p3+p4+p5+p62+p77+8

	; below, we use r0-5 for storing pre-filter pixels for subsequent subtraction
	; at the end of the filter

	mova [rsp+0*mmsize], m3
	FILTER_STEP m4, m5, F16M, 4, %%p6, m3, m2, m6, reg_Q1
	%endif
	mova m3, [%%q2]
	%if %2 == 16
	mova [rsp+1*mmsize], m6
	FILTER_STEP m4, m5, F16M, 4, %%p5, m6, m2, m7, m3
	%endif
	mova m6, [%%q3]
	%if %2 == 16
	mova [rsp+2*mmsize], m7
	FILTER_STEP m4, m5, F16M, 4, %%p4, m7, m2, reg_P3, m6
	mova m7, [%%q4]
	%if ARCH_X86_64
	mova [rsp+3*mmsize], reg_P3
	%else
	mova m4, reg_P3
	mova [rsp+3*mmsize], m4
	%endif
	FILTER_STEP m4, m5, F16M, 4, %%p3, reg_P3, m2, reg_P2, m7
	PRELOAD 8, %%q5, Q5
	%if ARCH_X86_64
	mova [rsp+4*mmsize], reg_P2
	%else
	mova m4, reg_P2
	mova [rsp+4*mmsize], m4
	%endif
	FILTER_STEP m4, m5, F16M, 4, %%p2, reg_P2, m2, m1, reg_Q5
	PRELOAD 9, %%q6, Q6
	mova [rsp+5*mmsize], m1
	FILTER_STEP m4, m5, F16M, 4, %%p1, m1, m2, m0, reg_Q6
	mova m1, [%%q7]
	FILTER_STEP m4, m5, F16M, 4, %%p0, m0, m2, reg_Q0, m1, 1
	FILTER_STEP m4, m5, F16M, 4, %%q0, reg_Q0, [rsp+0*mmsize], reg_Q1, m1, ARCH_X86_64
	FILTER_STEP m4, m5, F16M, 4, %%q1, reg_Q1, [rsp+1*mmsize], m3, m1, ARCH_X86_64
	FILTER_STEP m4, m5, F16M, 4, %%q2, m3, [rsp+2*mmsize], m6, m1, 1
	FILTER_STEP m4, m5, F16M, 4, %%q3, m6, [rsp+3*mmsize], m7, m1
	FILTER_STEP m4, m5, F16M, 4, %%q4, m7, [rsp+4*mmsize], reg_Q5, m1
	FILTER_STEP m4, m5, F16M, 4, %%q5, reg_Q5, [rsp+5*mmsize], reg_Q6, m1
	FILTER_STEP m4, m5, F16M, 4, %%q6, reg_Q6

	mova m7, [%%p1]
	%else
	SWAP 1, 7
	%endif

	mova m2, [%%p3]
	mova m1, [%%p2]

	; reg_Q0-1 (m10-m11)
	; m0=p0
	; m1=p2
	; m2=p3
	; m3=q2
	; m4-5=free
	; m6=q3
	; m7=p1
	; m8-9 unused

	; filter_6
	psllw m4, m2, 2
	paddw m5, m1, m1
	paddw m4, m7
	psubw m5, m2
	paddw m4, m0
	paddw m5, reg_Q0
	paddw m4, [pw_4]
	paddw m5, m4

	%if ARCH_X86_64
	mova m8, m1
	mova m9, m7
	%else
	mova [rsp+0*mmsize], m1
	mova [rsp+1*mmsize], m7
	%endif
	%ifidn %1, v
	FILTER_STEP m4, m5, F8M, 3, %%p2, m1, m2, m7, reg_Q1
	%else
	FILTER_STEP m4, m5, F8M, 3, %%p2, m1, m2, m7, reg_Q1, 1
	%endif
	FILTER_STEP m4, m5, F8M, 3, %%p1, m7, m2, m0, m3, 1
	FILTER_STEP m4, m5, F8M, 3, %%p0, m0, m2, reg_Q0, m6, 1
	%if ARCH_X86_64
	FILTER_STEP m4, m5, F8M, 3, %%q0, reg_Q0, m8, reg_Q1, m6, ARCH_X86_64
	FILTER_STEP m4, m5, F8M, 3, %%q1, reg_Q1, m9, m3, m6, ARCH_X86_64
	%else
	FILTER_STEP m4, m5, F8M, 3, %%q0, reg_Q0, [rsp+0*mmsize], reg_Q1, m6, ARCH_X86_64
	FILTER_STEP m4, m5, F8M, 3, %%q1, reg_Q1, [rsp+1*mmsize], m3, m6, ARCH_X86_64
	%endif
	FILTER_STEP m4, m5, F8M, 3, %%q2, m3

	UNSCRATCH 2, 10, %%q0
	UNSCRATCH 6, 11, %%q1
	%else
	SWAP 1, 7
	mova m2, [%%q0]
	mova m6, [%%q1]
	%endif
	UNSCRATCH 3, 13, rsp+(%%off+4)*mmsize, HEV

	; m0=p0
	; m1=p2
	; m2=q0
	; m3=hev_mask
	; m4-5=free
	; m6=q1
	; m7=p1

	; filter_4
	psubw m4, m7, m6 ; p1-q1
	psubw m5, m2, m0 ; q0-p0
	pand m4, m3
	pminsw m4, [pw_ %+ %%maxsgn]
	pmaxsw m4, [pw_ %+ %%minsgn] ; clip_intp2(p1-q1, 9) -> f
	paddw m4, m5
	paddw m5, m5
	paddw m4, m5 ; 3*(q0-p0)+f
	pminsw m4, [pw_ %+ %%maxsgn]
	pmaxsw m4, [pw_ %+ %%minsgn] ; clip_intp2(3*(q0-p0)+f, 9) -> f
	pand m4, reg_F4M
	paddw m5, m4, [pw_4]
	paddw m4, [pw_3]
	pminsw m5, [pw_ %+ %%maxsgn]
	pminsw m4, [pw_ %+ %%maxsgn]
	psraw m5, 3 ; min_intp2(f+4, 9)>>3 -> f1
	psraw m4, 3 ; min_intp2(f+3, 9)>>3 -> f2
	psubw m2, m5 ; q0-f1
	paddw m0, m4 ; p0+f2
	pandn m3, m5 ; f1 & !hev (for p1/q1 adj)
	pxor m4, m4
	mova m5, [pw_ %+ %%maxusgn]
	pmaxsw m2, m4
	pmaxsw m0, m4
	pminsw m2, m5
	pminsw m0, m5
	%if cpuflag(ssse3)
	pmulhrsw m3, [pw_16384] ; (f1+1)>>1
	%else
	paddw m3, [pw_1]
	psraw m3, 1
	%endif
	paddw m7, m3 ; p1+f
	psubw m6, m3 ; q1-f
	pmaxsw m7, m4
	pmaxsw m6, m4
	pminsw m7, m5
	pminsw m6, m5

	; store
	%ifidn %1, v
	mova [%%p1], m7
	mova [%%p0], m0
	mova [%%q0], m2
	mova [%%q1], m6
	%else ; %1 == h
	%if %2 == 4
	TRANSPOSE4x4W 7, 0, 2, 6, 1
	movh [dst0q+strideq*0-4], m7
	movhps [dst0q+strideq*1-4], m7
	movh [dst0q+strideq*2-4], m0
	movhps [dst0q+stride3q -4], m0
	movh [dst4q+strideq*0-4], m2
	movhps [dst4q+strideq*1-4], m2
	movh [dst4q+strideq*2-4], m6
	movhps [dst4q+stride3q -4], m6
	%elif %2 == 8
	mova m3, [%%p3]
	mova m4, [%%q2]
	mova m5, [%%q3]

	%if ARCH_X86_64
	TRANSPOSE8x8W 3, 1, 7, 0, 2, 6, 4, 5, 8
	%else
	TRANSPOSE8x8W 3, 1, 7, 0, 2, 6, 4, 5, [%%q2], [%%q0], 1
	mova m2, [%%q0]
	%endif

	movu [dst0q+strideq*0-8], m3
	movu [dst0q+strideq*1-8], m1
	movu [dst0q+strideq*2-8], m7
	movu [dst0q+stride3q -8], m0
	movu [dst4q+strideq*0-8], m2
	movu [dst4q+strideq*1-8], m6
	movu [dst4q+strideq*2-8], m4
	movu [dst4q+stride3q -8], m5
	%else ; %2 == 16
	SCRATCH 2, 8, %%q0
	SCRATCH 6, 9, %%q1
	mova m2, [%%p7]
	mova m3, [%%p6]
	mova m4, [%%p5]
	mova m5, [%%p4]
	mova m6, [%%p3]

	%if ARCH_X86_64
	TRANSPOSE8x8W 2, 3, 4, 5, 6, 1, 7, 0, 10
	%else
	mova [%%p1], m7
	TRANSPOSE8x8W 2, 3, 4, 5, 6, 1, 7, 0, [%%p1], [dst4q+strideq*0-16], 1
	%endif

	mova [dst0q+strideq*0-16], m2
	mova [dst0q+strideq*1-16], m3
	mova [dst0q+strideq*2-16], m4
	mova [dst0q+stride3q -16], m5
	%if ARCH_X86_64
	mova [dst4q+strideq*0-16], m6
	%endif
	mova [dst4q+strideq*1-16], m1
	mova [dst4q+strideq*2-16], m7
	mova [dst4q+stride3q -16], m0

	UNSCRATCH 2, 8, %%q0
	UNSCRATCH 6, 9, %%q1
	mova m0, [%%q2]
	mova m1, [%%q3]
	mova m3, [%%q4]
	mova m4, [%%q5]
	%if ARCH_X86_64
	mova m5, [%%q6]
	%endif
	mova m7, [%%q7]

	%if ARCH_X86_64
	TRANSPOSE8x8W 2, 6, 0, 1, 3, 4, 5, 7, 8
	%else
	TRANSPOSE8x8W 2, 6, 0, 1, 3, 4, 5, 7, [%%q6], [dst4q+strideq*0], 1
	%endif

	mova [dst0q+strideq*0], m2
	mova [dst0q+strideq*1], m6
	mova [dst0q+strideq*2], m0
	mova [dst0q+stride3q ], m1
	%if ARCH_X86_64
	mova [dst4q+strideq*0], m3
	%endif
	mova [dst4q+strideq*1], m4
	mova [dst4q+strideq*2], m5
	mova [dst4q+stride3q ], m7
	%endif ; %2
	%endif ; %1
	RET
	%endmacro

	%macro LOOP_FILTER_CPUSETS 3
	INIT_XMM sse2
	LOOP_FILTER %1, %2, %3
	INIT_XMM ssse3
	LOOP_FILTER %1, %2, %3
	INIT_XMM avx
	LOOP_FILTER %1, %2, %3
	%endmacro

	%macro LOOP_FILTER_WDSETS 2
	LOOP_FILTER_CPUSETS %1, 4, %2
	LOOP_FILTER_CPUSETS %1, 8, %2
	LOOP_FILTER_CPUSETS %1, 16, %2
	%endmacro

	LOOP_FILTER_WDSETS h, 10
	LOOP_FILTER_WDSETS v, 10
	LOOP_FILTER_WDSETS h, 12
	LOOP_FILTER_WDSETS v, 12