libavcodec/mips/vp3dsp_idct_msa.c - manifest_repos/ffmpeg - Git at Google

 /*
  * Copyright (c) 2018 gxw <guxiwei-hf@loongson.cn>
  *
  * This file is part of FFmpeg.
  *
  * FFmpeg is free software; you can redistribute it and/or
  * modify it under the terms of the GNU Lesser General Public
  * License as published by the Free Software Foundation; either
  * version 2.1 of the License, or (at your option) any later version.
  *
  * FFmpeg is distributed in the hope that it will be useful,
  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  * Lesser General Public License for more details.
  *
  * You should have received a copy of the GNU Lesser General Public
  * License along with FFmpeg; if not, write to the Free Software
  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  */

 #include "vp3dsp_mips.h"
 #include "libavutil/mips/generic_macros_msa.h"
 #include "libavutil/intreadwrite.h"
 #include "libavcodec/rnd_avg.h"

 static void idct_msa(uint8_t *dst, int stride, int16_t *input, int type)
 {
     v8i16 r0, r1, r2, r3, r4, r5, r6, r7, sign;
     v4i32 r0_r, r0_l, r1_r, r1_l, r2_r, r2_l, r3_r, r3_l,
           r4_r, r4_l, r5_r, r5_l, r6_r, r6_l, r7_r, r7_l;
     v4i32 A, B, C, D, Ad, Bd, Cd, Dd, E, F, G, H;
     v4i32 Ed, Gd, Add, Bdd, Fd, Hd;
     v16u8 sign_l;
     v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
     v4i32 c0, c1, c2, c3, c4, c5, c6, c7;
     v4i32 f0, f1, f2, f3, f4, f5, f6, f7;
     v4i32 sign_t;
     v16i8 zero = {0};
     v16i8 mask = {0, 4, 8, 12, 16, 20, 24, 28, 0, 0, 0, 0, 0, 0, 0, 0};
     v4i32 cnst64277w = {64277, 64277, 64277, 64277};
     v4i32 cnst60547w = {60547, 60547, 60547, 60547};
     v4i32 cnst54491w = {54491, 54491, 54491, 54491};
     v4i32 cnst46341w = {46341, 46341, 46341, 46341};
     v4i32 cnst36410w = {36410, 36410, 36410, 36410};
     v4i32 cnst25080w = {25080, 25080, 25080, 25080};
     v4i32 cnst12785w = {12785, 12785, 12785, 12785};
     v4i32 cnst8w = {8, 8, 8, 8};
     v4i32 cnst2048w = {2048, 2048, 2048, 2048};
     v4i32 cnst128w = {128, 128, 128, 128};

     /* Extended input data */
     LD_SH8(input, 8, r0, r1, r2, r3, r4, r5, r6, r7);
     sign = __msa_clti_s_h(r0, 0);
     r0_r = (v4i32) __msa_ilvr_h(sign, r0);
     r0_l = (v4i32) __msa_ilvl_h(sign, r0);
     sign = __msa_clti_s_h(r1, 0);
     r1_r = (v4i32) __msa_ilvr_h(sign, r1);
     r1_l = (v4i32) __msa_ilvl_h(sign, r1);
     sign = __msa_clti_s_h(r2, 0);
     r2_r = (v4i32) __msa_ilvr_h(sign, r2);
     r2_l = (v4i32) __msa_ilvl_h(sign, r2);
     sign = __msa_clti_s_h(r3, 0);
     r3_r = (v4i32) __msa_ilvr_h(sign, r3);
     r3_l = (v4i32) __msa_ilvl_h(sign, r3);
     sign = __msa_clti_s_h(r4, 0);
     r4_r = (v4i32) __msa_ilvr_h(sign, r4);
     r4_l = (v4i32) __msa_ilvl_h(sign, r4);
     sign = __msa_clti_s_h(r5, 0);
     r5_r = (v4i32) __msa_ilvr_h(sign, r5);
     r5_l = (v4i32) __msa_ilvl_h(sign, r5);
     sign = __msa_clti_s_h(r6, 0);
     r6_r = (v4i32) __msa_ilvr_h(sign, r6);
     r6_l = (v4i32) __msa_ilvl_h(sign, r6);
     sign = __msa_clti_s_h(r7, 0);
     r7_r = (v4i32) __msa_ilvr_h(sign, r7);
     r7_l = (v4i32) __msa_ilvl_h(sign, r7);

     /* Right part */
     A = ((r1_r * cnst64277w) >> 16) + ((r7_r * cnst12785w) >> 16);
     B = ((r1_r * cnst12785w) >> 16) - ((r7_r * cnst64277w) >> 16);
     C = ((r3_r * cnst54491w) >> 16) + ((r5_r * cnst36410w) >> 16);
     D = ((r5_r * cnst54491w) >> 16) - ((r3_r * cnst36410w) >> 16);
     Ad = ((A - C) * cnst46341w) >> 16;
     Bd = ((B - D) * cnst46341w) >> 16;
     Cd = A + C;
     Dd = B + D;
     E = ((r0_r + r4_r) * cnst46341w) >> 16;
     F = ((r0_r - r4_r) * cnst46341w) >> 16;
     G = ((r2_r * cnst60547w) >> 16) + ((r6_r * cnst25080w) >> 16);
     H = ((r2_r * cnst25080w) >> 16) - ((r6_r * cnst60547w) >> 16);
     Ed = E - G;
     Gd = E + G;
     Add = F + Ad;
     Bdd = Bd - H;
     Fd = F - Ad;
     Hd = Bd + H;
     r0_r = Gd + Cd;
     r7_r = Gd - Cd;
     r1_r = Add + Hd;
     r2_r = Add - Hd;
     r3_r = Ed + Dd;
     r4_r = Ed - Dd;
     r5_r = Fd + Bdd;
     r6_r = Fd - Bdd;

     /* Left part */
     A = ((r1_l * cnst64277w) >> 16) + ((r7_l * cnst12785w) >> 16);
     B = ((r1_l * cnst12785w) >> 16) - ((r7_l * cnst64277w) >> 16);
     C = ((r3_l * cnst54491w) >> 16) + ((r5_l * cnst36410w) >> 16);
     D = ((r5_l * cnst54491w) >> 16) - ((r3_l * cnst36410w) >> 16);
     Ad = ((A - C) * cnst46341w) >> 16;
     Bd = ((B - D) * cnst46341w) >> 16;
     Cd = A + C;
     Dd = B + D;
     E = ((r0_l + r4_l) * cnst46341w) >> 16;
     F = ((r0_l - r4_l) * cnst46341w) >> 16;
     G = ((r2_l * cnst60547w) >> 16) + ((r6_l * cnst25080w) >> 16);
     H = ((r2_l * cnst25080w) >> 16) - ((r6_l * cnst60547w) >> 16);
     Ed = E - G;
     Gd = E + G;
     Add = F + Ad;
     Bdd = Bd - H;
     Fd = F - Ad;
     Hd = Bd + H;
     r0_l = Gd + Cd;
     r7_l = Gd - Cd;
     r1_l = Add + Hd;
     r2_l = Add - Hd;
     r3_l = Ed + Dd;
     r4_l = Ed - Dd;
     r5_l = Fd + Bdd;
     r6_l = Fd - Bdd;

     /* Row 0 to 3 */
     TRANSPOSE4x4_SW_SW(r0_r, r1_r, r2_r, r3_r,
                        r0_r, r1_r, r2_r, r3_r);
     TRANSPOSE4x4_SW_SW(r0_l, r1_l, r2_l, r3_l,
                        r0_l, r1_l, r2_l, r3_l);
     A = ((r1_r * cnst64277w) >> 16) + ((r3_l * cnst12785w) >> 16);
     B = ((r1_r * cnst12785w) >> 16) - ((r3_l * cnst64277w) >> 16);
     C = ((r3_r * cnst54491w) >> 16) + ((r1_l * cnst36410w) >> 16);
     D = ((r1_l * cnst54491w) >> 16) - ((r3_r * cnst36410w) >> 16);
     Ad = ((A - C) * cnst46341w) >> 16;
     Bd = ((B - D) * cnst46341w) >> 16;
     Cd = A + C;
     Dd = B + D;
     E = ((r0_r + r0_l) * cnst46341w) >> 16;
     E += cnst8w;
     F = ((r0_r - r0_l) * cnst46341w) >> 16;
     F += cnst8w;
     if (type == 1) { // HACK
         E += cnst2048w;
         F += cnst2048w;
     }
     G = ((r2_r * cnst60547w) >> 16) + ((r2_l * cnst25080w) >> 16);
     H = ((r2_r * cnst25080w) >> 16) - ((r2_l * cnst60547w) >> 16);
     Ed = E - G;
     Gd = E + G;
     Add = F + Ad;
     Bdd = Bd - H;
     Fd = F - Ad;
     Hd = Bd + H;
     A = (Gd + Cd) >> 4;
     B = (Gd - Cd) >> 4;
     C = (Add + Hd) >> 4;
     D = (Add - Hd) >> 4;
     E = (Ed + Dd) >> 4;
     F = (Ed - Dd) >> 4;
     G = (Fd + Bdd) >> 4;
     H = (Fd - Bdd) >> 4;
     if (type != 1) {
         LD_SB8(dst, stride, d0, d1, d2, d3, d4, d5, d6, d7);
         ILVR_B4_SW(zero, d0, zero, d1, zero, d2, zero, d3,
                    f0, f1, f2, f3);
         ILVR_B4_SW(zero, d4, zero, d5, zero, d6, zero, d7,
                    f4, f5, f6, f7);
         ILVR_H4_SW(zero, f0, zero, f1, zero, f2, zero, f3,
                    c0, c1, c2, c3);
         ILVR_H4_SW(zero, f4, zero, f5, zero, f6, zero, f7,
                    c4, c5, c6, c7);
         A += c0;
         B += c7;
         C += c1;
         D += c2;
         E += c3;
         F += c4;
         G += c5;
         H += c6;
     }
     CLIP_SW8_0_255(A, B, C, D, E, F, G, H);
     sign_l = __msa_or_v((v16u8)r1_r, (v16u8)r2_r);
     sign_l = __msa_or_v(sign_l, (v16u8)r3_r);
     sign_l = __msa_or_v(sign_l, (v16u8)r0_l);
     sign_l = __msa_or_v(sign_l, (v16u8)r1_l);
     sign_l = __msa_or_v(sign_l, (v16u8)r2_l);
     sign_l = __msa_or_v(sign_l, (v16u8)r3_l);
     sign_t = __msa_ceqi_w((v4i32)sign_l, 0);
     Add = ((r0_r * cnst46341w) + (8 << 16)) >> 20;
     if (type == 1) {
         Bdd = Add + cnst128w;
         CLIP_SW_0_255(Bdd);
         Ad = Bdd;
         Bd = Bdd;
         Cd = Bdd;
         Dd = Bdd;
         Ed = Bdd;
         Fd = Bdd;
         Gd = Bdd;
         Hd = Bdd;
     } else {
         Ad = Add + c0;
         Bd = Add + c1;
         Cd = Add + c2;
         Dd = Add + c3;
         Ed = Add + c4;
         Fd = Add + c5;
         Gd = Add + c6;
         Hd = Add + c7;
         CLIP_SW8_0_255(Ad, Bd, Cd, Dd, Ed, Fd, Gd, Hd);
     }
     Ad = (v4i32)__msa_and_v((v16u8)Ad, (v16u8)sign_t);
     Bd = (v4i32)__msa_and_v((v16u8)Bd, (v16u8)sign_t);
     Cd = (v4i32)__msa_and_v((v16u8)Cd, (v16u8)sign_t);
     Dd = (v4i32)__msa_and_v((v16u8)Dd, (v16u8)sign_t);
     Ed = (v4i32)__msa_and_v((v16u8)Ed, (v16u8)sign_t);
     Fd = (v4i32)__msa_and_v((v16u8)Fd, (v16u8)sign_t);
     Gd = (v4i32)__msa_and_v((v16u8)Gd, (v16u8)sign_t);
     Hd = (v4i32)__msa_and_v((v16u8)Hd, (v16u8)sign_t);
     sign_t = __msa_ceqi_w(sign_t, 0);
     A = (v4i32)__msa_and_v((v16u8)A, (v16u8)sign_t);
     B = (v4i32)__msa_and_v((v16u8)B, (v16u8)sign_t);
     C = (v4i32)__msa_and_v((v16u8)C, (v16u8)sign_t);
     D = (v4i32)__msa_and_v((v16u8)D, (v16u8)sign_t);
     E = (v4i32)__msa_and_v((v16u8)E, (v16u8)sign_t);
     F = (v4i32)__msa_and_v((v16u8)F, (v16u8)sign_t);
     G = (v4i32)__msa_and_v((v16u8)G, (v16u8)sign_t);
     H = (v4i32)__msa_and_v((v16u8)H, (v16u8)sign_t);
     r0_r = Ad + A;
     r1_r = Bd + C;
     r2_r = Cd + D;
     r3_r = Dd + E;
     r0_l = Ed + F;
     r1_l = Fd + G;
     r2_l = Gd + H;
     r3_l = Hd + B;

     /* Row 4 to 7 */
     TRANSPOSE4x4_SW_SW(r4_r, r5_r, r6_r, r7_r,
                        r4_r, r5_r, r6_r, r7_r);
     TRANSPOSE4x4_SW_SW(r4_l, r5_l, r6_l, r7_l,
                        r4_l, r5_l, r6_l, r7_l);
     A = ((r5_r * cnst64277w) >> 16) + ((r7_l * cnst12785w) >> 16);
     B = ((r5_r * cnst12785w) >> 16) - ((r7_l * cnst64277w) >> 16);
     C = ((r7_r * cnst54491w) >> 16) + ((r5_l * cnst36410w) >> 16);
     D = ((r5_l * cnst54491w) >> 16) - ((r7_r * cnst36410w) >> 16);
     Ad = ((A - C) * cnst46341w) >> 16;
     Bd = ((B - D) * cnst46341w) >> 16;
     Cd = A + C;
     Dd = B + D;
     E = ((r4_r + r4_l) * cnst46341w) >> 16;
     E += cnst8w;
     F = ((r4_r - r4_l) * cnst46341w) >> 16;
     F += cnst8w;
     if (type == 1) { // HACK
         E += cnst2048w;
         F += cnst2048w;
     }
     G = ((r6_r * cnst60547w) >> 16) + ((r6_l * cnst25080w) >> 16);
     H = ((r6_r * cnst25080w) >> 16) - ((r6_l * cnst60547w) >> 16);
     Ed = E - G;
     Gd = E + G;
     Add = F + Ad;
     Bdd = Bd - H;
     Fd = F - Ad;
     Hd = Bd + H;
     A = (Gd + Cd) >> 4;
     B = (Gd - Cd) >> 4;
     C = (Add + Hd) >> 4;
     D = (Add - Hd) >> 4;
     E = (Ed + Dd) >> 4;
     F = (Ed - Dd) >> 4;
     G = (Fd + Bdd) >> 4;
     H = (Fd - Bdd) >> 4;
     if (type != 1) {
         ILVL_H4_SW(zero, f0, zero, f1, zero, f2, zero, f3,
                    c0, c1, c2, c3);
         ILVL_H4_SW(zero, f4, zero, f5, zero, f6, zero, f7,
                    c4, c5, c6, c7);
         A += c0;
         B += c7;
         C += c1;
         D += c2;
         E += c3;
         F += c4;
         G += c5;
         H += c6;
     }
     CLIP_SW8_0_255(A, B, C, D, E, F, G, H);
     sign_l = __msa_or_v((v16u8)r5_r, (v16u8)r6_r);
     sign_l = __msa_or_v(sign_l, (v16u8)r7_r);
     sign_l = __msa_or_v(sign_l, (v16u8)r4_l);
     sign_l = __msa_or_v(sign_l, (v16u8)r5_l);
     sign_l = __msa_or_v(sign_l, (v16u8)r6_l);
     sign_l = __msa_or_v(sign_l, (v16u8)r7_l);
     sign_t = __msa_ceqi_w((v4i32)sign_l, 0);
     Add = ((r4_r * cnst46341w) + (8 << 16)) >> 20;
     if (type == 1) {
         Bdd = Add + cnst128w;
         CLIP_SW_0_255(Bdd);
         Ad = Bdd;
         Bd = Bdd;
         Cd = Bdd;
         Dd = Bdd;
         Ed = Bdd;
         Fd = Bdd;
         Gd = Bdd;
         Hd = Bdd;
     } else {
         Ad = Add + c0;
         Bd = Add + c1;
         Cd = Add + c2;
         Dd = Add + c3;
         Ed = Add + c4;
         Fd = Add + c5;
         Gd = Add + c6;
         Hd = Add + c7;
         CLIP_SW8_0_255(Ad, Bd, Cd, Dd, Ed, Fd, Gd, Hd);
     }
     Ad = (v4i32)__msa_and_v((v16u8)Ad, (v16u8)sign_t);
     Bd = (v4i32)__msa_and_v((v16u8)Bd, (v16u8)sign_t);
     Cd = (v4i32)__msa_and_v((v16u8)Cd, (v16u8)sign_t);
     Dd = (v4i32)__msa_and_v((v16u8)Dd, (v16u8)sign_t);
     Ed = (v4i32)__msa_and_v((v16u8)Ed, (v16u8)sign_t);
     Fd = (v4i32)__msa_and_v((v16u8)Fd, (v16u8)sign_t);
     Gd = (v4i32)__msa_and_v((v16u8)Gd, (v16u8)sign_t);
     Hd = (v4i32)__msa_and_v((v16u8)Hd, (v16u8)sign_t);
     sign_t = __msa_ceqi_w(sign_t, 0);
     A = (v4i32)__msa_and_v((v16u8)A, (v16u8)sign_t);
     B = (v4i32)__msa_and_v((v16u8)B, (v16u8)sign_t);
     C = (v4i32)__msa_and_v((v16u8)C, (v16u8)sign_t);
     D = (v4i32)__msa_and_v((v16u8)D, (v16u8)sign_t);
     E = (v4i32)__msa_and_v((v16u8)E, (v16u8)sign_t);
     F = (v4i32)__msa_and_v((v16u8)F, (v16u8)sign_t);
     G = (v4i32)__msa_and_v((v16u8)G, (v16u8)sign_t);
     H = (v4i32)__msa_and_v((v16u8)H, (v16u8)sign_t);
     r4_r = Ad + A;
     r5_r = Bd + C;
     r6_r = Cd + D;
     r7_r = Dd + E;
     r4_l = Ed + F;
     r5_l = Fd + G;
     r6_l = Gd + H;
     r7_l = Hd + B;
     VSHF_B2_SB(r0_r, r4_r, r1_r, r5_r, mask, mask, d0, d1);
     VSHF_B2_SB(r2_r, r6_r, r3_r, r7_r, mask, mask, d2, d3);
     VSHF_B2_SB(r0_l, r4_l, r1_l, r5_l, mask, mask, d4, d5);
     VSHF_B2_SB(r2_l, r6_l, r3_l, r7_l, mask, mask, d6, d7);

     /* Final sequence of operations over-write original dst */
     ST_D1(d0, 0, dst);
     ST_D1(d1, 0, dst + stride);
     ST_D1(d2, 0, dst + 2 * stride);
     ST_D1(d3, 0, dst + 3 * stride);
     ST_D1(d4, 0, dst + 4 * stride);
     ST_D1(d5, 0, dst + 5 * stride);
     ST_D1(d6, 0, dst + 6 * stride);
     ST_D1(d7, 0, dst + 7 * stride);
 }

 void ff_vp3_idct_put_msa(uint8_t *dest, ptrdiff_t line_size, int16_t *block)
 {
     idct_msa(dest, line_size, block, 1);
     memset(block, 0, sizeof(*block) * 64);
 }

 void ff_vp3_idct_add_msa(uint8_t *dest, ptrdiff_t line_size, int16_t *block)
 {
     idct_msa(dest, line_size, block, 2);
     memset(block, 0, sizeof(*block) * 64);
 }

 void ff_vp3_idct_dc_add_msa(uint8_t *dest, ptrdiff_t line_size, int16_t *block)
 {
     int i = (block[0] + 15) >> 5;
     v4i32 dc = {i, i, i, i};
     v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
     v4i32 c0, c1, c2, c3, c4, c5, c6, c7;
     v4i32 e0, e1, e2, e3, e4, e5, e6, e7;
     v4i32 r0, r1, r2, r3, r4, r5, r6, r7;
     v16i8 mask = {0, 4, 8, 12, 16, 20, 24, 28, 0, 0, 0, 0, 0, 0, 0, 0};
     v16i8 zero = {0};

     LD_SB8(dest, line_size, d0, d1, d2, d3, d4, d5, d6, d7);
     ILVR_B4_SW(zero, d0, zero, d1, zero, d2, zero, d3,
                c0, c1, c2, c3);
     ILVR_B4_SW(zero, d4, zero, d5, zero, d6, zero, d7,
                c4, c5, c6, c7);
     /* Right part */
     ILVR_H4_SW(zero, c0, zero, c1, zero, c2, zero, c3,
                e0, e1, e2, e3);
     ILVR_H4_SW(zero, c4, zero, c5, zero, c6, zero, c7,
                e4, e5, e6, e7);
     e0 += dc;
     e1 += dc;
     e2 += dc;
     e3 += dc;
     e4 += dc;
     e5 += dc;
     e6 += dc;
     e7 += dc;
     CLIP_SW8_0_255(e0, e1, e2, e3, e4, e5, e6, e7);

     /* Left part */
     ILVL_H4_SW(zero, c0, zero, c1, zero, c2, zero, c3,
                r0, r1, r2, r3);
     ILVL_H4_SW(zero, c4, zero, c5, zero, c6, zero, c7,
                r4, r5, r6, r7);
     r0 += dc;
     r1 += dc;
     r2 += dc;
     r3 += dc;
     r4 += dc;
     r5 += dc;
     r6 += dc;
     r7 += dc;
     CLIP_SW8_0_255(r0, r1, r2, r3, r4, r5, r6, r7);
     VSHF_B2_SB(e0, r0, e1, r1, mask, mask, d0, d1);
     VSHF_B2_SB(e2, r2, e3, r3, mask, mask, d2, d3);
     VSHF_B2_SB(e4, r4, e5, r5, mask, mask, d4, d5);
     VSHF_B2_SB(e6, r6, e7, r7, mask, mask, d6, d7);

     /* Final sequence of operations over-write original dst */
     ST_D1(d0, 0, dest);
     ST_D1(d1, 0, dest + line_size);
     ST_D1(d2, 0, dest + 2 * line_size);
     ST_D1(d3, 0, dest + 3 * line_size);
     ST_D1(d4, 0, dest + 4 * line_size);
     ST_D1(d5, 0, dest + 5 * line_size);
     ST_D1(d6, 0, dest + 6 * line_size);
     ST_D1(d7, 0, dest + 7 * line_size);

     block[0] = 0;
 }

 void ff_vp3_v_loop_filter_msa(uint8_t *first_pixel, ptrdiff_t stride,
                               int *bounding_values)
 {
     int nstride = -stride;
     v4i32 e0, e1, f0, f1, g0, g1;
     v16i8 zero = {0};
     v16i8 d0, d1, d2, d3;
     v8i16 c0, c1, c2, c3;
     v8i16 r0;
     v8i16 cnst3h = {3, 3, 3, 3, 3, 3, 3, 3},
           cnst4h = {4, 4, 4, 4, 4, 4, 4, 4};
     v16i8 mask = {0, 4, 8, 12, 16, 20, 24, 28, 0, 0, 0, 0, 0, 0, 0, 0};
     int16_t temp_16[8];
     int temp_32[8];

     LD_SB4(first_pixel + nstride * 2, stride, d0, d1, d2, d3);
     ILVR_B4_SH(zero, d0, zero, d1, zero, d2, zero, d3,
                c0, c1, c2, c3);
     r0 = (c0 - c3) + (c2 - c1) * cnst3h;
     r0 += cnst4h;
     r0 = r0 >> 3;
     /* Get filter_value from bounding_values one by one */
     ST_SH(r0, temp_16);
     for (int i = 0; i < 8; i++)
         temp_32[i] = bounding_values[temp_16[i]];
     LD_SW2(temp_32, 4, e0, e1);
     ILVR_H2_SW(zero, c1, zero, c2, f0, g0);
     ILVL_H2_SW(zero, c1, zero, c2, f1, g1);
     f0 += e0;
     f1 += e1;
     g0 -= e0;
     g1 -= e1;
     CLIP_SW4_0_255(f0, f1, g0, g1);
     VSHF_B2_SB(f0, f1, g0, g1, mask, mask, d1, d2);

     /* Final move to first_pixel */
     ST_D1(d1, 0, first_pixel + nstride);
     ST_D1(d2, 0, first_pixel);
 }

 void ff_vp3_h_loop_filter_msa(uint8_t *first_pixel, ptrdiff_t stride,
                               int *bounding_values)
 {
     v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
     v8i16 c0, c1, c2, c3, c4, c5, c6, c7;
     v8i16 r0;
     v4i32 e0, e1, f0, f1, g0, g1;
     v16i8 zero = {0};
     v8i16 cnst3h = {3, 3, 3, 3, 3, 3, 3, 3},
           cnst4h = {4, 4, 4, 4, 4, 4, 4, 4};
     v16i8 mask = {0, 16, 4, 20, 8, 24, 12, 28, 0, 0, 0, 0, 0, 0, 0, 0};
     int16_t temp_16[8];
     int temp_32[8];

     LD_SB8(first_pixel - 2, stride, d0, d1, d2, d3, d4, d5, d6, d7);
     ILVR_B4_SH(zero, d0, zero, d1, zero, d2, zero, d3,
                c0, c1, c2, c3);
     ILVR_B4_SH(zero, d4, zero, d5, zero, d6, zero, d7,
                c4, c5, c6, c7);
     TRANSPOSE8x8_SH_SH(c0, c1, c2, c3, c4, c5, c6, c7,
                        c0, c1, c2, c3, c4, c5, c6, c7);
     r0 = (c0 - c3) + (c2 - c1) * cnst3h;
     r0 += cnst4h;
     r0 = r0 >> 3;

     /* Get filter_value from bounding_values one by one */
     ST_SH(r0, temp_16);
     for (int i = 0; i < 8; i++)
         temp_32[i] = bounding_values[temp_16[i]];
     LD_SW2(temp_32, 4, e0, e1);
     ILVR_H2_SW(zero, c1, zero, c2, f0, g0);
     ILVL_H2_SW(zero, c1, zero, c2, f1, g1);
     f0 += e0;
     f1 += e1;
     g0 -= e0;
     g1 -= e1;
     CLIP_SW4_0_255(f0, f1, g0, g1);
     VSHF_B2_SB(f0, g0, f1, g1, mask, mask, d1, d2);
     /* Final move to first_pixel */
     ST_H4(d1, 0, 1, 2, 3, first_pixel - 1, stride);
     ST_H4(d2, 0, 1, 2, 3, first_pixel - 1 + 4 * stride, stride);
 }

 void ff_put_no_rnd_pixels_l2_msa(uint8_t *dst, const uint8_t *src1,
                                  const uint8_t *src2, ptrdiff_t stride, int h)
 {
     if (h == 8) {
         v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
         v16i8 c0, c1, c2, c3;
         v4i32 a0, a1, a2, a3, b0, b1, b2, b3;
         v4i32 e0, e1, e2;
         v4i32 f0, f1, f2;
         v4u32 t0, t1, t2, t3;
         v16i8 mask = {0, 1, 2, 3, 16, 17, 18, 19, 4, 5, 6, 7, 20, 21, 22, 23};
         int32_t value = 0xfefefefe;
         v4i32 fmask = {value, value, value, value};

         LD_SB8(src1, stride, d0, d1, d2, d3, d4, d5, d6, d7);
         VSHF_B2_SB(d0, d1, d2, d3, mask, mask, c0, c1);
         VSHF_B2_SB(d4, d5, d6, d7, mask, mask, c2, c3);
         a0 = (v4i32) __msa_pckev_d((v2i64)c1, (v2i64)c0);
         a2 = (v4i32) __msa_pckod_d((v2i64)c1, (v2i64)c0);
         a1 = (v4i32) __msa_pckev_d((v2i64)c3, (v2i64)c2);
         a3 = (v4i32) __msa_pckod_d((v2i64)c3, (v2i64)c2);

         LD_SB8(src2, stride, d0, d1, d2, d3, d4, d5, d6, d7);
         VSHF_B2_SB(d0, d1, d2, d3, mask, mask, c0, c1);
         VSHF_B2_SB(d4, d5, d6, d7, mask, mask, c2, c3);
         b0 = (v4i32) __msa_pckev_d((v2i64)c1, (v2i64)c0);
         b2 = (v4i32) __msa_pckod_d((v2i64)c1, (v2i64)c0);
         b1 = (v4i32) __msa_pckev_d((v2i64)c3, (v2i64)c2);
         b3 = (v4i32) __msa_pckod_d((v2i64)c3, (v2i64)c2);

         e0 = (v4i32) __msa_xor_v((v16u8)a0, (v16u8)b0);
         e0 = (v4i32) __msa_and_v((v16u8)e0, (v16u8)fmask);
         t0 = ((v4u32)e0) >> 1;
         e2 = (v4i32) __msa_and_v((v16u8)a0, (v16u8)b0);
         t0 = t0 + (v4u32)e2;

         e1 = (v4i32) __msa_xor_v((v16u8)a1, (v16u8)b1);
         e1 = (v4i32) __msa_and_v((v16u8)e1, (v16u8)fmask);
         t1 = ((v4u32)e1) >> 1;
         e2 = (v4i32) __msa_and_v((v16u8)a1, (v16u8)b1);
         t1 = t1 + (v4u32)e2;

         f0 = (v4i32) __msa_xor_v((v16u8)a2, (v16u8)b2);
         f0 = (v4i32) __msa_and_v((v16u8)f0, (v16u8)fmask);
         t2 = ((v4u32)f0) >> 1;
         f2 = (v4i32) __msa_and_v((v16u8)a2, (v16u8)b2);
         t2 = t2 + (v4u32)f2;

         f1 = (v4i32) __msa_xor_v((v16u8)a3, (v16u8)b3);
         f1 = (v4i32) __msa_and_v((v16u8)f1, (v16u8)fmask);
         t3 = ((v4u32)f1) >> 1;
         f2 = (v4i32) __msa_and_v((v16u8)a3, (v16u8)b3);
         t3 = t3 + (v4u32)f2;

         ST_W8(t0, t1, 0, 1, 2, 3, 0, 1, 2, 3, dst, stride);
         ST_W8(t2, t3, 0, 1, 2, 3, 0, 1, 2, 3, dst + 4, stride);
     } else {
         int i;

         for (i = 0; i < h; i++) {
             uint32_t a, b;

             a = AV_RN32(&src1[i * stride]);
             b = AV_RN32(&src2[i * stride]);
             AV_WN32A(&dst[i * stride], no_rnd_avg32(a, b));
             a = AV_RN32(&src1[i * stride + 4]);
             b = AV_RN32(&src2[i * stride + 4]);
             AV_WN32A(&dst[i * stride + 4], no_rnd_avg32(a, b));
         }
     }
 }
	/*
	* Copyright (c) 2018 gxw <guxiwei-hf@loongson.cn>
	*
	* This file is part of FFmpeg.
	*
	* FFmpeg is free software; you can redistribute it and/or
	* modify it under the terms of the GNU Lesser General Public
	* License as published by the Free Software Foundation; either
	* version 2.1 of the License, or (at your option) any later version.
	*
	* FFmpeg is distributed in the hope that it will be useful,
	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	* Lesser General Public License for more details.
	*
	* You should have received a copy of the GNU Lesser General Public
	* License along with FFmpeg; if not, write to the Free Software
	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	*/

	#include "vp3dsp_mips.h"
	#include "libavutil/mips/generic_macros_msa.h"
	#include "libavutil/intreadwrite.h"
	#include "libavcodec/rnd_avg.h"

	static void idct_msa(uint8_t dst, int stride, int16_t input, int type)
	{
	v8i16 r0, r1, r2, r3, r4, r5, r6, r7, sign;
	v4i32 r0_r, r0_l, r1_r, r1_l, r2_r, r2_l, r3_r, r3_l,
	r4_r, r4_l, r5_r, r5_l, r6_r, r6_l, r7_r, r7_l;
	v4i32 A, B, C, D, Ad, Bd, Cd, Dd, E, F, G, H;
	v4i32 Ed, Gd, Add, Bdd, Fd, Hd;
	v16u8 sign_l;
	v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
	v4i32 c0, c1, c2, c3, c4, c5, c6, c7;
	v4i32 f0, f1, f2, f3, f4, f5, f6, f7;
	v4i32 sign_t;
	v16i8 zero = {0};
	v16i8 mask = {0, 4, 8, 12, 16, 20, 24, 28, 0, 0, 0, 0, 0, 0, 0, 0};
	v4i32 cnst64277w = {64277, 64277, 64277, 64277};
	v4i32 cnst60547w = {60547, 60547, 60547, 60547};
	v4i32 cnst54491w = {54491, 54491, 54491, 54491};
	v4i32 cnst46341w = {46341, 46341, 46341, 46341};
	v4i32 cnst36410w = {36410, 36410, 36410, 36410};
	v4i32 cnst25080w = {25080, 25080, 25080, 25080};
	v4i32 cnst12785w = {12785, 12785, 12785, 12785};
	v4i32 cnst8w = {8, 8, 8, 8};
	v4i32 cnst2048w = {2048, 2048, 2048, 2048};
	v4i32 cnst128w = {128, 128, 128, 128};

	/* Extended input data */
	LD_SH8(input, 8, r0, r1, r2, r3, r4, r5, r6, r7);
	sign = __msa_clti_s_h(r0, 0);
	r0_r = (v4i32) __msa_ilvr_h(sign, r0);
	r0_l = (v4i32) __msa_ilvl_h(sign, r0);
	sign = __msa_clti_s_h(r1, 0);
	r1_r = (v4i32) __msa_ilvr_h(sign, r1);
	r1_l = (v4i32) __msa_ilvl_h(sign, r1);
	sign = __msa_clti_s_h(r2, 0);
	r2_r = (v4i32) __msa_ilvr_h(sign, r2);
	r2_l = (v4i32) __msa_ilvl_h(sign, r2);
	sign = __msa_clti_s_h(r3, 0);
	r3_r = (v4i32) __msa_ilvr_h(sign, r3);
	r3_l = (v4i32) __msa_ilvl_h(sign, r3);
	sign = __msa_clti_s_h(r4, 0);
	r4_r = (v4i32) __msa_ilvr_h(sign, r4);
	r4_l = (v4i32) __msa_ilvl_h(sign, r4);
	sign = __msa_clti_s_h(r5, 0);
	r5_r = (v4i32) __msa_ilvr_h(sign, r5);
	r5_l = (v4i32) __msa_ilvl_h(sign, r5);
	sign = __msa_clti_s_h(r6, 0);
	r6_r = (v4i32) __msa_ilvr_h(sign, r6);
	r6_l = (v4i32) __msa_ilvl_h(sign, r6);
	sign = __msa_clti_s_h(r7, 0);
	r7_r = (v4i32) __msa_ilvr_h(sign, r7);
	r7_l = (v4i32) __msa_ilvl_h(sign, r7);

	/* Right part */
	A = ((r1_r * cnst64277w) >> 16) + ((r7_r * cnst12785w) >> 16);
	B = ((r1_r * cnst12785w) >> 16) - ((r7_r * cnst64277w) >> 16);
	C = ((r3_r * cnst54491w) >> 16) + ((r5_r * cnst36410w) >> 16);
	D = ((r5_r * cnst54491w) >> 16) - ((r3_r * cnst36410w) >> 16);
	Ad = ((A - C) * cnst46341w) >> 16;
	Bd = ((B - D) * cnst46341w) >> 16;
	Cd = A + C;
	Dd = B + D;
	E = ((r0_r + r4_r) * cnst46341w) >> 16;
	F = ((r0_r - r4_r) * cnst46341w) >> 16;
	G = ((r2_r * cnst60547w) >> 16) + ((r6_r * cnst25080w) >> 16);
	H = ((r2_r * cnst25080w) >> 16) - ((r6_r * cnst60547w) >> 16);
	Ed = E - G;
	Gd = E + G;
	Add = F + Ad;
	Bdd = Bd - H;
	Fd = F - Ad;
	Hd = Bd + H;
	r0_r = Gd + Cd;
	r7_r = Gd - Cd;
	r1_r = Add + Hd;
	r2_r = Add - Hd;
	r3_r = Ed + Dd;
	r4_r = Ed - Dd;
	r5_r = Fd + Bdd;
	r6_r = Fd - Bdd;

	/* Left part */
	A = ((r1_l * cnst64277w) >> 16) + ((r7_l * cnst12785w) >> 16);
	B = ((r1_l * cnst12785w) >> 16) - ((r7_l * cnst64277w) >> 16);
	C = ((r3_l * cnst54491w) >> 16) + ((r5_l * cnst36410w) >> 16);
	D = ((r5_l * cnst54491w) >> 16) - ((r3_l * cnst36410w) >> 16);
	Ad = ((A - C) * cnst46341w) >> 16;
	Bd = ((B - D) * cnst46341w) >> 16;
	Cd = A + C;
	Dd = B + D;
	E = ((r0_l + r4_l) * cnst46341w) >> 16;
	F = ((r0_l - r4_l) * cnst46341w) >> 16;
	G = ((r2_l * cnst60547w) >> 16) + ((r6_l * cnst25080w) >> 16);
	H = ((r2_l * cnst25080w) >> 16) - ((r6_l * cnst60547w) >> 16);
	Ed = E - G;
	Gd = E + G;
	Add = F + Ad;
	Bdd = Bd - H;
	Fd = F - Ad;
	Hd = Bd + H;
	r0_l = Gd + Cd;
	r7_l = Gd - Cd;
	r1_l = Add + Hd;
	r2_l = Add - Hd;
	r3_l = Ed + Dd;
	r4_l = Ed - Dd;
	r5_l = Fd + Bdd;
	r6_l = Fd - Bdd;

	/* Row 0 to 3 */
	TRANSPOSE4x4_SW_SW(r0_r, r1_r, r2_r, r3_r,
	r0_r, r1_r, r2_r, r3_r);
	TRANSPOSE4x4_SW_SW(r0_l, r1_l, r2_l, r3_l,
	r0_l, r1_l, r2_l, r3_l);
	A = ((r1_r * cnst64277w) >> 16) + ((r3_l * cnst12785w) >> 16);
	B = ((r1_r * cnst12785w) >> 16) - ((r3_l * cnst64277w) >> 16);
	C = ((r3_r * cnst54491w) >> 16) + ((r1_l * cnst36410w) >> 16);
	D = ((r1_l * cnst54491w) >> 16) - ((r3_r * cnst36410w) >> 16);
	Ad = ((A - C) * cnst46341w) >> 16;
	Bd = ((B - D) * cnst46341w) >> 16;
	Cd = A + C;
	Dd = B + D;
	E = ((r0_r + r0_l) * cnst46341w) >> 16;
	E += cnst8w;
	F = ((r0_r - r0_l) * cnst46341w) >> 16;
	F += cnst8w;
	if (type == 1) { // HACK
	E += cnst2048w;
	F += cnst2048w;
	}
	G = ((r2_r * cnst60547w) >> 16) + ((r2_l * cnst25080w) >> 16);
	H = ((r2_r * cnst25080w) >> 16) - ((r2_l * cnst60547w) >> 16);
	Ed = E - G;
	Gd = E + G;
	Add = F + Ad;
	Bdd = Bd - H;
	Fd = F - Ad;
	Hd = Bd + H;
	A = (Gd + Cd) >> 4;
	B = (Gd - Cd) >> 4;
	C = (Add + Hd) >> 4;
	D = (Add - Hd) >> 4;
	E = (Ed + Dd) >> 4;
	F = (Ed - Dd) >> 4;
	G = (Fd + Bdd) >> 4;
	H = (Fd - Bdd) >> 4;
	if (type != 1) {
	LD_SB8(dst, stride, d0, d1, d2, d3, d4, d5, d6, d7);
	ILVR_B4_SW(zero, d0, zero, d1, zero, d2, zero, d3,
	f0, f1, f2, f3);
	ILVR_B4_SW(zero, d4, zero, d5, zero, d6, zero, d7,
	f4, f5, f6, f7);
	ILVR_H4_SW(zero, f0, zero, f1, zero, f2, zero, f3,
	c0, c1, c2, c3);
	ILVR_H4_SW(zero, f4, zero, f5, zero, f6, zero, f7,
	c4, c5, c6, c7);
	A += c0;
	B += c7;
	C += c1;
	D += c2;
	E += c3;
	F += c4;
	G += c5;
	H += c6;
	}
	CLIP_SW8_0_255(A, B, C, D, E, F, G, H);
	sign_l = __msa_or_v((v16u8)r1_r, (v16u8)r2_r);
	sign_l = __msa_or_v(sign_l, (v16u8)r3_r);
	sign_l = __msa_or_v(sign_l, (v16u8)r0_l);
	sign_l = __msa_or_v(sign_l, (v16u8)r1_l);
	sign_l = __msa_or_v(sign_l, (v16u8)r2_l);
	sign_l = __msa_or_v(sign_l, (v16u8)r3_l);
	sign_t = __msa_ceqi_w((v4i32)sign_l, 0);
	Add = ((r0_r * cnst46341w) + (8 << 16)) >> 20;
	if (type == 1) {
	Bdd = Add + cnst128w;
	CLIP_SW_0_255(Bdd);
	Ad = Bdd;
	Bd = Bdd;
	Cd = Bdd;
	Dd = Bdd;
	Ed = Bdd;
	Fd = Bdd;
	Gd = Bdd;
	Hd = Bdd;
	} else {
	Ad = Add + c0;
	Bd = Add + c1;
	Cd = Add + c2;
	Dd = Add + c3;
	Ed = Add + c4;
	Fd = Add + c5;
	Gd = Add + c6;
	Hd = Add + c7;
	CLIP_SW8_0_255(Ad, Bd, Cd, Dd, Ed, Fd, Gd, Hd);
	}
	Ad = (v4i32)__msa_and_v((v16u8)Ad, (v16u8)sign_t);
	Bd = (v4i32)__msa_and_v((v16u8)Bd, (v16u8)sign_t);
	Cd = (v4i32)__msa_and_v((v16u8)Cd, (v16u8)sign_t);
	Dd = (v4i32)__msa_and_v((v16u8)Dd, (v16u8)sign_t);
	Ed = (v4i32)__msa_and_v((v16u8)Ed, (v16u8)sign_t);
	Fd = (v4i32)__msa_and_v((v16u8)Fd, (v16u8)sign_t);
	Gd = (v4i32)__msa_and_v((v16u8)Gd, (v16u8)sign_t);
	Hd = (v4i32)__msa_and_v((v16u8)Hd, (v16u8)sign_t);
	sign_t = __msa_ceqi_w(sign_t, 0);
	A = (v4i32)__msa_and_v((v16u8)A, (v16u8)sign_t);
	B = (v4i32)__msa_and_v((v16u8)B, (v16u8)sign_t);
	C = (v4i32)__msa_and_v((v16u8)C, (v16u8)sign_t);
	D = (v4i32)__msa_and_v((v16u8)D, (v16u8)sign_t);
	E = (v4i32)__msa_and_v((v16u8)E, (v16u8)sign_t);
	F = (v4i32)__msa_and_v((v16u8)F, (v16u8)sign_t);
	G = (v4i32)__msa_and_v((v16u8)G, (v16u8)sign_t);
	H = (v4i32)__msa_and_v((v16u8)H, (v16u8)sign_t);
	r0_r = Ad + A;
	r1_r = Bd + C;
	r2_r = Cd + D;
	r3_r = Dd + E;
	r0_l = Ed + F;
	r1_l = Fd + G;
	r2_l = Gd + H;
	r3_l = Hd + B;

	/* Row 4 to 7 */
	TRANSPOSE4x4_SW_SW(r4_r, r5_r, r6_r, r7_r,
	r4_r, r5_r, r6_r, r7_r);
	TRANSPOSE4x4_SW_SW(r4_l, r5_l, r6_l, r7_l,
	r4_l, r5_l, r6_l, r7_l);
	A = ((r5_r * cnst64277w) >> 16) + ((r7_l * cnst12785w) >> 16);
	B = ((r5_r * cnst12785w) >> 16) - ((r7_l * cnst64277w) >> 16);
	C = ((r7_r * cnst54491w) >> 16) + ((r5_l * cnst36410w) >> 16);
	D = ((r5_l * cnst54491w) >> 16) - ((r7_r * cnst36410w) >> 16);
	Ad = ((A - C) * cnst46341w) >> 16;
	Bd = ((B - D) * cnst46341w) >> 16;
	Cd = A + C;
	Dd = B + D;
	E = ((r4_r + r4_l) * cnst46341w) >> 16;
	E += cnst8w;
	F = ((r4_r - r4_l) * cnst46341w) >> 16;
	F += cnst8w;
	if (type == 1) { // HACK
	E += cnst2048w;
	F += cnst2048w;
	}
	G = ((r6_r * cnst60547w) >> 16) + ((r6_l * cnst25080w) >> 16);
	H = ((r6_r * cnst25080w) >> 16) - ((r6_l * cnst60547w) >> 16);
	Ed = E - G;
	Gd = E + G;
	Add = F + Ad;
	Bdd = Bd - H;
	Fd = F - Ad;
	Hd = Bd + H;
	A = (Gd + Cd) >> 4;
	B = (Gd - Cd) >> 4;
	C = (Add + Hd) >> 4;
	D = (Add - Hd) >> 4;
	E = (Ed + Dd) >> 4;
	F = (Ed - Dd) >> 4;
	G = (Fd + Bdd) >> 4;
	H = (Fd - Bdd) >> 4;
	if (type != 1) {
	ILVL_H4_SW(zero, f0, zero, f1, zero, f2, zero, f3,
	c0, c1, c2, c3);
	ILVL_H4_SW(zero, f4, zero, f5, zero, f6, zero, f7,
	c4, c5, c6, c7);
	A += c0;
	B += c7;
	C += c1;
	D += c2;
	E += c3;
	F += c4;
	G += c5;
	H += c6;
	}
	CLIP_SW8_0_255(A, B, C, D, E, F, G, H);
	sign_l = __msa_or_v((v16u8)r5_r, (v16u8)r6_r);
	sign_l = __msa_or_v(sign_l, (v16u8)r7_r);
	sign_l = __msa_or_v(sign_l, (v16u8)r4_l);
	sign_l = __msa_or_v(sign_l, (v16u8)r5_l);
	sign_l = __msa_or_v(sign_l, (v16u8)r6_l);
	sign_l = __msa_or_v(sign_l, (v16u8)r7_l);
	sign_t = __msa_ceqi_w((v4i32)sign_l, 0);
	Add = ((r4_r * cnst46341w) + (8 << 16)) >> 20;
	if (type == 1) {
	Bdd = Add + cnst128w;
	CLIP_SW_0_255(Bdd);
	Ad = Bdd;
	Bd = Bdd;
	Cd = Bdd;
	Dd = Bdd;
	Ed = Bdd;
	Fd = Bdd;
	Gd = Bdd;
	Hd = Bdd;
	} else {
	Ad = Add + c0;
	Bd = Add + c1;
	Cd = Add + c2;
	Dd = Add + c3;
	Ed = Add + c4;
	Fd = Add + c5;
	Gd = Add + c6;
	Hd = Add + c7;
	CLIP_SW8_0_255(Ad, Bd, Cd, Dd, Ed, Fd, Gd, Hd);
	}
	Ad = (v4i32)__msa_and_v((v16u8)Ad, (v16u8)sign_t);
	Bd = (v4i32)__msa_and_v((v16u8)Bd, (v16u8)sign_t);
	Cd = (v4i32)__msa_and_v((v16u8)Cd, (v16u8)sign_t);
	Dd = (v4i32)__msa_and_v((v16u8)Dd, (v16u8)sign_t);
	Ed = (v4i32)__msa_and_v((v16u8)Ed, (v16u8)sign_t);
	Fd = (v4i32)__msa_and_v((v16u8)Fd, (v16u8)sign_t);
	Gd = (v4i32)__msa_and_v((v16u8)Gd, (v16u8)sign_t);
	Hd = (v4i32)__msa_and_v((v16u8)Hd, (v16u8)sign_t);
	sign_t = __msa_ceqi_w(sign_t, 0);
	A = (v4i32)__msa_and_v((v16u8)A, (v16u8)sign_t);
	B = (v4i32)__msa_and_v((v16u8)B, (v16u8)sign_t);
	C = (v4i32)__msa_and_v((v16u8)C, (v16u8)sign_t);
	D = (v4i32)__msa_and_v((v16u8)D, (v16u8)sign_t);
	E = (v4i32)__msa_and_v((v16u8)E, (v16u8)sign_t);
	F = (v4i32)__msa_and_v((v16u8)F, (v16u8)sign_t);
	G = (v4i32)__msa_and_v((v16u8)G, (v16u8)sign_t);
	H = (v4i32)__msa_and_v((v16u8)H, (v16u8)sign_t);
	r4_r = Ad + A;
	r5_r = Bd + C;
	r6_r = Cd + D;
	r7_r = Dd + E;
	r4_l = Ed + F;
	r5_l = Fd + G;
	r6_l = Gd + H;
	r7_l = Hd + B;
	VSHF_B2_SB(r0_r, r4_r, r1_r, r5_r, mask, mask, d0, d1);
	VSHF_B2_SB(r2_r, r6_r, r3_r, r7_r, mask, mask, d2, d3);
	VSHF_B2_SB(r0_l, r4_l, r1_l, r5_l, mask, mask, d4, d5);
	VSHF_B2_SB(r2_l, r6_l, r3_l, r7_l, mask, mask, d6, d7);

	/* Final sequence of operations over-write original dst */
	ST_D1(d0, 0, dst);
	ST_D1(d1, 0, dst + stride);
	ST_D1(d2, 0, dst + 2 * stride);
	ST_D1(d3, 0, dst + 3 * stride);
	ST_D1(d4, 0, dst + 4 * stride);
	ST_D1(d5, 0, dst + 5 * stride);
	ST_D1(d6, 0, dst + 6 * stride);
	ST_D1(d7, 0, dst + 7 * stride);
	}

	void ff_vp3_idct_put_msa(uint8_t dest, ptrdiff_t line_size, int16_t block)
	{
	idct_msa(dest, line_size, block, 1);
	memset(block, 0, sizeof(block) 64);
	}

	void ff_vp3_idct_add_msa(uint8_t dest, ptrdiff_t line_size, int16_t block)
	{
	idct_msa(dest, line_size, block, 2);
	memset(block, 0, sizeof(block) 64);
	}

	void ff_vp3_idct_dc_add_msa(uint8_t dest, ptrdiff_t line_size, int16_t block)
	{
	int i = (block[0] + 15) >> 5;
	v4i32 dc = {i, i, i, i};
	v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
	v4i32 c0, c1, c2, c3, c4, c5, c6, c7;
	v4i32 e0, e1, e2, e3, e4, e5, e6, e7;
	v4i32 r0, r1, r2, r3, r4, r5, r6, r7;
	v16i8 mask = {0, 4, 8, 12, 16, 20, 24, 28, 0, 0, 0, 0, 0, 0, 0, 0};
	v16i8 zero = {0};

	LD_SB8(dest, line_size, d0, d1, d2, d3, d4, d5, d6, d7);
	ILVR_B4_SW(zero, d0, zero, d1, zero, d2, zero, d3,
	c0, c1, c2, c3);
	ILVR_B4_SW(zero, d4, zero, d5, zero, d6, zero, d7,
	c4, c5, c6, c7);
	/* Right part */
	ILVR_H4_SW(zero, c0, zero, c1, zero, c2, zero, c3,
	e0, e1, e2, e3);
	ILVR_H4_SW(zero, c4, zero, c5, zero, c6, zero, c7,
	e4, e5, e6, e7);
	e0 += dc;
	e1 += dc;
	e2 += dc;
	e3 += dc;
	e4 += dc;
	e5 += dc;
	e6 += dc;
	e7 += dc;
	CLIP_SW8_0_255(e0, e1, e2, e3, e4, e5, e6, e7);

	/* Left part */
	ILVL_H4_SW(zero, c0, zero, c1, zero, c2, zero, c3,
	r0, r1, r2, r3);
	ILVL_H4_SW(zero, c4, zero, c5, zero, c6, zero, c7,
	r4, r5, r6, r7);
	r0 += dc;
	r1 += dc;
	r2 += dc;
	r3 += dc;
	r4 += dc;
	r5 += dc;
	r6 += dc;
	r7 += dc;
	CLIP_SW8_0_255(r0, r1, r2, r3, r4, r5, r6, r7);
	VSHF_B2_SB(e0, r0, e1, r1, mask, mask, d0, d1);
	VSHF_B2_SB(e2, r2, e3, r3, mask, mask, d2, d3);
	VSHF_B2_SB(e4, r4, e5, r5, mask, mask, d4, d5);
	VSHF_B2_SB(e6, r6, e7, r7, mask, mask, d6, d7);

	/* Final sequence of operations over-write original dst */
	ST_D1(d0, 0, dest);
	ST_D1(d1, 0, dest + line_size);
	ST_D1(d2, 0, dest + 2 * line_size);
	ST_D1(d3, 0, dest + 3 * line_size);
	ST_D1(d4, 0, dest + 4 * line_size);
	ST_D1(d5, 0, dest + 5 * line_size);
	ST_D1(d6, 0, dest + 6 * line_size);
	ST_D1(d7, 0, dest + 7 * line_size);

	block[0] = 0;
	}

	void ff_vp3_v_loop_filter_msa(uint8_t *first_pixel, ptrdiff_t stride,
	int *bounding_values)
	{
	int nstride = -stride;
	v4i32 e0, e1, f0, f1, g0, g1;
	v16i8 zero = {0};
	v16i8 d0, d1, d2, d3;
	v8i16 c0, c1, c2, c3;
	v8i16 r0;
	v8i16 cnst3h = {3, 3, 3, 3, 3, 3, 3, 3},
	cnst4h = {4, 4, 4, 4, 4, 4, 4, 4};
	v16i8 mask = {0, 4, 8, 12, 16, 20, 24, 28, 0, 0, 0, 0, 0, 0, 0, 0};
	int16_t temp_16[8];
	int temp_32[8];

	LD_SB4(first_pixel + nstride * 2, stride, d0, d1, d2, d3);
	ILVR_B4_SH(zero, d0, zero, d1, zero, d2, zero, d3,
	c0, c1, c2, c3);
	r0 = (c0 - c3) + (c2 - c1) * cnst3h;
	r0 += cnst4h;
	r0 = r0 >> 3;
	/* Get filter_value from bounding_values one by one */
	ST_SH(r0, temp_16);
	for (int i = 0; i < 8; i++)
	temp_32[i] = bounding_values[temp_16[i]];
	LD_SW2(temp_32, 4, e0, e1);
	ILVR_H2_SW(zero, c1, zero, c2, f0, g0);
	ILVL_H2_SW(zero, c1, zero, c2, f1, g1);
	f0 += e0;
	f1 += e1;
	g0 -= e0;
	g1 -= e1;
	CLIP_SW4_0_255(f0, f1, g0, g1);
	VSHF_B2_SB(f0, f1, g0, g1, mask, mask, d1, d2);

	/* Final move to first_pixel */
	ST_D1(d1, 0, first_pixel + nstride);
	ST_D1(d2, 0, first_pixel);
	}

	void ff_vp3_h_loop_filter_msa(uint8_t *first_pixel, ptrdiff_t stride,
	int *bounding_values)
	{
	v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
	v8i16 c0, c1, c2, c3, c4, c5, c6, c7;
	v8i16 r0;
	v4i32 e0, e1, f0, f1, g0, g1;
	v16i8 zero = {0};
	v8i16 cnst3h = {3, 3, 3, 3, 3, 3, 3, 3},
	cnst4h = {4, 4, 4, 4, 4, 4, 4, 4};
	v16i8 mask = {0, 16, 4, 20, 8, 24, 12, 28, 0, 0, 0, 0, 0, 0, 0, 0};
	int16_t temp_16[8];
	int temp_32[8];

	LD_SB8(first_pixel - 2, stride, d0, d1, d2, d3, d4, d5, d6, d7);
	ILVR_B4_SH(zero, d0, zero, d1, zero, d2, zero, d3,
	c0, c1, c2, c3);
	ILVR_B4_SH(zero, d4, zero, d5, zero, d6, zero, d7,
	c4, c5, c6, c7);
	TRANSPOSE8x8_SH_SH(c0, c1, c2, c3, c4, c5, c6, c7,
	c0, c1, c2, c3, c4, c5, c6, c7);
	r0 = (c0 - c3) + (c2 - c1) * cnst3h;
	r0 += cnst4h;
	r0 = r0 >> 3;

	/* Get filter_value from bounding_values one by one */
	ST_SH(r0, temp_16);
	for (int i = 0; i < 8; i++)
	temp_32[i] = bounding_values[temp_16[i]];
	LD_SW2(temp_32, 4, e0, e1);
	ILVR_H2_SW(zero, c1, zero, c2, f0, g0);
	ILVL_H2_SW(zero, c1, zero, c2, f1, g1);
	f0 += e0;
	f1 += e1;
	g0 -= e0;
	g1 -= e1;
	CLIP_SW4_0_255(f0, f1, g0, g1);
	VSHF_B2_SB(f0, g0, f1, g1, mask, mask, d1, d2);
	/* Final move to first_pixel */
	ST_H4(d1, 0, 1, 2, 3, first_pixel - 1, stride);
	ST_H4(d2, 0, 1, 2, 3, first_pixel - 1 + 4 * stride, stride);
	}

	void ff_put_no_rnd_pixels_l2_msa(uint8_t dst, const uint8_t src1,
	const uint8_t *src2, ptrdiff_t stride, int h)
	{
	if (h == 8) {
	v16i8 d0, d1, d2, d3, d4, d5, d6, d7;
	v16i8 c0, c1, c2, c3;
	v4i32 a0, a1, a2, a3, b0, b1, b2, b3;
	v4i32 e0, e1, e2;
	v4i32 f0, f1, f2;
	v4u32 t0, t1, t2, t3;
	v16i8 mask = {0, 1, 2, 3, 16, 17, 18, 19, 4, 5, 6, 7, 20, 21, 22, 23};
	int32_t value = 0xfefefefe;
	v4i32 fmask = {value, value, value, value};

	LD_SB8(src1, stride, d0, d1, d2, d3, d4, d5, d6, d7);
	VSHF_B2_SB(d0, d1, d2, d3, mask, mask, c0, c1);
	VSHF_B2_SB(d4, d5, d6, d7, mask, mask, c2, c3);
	a0 = (v4i32) __msa_pckev_d((v2i64)c1, (v2i64)c0);
	a2 = (v4i32) __msa_pckod_d((v2i64)c1, (v2i64)c0);
	a1 = (v4i32) __msa_pckev_d((v2i64)c3, (v2i64)c2);
	a3 = (v4i32) __msa_pckod_d((v2i64)c3, (v2i64)c2);

	LD_SB8(src2, stride, d0, d1, d2, d3, d4, d5, d6, d7);
	VSHF_B2_SB(d0, d1, d2, d3, mask, mask, c0, c1);
	VSHF_B2_SB(d4, d5, d6, d7, mask, mask, c2, c3);
	b0 = (v4i32) __msa_pckev_d((v2i64)c1, (v2i64)c0);
	b2 = (v4i32) __msa_pckod_d((v2i64)c1, (v2i64)c0);
	b1 = (v4i32) __msa_pckev_d((v2i64)c3, (v2i64)c2);
	b3 = (v4i32) __msa_pckod_d((v2i64)c3, (v2i64)c2);

	e0 = (v4i32) __msa_xor_v((v16u8)a0, (v16u8)b0);
	e0 = (v4i32) __msa_and_v((v16u8)e0, (v16u8)fmask);
	t0 = ((v4u32)e0) >> 1;
	e2 = (v4i32) __msa_and_v((v16u8)a0, (v16u8)b0);
	t0 = t0 + (v4u32)e2;

	e1 = (v4i32) __msa_xor_v((v16u8)a1, (v16u8)b1);
	e1 = (v4i32) __msa_and_v((v16u8)e1, (v16u8)fmask);
	t1 = ((v4u32)e1) >> 1;
	e2 = (v4i32) __msa_and_v((v16u8)a1, (v16u8)b1);
	t1 = t1 + (v4u32)e2;

	f0 = (v4i32) __msa_xor_v((v16u8)a2, (v16u8)b2);
	f0 = (v4i32) __msa_and_v((v16u8)f0, (v16u8)fmask);
	t2 = ((v4u32)f0) >> 1;
	f2 = (v4i32) __msa_and_v((v16u8)a2, (v16u8)b2);
	t2 = t2 + (v4u32)f2;

	f1 = (v4i32) __msa_xor_v((v16u8)a3, (v16u8)b3);
	f1 = (v4i32) __msa_and_v((v16u8)f1, (v16u8)fmask);
	t3 = ((v4u32)f1) >> 1;
	f2 = (v4i32) __msa_and_v((v16u8)a3, (v16u8)b3);
	t3 = t3 + (v4u32)f2;

	ST_W8(t0, t1, 0, 1, 2, 3, 0, 1, 2, 3, dst, stride);
	ST_W8(t2, t3, 0, 1, 2, 3, 0, 1, 2, 3, dst + 4, stride);
	} else {
	int i;

	for (i = 0; i < h; i++) {
	uint32_t a, b;

	a = AV_RN32(&src1[i * stride]);
	b = AV_RN32(&src2[i * stride]);
	AV_WN32A(&dst[i * stride], no_rnd_avg32(a, b));
	a = AV_RN32(&src1[i * stride + 4]);
	b = AV_RN32(&src2[i * stride + 4]);
	AV_WN32A(&dst[i * stride + 4], no_rnd_avg32(a, b));
	}
	}
	}