Improve performance of inverse DWT 5x3 (#953)
authorEven Rouault <even.rouault@spatialys.com>
Tue, 20 Jun 2017 15:56:25 +0000 (17:56 +0200)
committerEven Rouault <even.rouault@spatialys.com>
Tue, 20 Jun 2017 16:01:34 +0000 (18:01 +0200)
commitfa55b52d19f39765d7f108d654a8f87035a5772f
treedafaf2cdfe139ed1775c06e5c30b7f7ac409b92b
parent919ed5f8b8681aeae54ce3884b3ecca56cadc2e0
Improve performance of inverse DWT 5x3 (#953)

* Use single-pass lifting inverse wavelet transform.
* For vertical pass, use SSE2 when available so as to process 8 columns
  in parallel. This is the most beneficial improvement, since the
  vertical pass involves a lot of cache trashing.

With the bench_dwt utility with default arguments (16383x16383 image),
time goes from 4.064 s to 1.212 s.
src/lib/openjp2/dwt.c