Walkthrough on CuriousCoding

Walkthrough on CuriousCodinghttps://curiouscoding.nl/categories/walkthrough/Recent content in Walkthrough on CuriousCodingHugoenFri, 12 Jul 2024 00:00:00 +0200Computing random minimizers, fasthttps://curiouscoding.nl/posts/fast-minimizers/Fri, 12 Jul 2024 00:00:00 +0200https://curiouscoding.nl/posts/fast-minimizers/<div class="ox-hugo-toc toc has-section-numbers"> <div class="heading">Table of Contents</div> <ul> <li><span class="section-num">1</span> <a href="#introduction">Introduction</a> <ul> <li><span class="section-num">1.1</span> <a href="#intro-results">Results</a></li> </ul> </li> <li><span class="section-num">2</span> <a href="#random-minimizers">Random minimizers</a></li> <li><span class="section-num">3</span> <a href="#algorithms">Algorithms</a> <ul> <li><span class="section-num">3.1</span> <a href="#problem-statement">Problem statement</a> <ul> <li><a href="#problem-a-only-the-set-of-minimizers">Problem A: Only the set of minimizers</a></li> <li><a href="#problem-b-the-minimizer-of-each-window">Problem B: The minimizer of each window</a></li> <li><a href="#problem-c-super-k-mers">Problem C: Super-k-mers</a></li> <li><a href="#which-problem-to-solve">Which problem to solve</a></li> <li><a href="#canonical-k-mers">Canonical k-mers</a></li> </ul> </li> <li><span class="section-num">3.2</span> <a href="#the-naive-algorithm">The naive algorithm</a> <ul> <li><a href="#naive-performance">Performance characteristics</a></li> </ul> </li> <li><span class="section-num">3.3</span> <a href="#rephrasing-as-sliding-window-minimum">Rephrasing as sliding window minimum</a></li> <li><span class="section-num">3.4</span> <a href="#the-queue">The queue</a> <ul> <li><a href="#queue-performance">Performance characteristics</a></li> </ul> </li> <li><span class="section-num">3.5</span> <a href="#jumping-away-with-the-queue">Jumping: Away with the queue</a> <ul> <li><a href="#jumping-performance">Performance characteristics</a></li> </ul> </li> <li><span class="section-num">3.6</span> <a href="#re-scan">Re-scan</a> <ul> <li><a href="#rescan-performance">Performance characteristics</a></li> </ul> </li> <li><span class="section-num">3.7</span> <a href="#split-windows">Split windows</a> <ul> <li><a href="#split-perfomance">Performance characteristics</a></li> </ul> </li> </ul> </li> <li><span class="section-num">4</span> <a href="#analysing-what-we-have-so-far">Analysing what we have so far</a> <ul> <li><span class="section-num">4.1</span> <a href="#counting-comparisons">Counting comparisons</a> <ul> <li><a href="#open-problem-theoretical-lower-bounds">Open problem: Theoretical lower bounds</a></li> </ul> </li> <li><span class="section-num">4.2</span> <a href="#setting-up-benchmarking">Setting up benchmarking</a> <ul> <li><a href="#adding-criterion">Adding criterion</a></li> <li><a href="#making-criterion-fast">Making criterion fast</a></li> <li><a href="#a-note-on-cpu-frequency">A note on CPU frequency</a></li> </ul> </li> <li><span class="section-num">4.3</span> <a href="#runtime-comparison-with-other-implementations">Runtime comparison with other implementations</a></li> <li><span class="section-num">4.4</span> <a href="#deeper-inspection-using-perf-stat">Deeper inspection using <code>perf stat</code></a></li> <li><span class="section-num">4.5</span> <a href="#a-first-optimization-pass">A first optimization pass</a> <ul> <li><a href="#optimizing-buffered-reducing-branch-misses">Optimizing <code>Buffered</code>: reducing branch misses</a></li> <li><a href="#queue-is-hopelessly-branchy"><code>Queue</code> is hopelessly branchy</a></li> <li><a href="#jumping-is-already-very-efficient"><code>Jumping</code> is already very efficient</a></li> <li><a href="#optimizing-rescan">Optimizing <code>Rescan</code></a></li> <li><a href="#optimizing-split">Optimizing <code>Split</code></a></li> </ul> </li> <li><span class="section-num">4.6</span> <a href="#a-new-performance-comparison">A new performance comparison</a></li> </ul> </li> <li><span class="section-num">5</span> <a href="#rolling-our-own-hash">Rolling our own hash</a> <ul> <li><span class="section-num">5.1</span> <a href="#fxhash">FxHash</a> <ul> <li><a href="#wyhash">WyHash</a></li> </ul> </li> <li><span class="section-num">5.2</span> <a href="#nthash-a-rolling-hash">NtHash: a rolling hash</a> <ul> <li><a href="#the-nthash-crate">The <code>nthash</code> crate</a></li> <li><a href="#buffered-hash-values">Buffered hash values</a></li> </ul> </li> <li><span class="section-num">5.3</span> <a href="#making-nthash-fast-going-branchless">Making ntHash fast: going branchless</a> <ul> <li><a href="#drop-sanity-checks">Drop sanity checks</a></li> <li><a href="#drop-bound-checks">Drop bound checks</a></li> <li><a href="#efficiently-collecting-to-a-vector">Efficiently collecting to a vector</a></li> </ul> </li> <li><span class="section-num">5.4</span> <a href="#rolling-a-bit-less">Rolling a bitless</a> <ul> <li><a href="#analysing-the-assembly-code">Analysing the assembly code</a></li> </ul> </li> <li><span class="section-num">5.5</span> <a href="#parallel-it-is">Parallel it is</a> <ul> <li><a href="#more-parallel">More parallel</a></li> </ul> </li> <li><span class="section-num">5.6</span> <a href="#actual-simd-at-last">Actual SIMD, at last</a> <ul> <li><a href="#simd-table-lookups">SIMD table lookups</a></li> <li><a href="#32-bit-hashes">32-bit hashes</a></li> <li><a href="#shared-offsets">Shared offsets</a></li> </ul> </li> <li><span class="section-num">5.7</span> <a href="#simd-the-gathering">SIMD: The Gathering</a> <ul> <li><a href="#gathering-4-characters-at-a-time">Gathering 4 characters at a time</a></li> <li><a href="#gathering-8-characters-at-a-time">Gathering 8 characters at a time</a></li> <li><a href="#gathering-32-characters-at-a-time">Gathering 32 characters at a time</a></li> <li><a href="#reusing-the-gathers">Reusing the gathers</a></li> </ul> </li> <li><span class="section-num">5.8</span> <a href="#cached-vec">Fixing the benchmark</a> <ul> <li><a href="#one-last-branch">One last branch</a></li> </ul> </li> <li><span class="section-num">5.9</span> <a href="#analysis-machine-code-analysis">Analysis: Machine code analysis</a></li> <li><span class="section-num">5.10</span> <a href="#finals-thoughts">Finals thoughts</a> <ul> <li><a href="#doubling-down-again">Doubling down again</a></li> <li><a href="#16-bit-hashes">16-bit hashes?</a></li> <li><a href="#what-about-a-simple-multiply-hash">What about a simple multiply hash</a></li> </ul> </li> </ul> </li> <li><span class="section-num">6</span> <a href="#simd-sliding-window">SIMD sliding window</a> <ul> <li><span class="section-num">6.1</span> <a href="#sliding-window-results">Results</a> <ul> <li><a href="#human-genome-results">Human genome results</a></li> </ul> </li> </ul> </li> <li><span class="section-num">7</span> <a href="#cleanup-testing-super-k-mers-and-canonical-k-mers"><span class="org-todo todo TODO">TODO</span> Cleanup, Testing, Super-k-mers, and canonical k-mers</a></li> </ul> </div>  <h1 id="introduction"> <span class="section-num">1</span> Introduction <a class="heading-link" href="#introduction"> <i class="fa fa-link" aria-hidden="true"></i> </a> </h1> <p>In this post, we will develop a fast implementation of random minimizers.</p>28000x speedup with Numba.CUDAhttps://curiouscoding.nl/posts/numba-cuda-speedup/Mon, 24 May 2021 00:00:00 +0200https://curiouscoding.nl/posts/numba-cuda-speedup/<div class="ox-hugo-toc toc"> <div class="heading">Table of Contents</div> <ul> <li><a href="#cuda-overview">CUDA Overview</a> <ul> <li><a href="#profiling">Profiling</a></li> </ul> </li> <li><a href="#optimizing-tensor-sketch">Optimizing Tensor Sketch</a> <ul> <li><a href="#cpu-code">CPU code</a> <ul> <li><a href="#v0-original-python-code">V0: Original python code</a></li> <li><a href="#v1-numba">V1: Numba</a></li> <li><a href="#v2-multithreading">V2: Multithreading</a></li> </ul> </li> <li><a href="#gpu-code">GPU code</a> <ul> <li><a href="#v3-a-first-gpu-version">V3: A first GPU version</a></li> <li><a href="#v4-parallel-kernel-invocations">V4: Parallel kernel invocations</a></li> <li><a href="#v5-single-kernel-with-many-blocks">V5: Single kernel with many blocks</a></li> <li><a href="#v6-detailed-profiling-kernel-compute">V6: Detailed profiling: Kernel Compute</a></li> <li><a href="#v7-detailed-profiling-kernel-latency">V7: Detailed profiling: Kernel Latency</a></li> <li><a href="#v8-detailed-profiling-shared-memory-access-pattern">V8: Detailed profiling: Shared Memory Access Pattern</a></li> <li><a href="#v9-more-work-per-thread">V9: More work per thread</a></li> <li><a href="#v10-cache-seq-to-shared-memory">V10: Cache seq to shared memory</a></li> <li><a href="#v11-hashes-and-signs-in-shared-memory">V11: Hashes and signs in shared memory</a></li> <li><a href="#v12-revisiting-blocks-per-kernel">V12: Revisiting blocks per kernel</a></li> <li><a href="#v13-passing-a-tuple-of-sequences">V13: Passing a tuple of sequences</a></li> <li><a href="#v14-better-hardware">V14: Better hardware</a></li> <li><a href="#v15-dynamic-shared-memory">V15: Dynamic shared memory</a></li> </ul> </li> </ul> </li> <li><a href="#wrap-up">Wrap up</a></li> </ul> </div>  <p><strong>Xrefs:</strong> <a href="https://www.reddit.com/r/CUDA/comments/mq1yrm/28000x_speedup_with_numbacuda/">r/CUDA</a>, <a href="https://numba.discourse.group/t/blog-28000x-speedup-with-numba-cuda/667">Numba discourse</a></p>