Posts tagged with Kernel-optimization

Published on
October 18, 2025
Benchmarking AI-generated CUDA kernels on an H100
Kernel-Optimization Performance NVIDIA
We extended our kernel generation research to CUDA, benchmarking on an H100 where generated kernels achieve around 1.8X speedups over baseline PyTorch (including torch.compile).
Published on
August 26, 2025
Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels
Kernel-Optimization Performance Apple-Silicon
Our lab investigated whether frontier models can write optimized GPU kernels for Apple devices to speed up inference. We found that they can: our AI-generated Metal kernels were 1.24x faster across KernelBench v0.1 problems, and 1.87x faster across KernelBench v0 problems.

Benchmarking AI-generated CUDA kernels on an H100