onecompression-runtime

Python ★ 0 updated 24d ago

Shared int4 inference runtime extracted from OneCompression per-model runtimes (GPTQ/RTN packed-int4 GEMM kernels + generic diffusion loader).

No plain-English explanation yet — one is being written right now. Check back in a minute.