onnxruntime

mirror of https://github.com/saymrwulf/onnxruntime.git synced 2026-06-26 03:00:54 +00:00

History

Jiajia Qin 7e0dd9d433 [js/webgpu] Optimize Expand (#22752 ) Use components = 4 if possible. llama3.2-1B becomes 20 tokens/s from 18 tokens/s on my iGPUs.		2024-11-12 12:37:19 -08:00
..
3rd-party	[js/webgpu] Optimize ConvTranspose (#22774 )	2024-11-12 12:37:07 -08:00
argminmax.ts
attention.ts
batch-norm.ts
bias-add.ts
bias-split-gelu.ts
binary-op.ts
common.ts	WebGPU JSEP: Make shader code not depend on input broadcasting patterns (#22536 )	2024-11-08 11:00:51 -08:00
concat.ts
conv-grouped.ts
conv-transpose.ts	[js/webgpu] Optimize ConvTranspose (#22774 )	2024-11-12 12:37:07 -08:00
conv.ts	WebGPU JSEP: Make shader code not depend on input broadcasting patterns (#22536 )	2024-11-08 11:00:51 -08:00
cumsum.ts
depth-to-space.ts
einsum.ts
expand.ts	[js/webgpu] Optimize Expand (#22752 )	2024-11-12 12:37:19 -08:00
fast-gelu.ts
fuse-utils.ts
gather-block-quantized.ts
gather-elements.ts
gather.ts
gemm.ts	[js/webgpu] Optimize Gemm (#22706 )	2024-11-04 15:05:21 -08:00
grid-sample.ts	[js/webgpu] support GridSample operator (#22652 )	2024-11-08 11:02:36 -08:00
group-query-attention.ts
instance-norm.ts
layer-norm.ts
matmul-shaders.ts	WebGPU JSEP: Make shader code not depend on input broadcasting patterns (#22536 )	2024-11-08 11:00:51 -08:00
matmul.ts	WebGPU JSEP: Make shader code not depend on input broadcasting patterns (#22536 )	2024-11-08 11:00:51 -08:00
matmulnbits.ts
multihead-attention.ts
pad.ts
pool.ts
quantize-linear.ts
range.ts
reduce-shared.ts	[js/webgpu] Increase workgroupSize if only one workgroup is dispached (#22709 )	2024-11-05 13:13:52 -08:00
reduce.ts
resize.ts
rotary-embedding.ts
skip-layer-norm.ts
slice.ts
softmax.ts	[js/webgpu] Increase workgroupSize if only one workgroup is dispached (#22709 )	2024-11-05 13:13:52 -08:00
split.ts
tile.ts
transpose.ts
unary-op.ts
where.ts