Epoch AI评测:DeepSeek-R1-0528科学题表现提升至76% 5月31日 willai 取消关注 关注 私信 斯坦福华人研究者近日在CRFM官网发布博文,展示了他们用纯CUDA-C手写的高性能AI生成内核,无需依赖CUTLASS或Triton等库,在多个测试中性能甚至超过PyTorch官方专家优化内核。该项目原本用于生成训练更优内核模型的合成数据,结果测试用内核本身意外表现出极高性能,激发团队提前发布成果。尽管方法设计简单,仍展现出强大潜力,挑战了此前关于高效内核开发的传统认知。