·通常,运行GPT-3需要多个数据中心级英伟达A100 GPU,但LLaMA可以在单个强大的消费类GPU上运行。通过一种被称为量化的技术来进行优化、使模型缩小后,LLaMA可以在配备M1芯片的苹果电脑或较小的英伟达消费级GPU上运行。人工智能世界正在以闪电般的速度发展。
经过实验,T-MAC展现出了卓越的性能:在配备了最新高通Snapdragon X Elite芯片组的Surface AI PC 上,3B BitNet-b1.58模型的生成速率可达每秒48个token,2bit 7B llama模型的生成速率可达每秒30个token,4bit 7B llama模型的生成速率可达每秒20个token。