IT之家 2 月 18 日新闻,比年来,当地运转年夜言语模子(LLM)的趋向愈发现显,越来越多的人开端在团体电脑或体系上安排这些模子。IT之家留神到,越南开辟者 Binh Pham 近来实验应用树莓派 Zero(Raspberry Pi Zero)停止了一项翻新试验。他胜利地将这款装备改革为一个小型 USB 驱动器,使其可能在当地运转 LLM,无需任何额定装备。这一名目重要得益于 llama.cpp 跟 llamafile 的支撑,这两者联合了指令集跟一系列轻量级软件包,旨在供给一种离线的轻量级谈天呆板人休会。但是,因为树莓派 Zero 曾经问世八年,其硬件机能无限,因而将 llama.cpp 移植到该装备并非易事。起首,Pham 将装备衔接到 USB 接口,并为其 3D 打印了一个外壳。在处理了硬件成绩后,名目又因树莓派 Zero W 的 512MB 内存限度而变得愈加庞杂。在实验将 llama.cpp 编译到该装备时,Pham 碰到了掉败,此前也无人实验在树莓派 Zero 或 One 上编译该软件。成绩的本源在于树莓派 Zero 的 CPU 采取的是 ARMv6 架构。为了战胜这一阻碍,Pham 不得错误 llama.cpp 的 ARMv8 指令集停止转换,并移除全部基于古代硬件的优化或解释。在胜利修正 llama.cpp 源代码后,Pham 将留神力转向软件的运转跟用户休会的优化。他构建了一个基于文本文件输入的 LLM 实现,这些文本文件作为重要的提醒,而 LLM 则会依据这些提醒天生故事,并以完全的输出文件情势前往。为了测试机能,Pham 设置了 64 个 token 的限度,并对 15M 到 136M 不等的多个模子停止了基准测试。此中,Tiny15M 模子的每个 token 处置速率为 223 毫秒,而较年夜的 Lamini-T5-Flan-77M 模子的每个 token 处置速率为 2.5 秒,SmolLM2-136M 模子的每个 token 处置速率为 2.2 秒。这些 token 处置速率标明,该装备在很多现实利用场景中可能会显得过慢。只管这一名目存在翻新性,但在现实利用中,应用老旧的轻量级硬件运转当地 LLM 并不具有太多适用代价。比拟之下,应用更庞杂的模子,比方在树莓派 5 上运转 Deepseek,可能会是更好的抉择。