當OpenClaw等開源項目掀起“龍蝦熱”,Ollama下載量飆升時,一個現象引發行業關注:用戶對搭建個人AI助手的需求與現有硬件產品之間存在明顯斷層。Tiiny AI Pocket Lab的眾籌成功,正是抓住了這一市場縫隙——這款售價1399美元起的外接設備,上線5小時即突破百萬美元眾籌額,成為Kickstarter平臺近四年來的現象級產品。
這款設備瞄準的并非普通消費者,而是金融、法律、科研等領域的專業用戶。他們面臨兩難困境:云端API雖便捷,但長期成本高昂且存在數據隱私風險;現有AI PC雖能運行大模型,卻會占用大量內存和算力,影響日常辦公效率;樹莓派等開發板算力不足,NVIDIA Jetson系列價格又過于昂貴。Tiiny AI的解決方案是:不做通用計算,專注100B級別模型的本地推理,通過外接形式為現有設備提供專用算力支持。
技術實現上,該設備采用異構計算架構,將模型參數分為“熱激活”和“冷激活”兩類。核心參數由專為Transformer架構設計的160TOPS dNPU處理,特定領域參數則交給30TOPS的SoC處理。這種設計使設備在120B模型下實現300 tokens/s的預填充速度和20 tokens/s的解碼速度,性能接近高端AI工作站,而功耗僅30W。為解決散熱問題,團隊定制了1.0mm超薄VC均熱板配合雙風扇系統,確保設備在被動散熱條件下表面溫度可控。
產品形態上,Tiiny AI徹底摒棄傳統操作系統,系統架構完全圍繞AI推理優化。用戶只需將設備通過USB-C接口連接電腦,下載客戶端即可一鍵部署主流開源模型。這種“即插即用”的設計大幅降低了使用門檻——無論用戶使用的是Mac、Windows電腦還是自組臺式機,都能快速獲得本地化AI能力。實測顯示,該設備甚至能讓2011年生產的老舊電腦運行120B參數模型。
面對行業質疑,團隊回應稱內存帶寬問題被高估。以GPT-OSS-120B模型為例,每次跨PCIe傳輸的數據量僅5.625KB,遠低于Gen4 x4接口8GB/s的帶寬上限。關于算力宣傳,190TOPS指標雖為理論峰值總和,但實際使用中不同計算單元可并行工作,不會出現算力閑置。對于交付延遲問題,團隊解釋稱量產前需完成FCC、CE等國際認證,預計6月底前可獲得全部合規資質,8月正式發貨。
這款產品的成功,折射出AI硬件市場的新趨勢:當云端方案面臨成本與隱私挑戰時,端側專用設備正成為專業用戶的新選擇。Tiiny AI通過軟件優化彌補硬件短板的做法,為行業提供了新思路——在算力增長放緩的當下,如何通過智能調度實現資源最大化利用,或許比單純堆砌硬件參數更具現實意義。





















