数字生命卡兹克
0.6B 这种小模型到底有啥用?
,
,
看到刘聪NLP的一个关于小模型的观点和内容,我觉得很实战,也非常的受用。所以也分享给大家:
“起因是有个群友想做一个工单意图分类,但是没有资源,问怎么办?
我直接让他ollama cpu部署一个0.6的qwen3模型,类别不多的情况下,应该没有问题,
然后就受到了其他人的灵魂拷问,现在0.6B模型还能干啥,一点🕐️都不智能,根本没法用。
我当时内心太感慨了,BERT刚刚出来0.1B,还在调LSTM和TextCNN的我,像是见到了庞然大物。
时隔几年,0.6B的模型,貌似已经不配出现在大家视野中了。
但事实是怎样的呢?
论智能,0.6B模型是不行的,比如你跟他聊天,你会感觉它有点呆,但在很多工业场景,0.6B还是很实用的,
高并发的搜推场景,很多模块只给你100ms的时间优化,你根本没法用太大的模型,但又想提取一些特征,那么0.6B就是极好的选择。
像7B这种,你咋用,GPU资源直接给你拉爆,更别说更大的模型了。
还有就是一些格式转换、轻量信息抽取的任务,以现在的0.6B模型完全可以胜任,为什么又要上更大的模型呢?
之前实习生用GPT4o提取日志信息,当时被我说了,不光光是信息安全的问题,就是这成本花费,真不值呀,有钱要使在刀刃上~
还有现在的开源模型,都会训练json格式的问题,如果真是一个长期的任务,完全可以收集数据、微调一个模型,0.6b,24G卡绰绰有余了吧,
租个3090,现在微调框架这么多,基本上都是傻瓜操作。
还有就是前几天,英伟达的一篇论文也是蛮火的,《Small Language Models are the Future of Agentic AI》
也就是小的LLM是Agent的未来,感兴趣的可以去看看,核心观点,就是太大的模型做很多内容成本太高,没有必要。