低成本、上线快、易调试,可在特定任务上反超通用大模型
轻量化小模型兴起,中小企业也能搭上AI“快车”
阅读提示
人工智能技术的迅猛进步与更新换代,促使部分企业转向对小规模模型的投入。相较于成本高昂、部署缓慢、调试复杂的大规模模型,这些小规模模型以其低廉的成本、迅速的部署速度以及便捷的调试特性,为中小企业及个人用户打开了通往人工智能世界的大门。
在最近两年,人工智能技术实现了迅猛的发展和更新迭代,大量的大语言模型如同春雨后的竹笋一般迅速出现。这些模型涵盖了文本生成、文生图、语音识别、代码生成以及视频处理等多种生成式人工智能功能,逐渐融入了我们的日常生活。与此同时,众多企业也纷纷投入力量,致力于研发能够在电脑和手机上轻松训练的轻量级小型模型。
我们依赖高速铁路、航空器、豪华游轮等规模庞大的出行工具,同时也需要私家车、公共汽车,还有摩托车、自行车等小型出行工具。这是因为,面对不同的场合和不同的人群,他们的出行需求各不相同。在青岛自然语义公司的联合创始人兼首席架构师孙燕群眼中,针对特定市场的需求得到满足,正是那些专业而精巧的小型模型得以兴起并具有其存在意义的关键所在。
今年三月,自然语义研究团队开发的Euler模型已成功获得中央网信办的生成式人工智能服务备案。与那些动辄拥有千亿参数的大规模模型不同,Euler的参数规模仅为2.5亿(即25亿),属于轻量级的小型模型。那么,小模型相较于大模型有哪些显著特点?它们的应用前景又是怎样的呢?针对这些问题,记者进行了深入采访。
低成本、易调试的端侧小模型兴起
对于小规模模型,尚无明确的界定标准。孙燕群指出,在业界,通常将参数量小于100亿的模型视为小型模型。而在实际应用层面,若要在笔记本电脑上完成模型的微调,其参数量通常维持在3亿左右。
相较于大型模型,小型模型在计算资源消耗和运营成本上展现出明显优势。首先,在训练和执行过程中,所需硬件资源相对较少,从而降低了成本;其次,其使用更加方便,能够在手机、电脑、物联网设备等多种计算环境中实现实时操作;再者,模型结构相对简单,便于开发者迅速找到问题所在,便于调试。
记者发现,在大模型竞赛愈发激烈的趋势下,部分企业转而投资于小型模型。2024年8月,微软与英伟达先后推出了各自的微型语言模型。与此同时,国内众多企业亦着手研发能够在无网络或网络环境不佳的情况下,赋予智能设备独立思考能力的边缘小模型。在今年3月举行的中关村论坛年会期间,北京的一家名为面壁智能的公司推出了专为汽车智能座舱设计的纯端侧超级智能助手。而在今年1月,广东佛山的移动公司联合了包括40家在内的多家单位,共同创建了佛山市AI小模型产业联合体。该联合体的目标是利用人工智能小模型来提供定制化的服务,并帮助企业实现智能化转型。
孙燕群在提及小模型的应用领域时,举例说明了其具体应用场景,他指出,Euler模型在完成备案程序后,已开始为中小企业及个人用户提供服务。例如,它与山东某市级档案馆建立了合作关系,成功推出了档案管理模型;同时永川行政服务中心,还与青岛的一家仪器仪表设备企业携手,共同开发了涉及内网技术的模型。
退而求其次后的“主动作为”
从客观角度分析,大型模型相较于小型模型,其性能更为卓越。以一个参数量达到2.5亿的模型为例,其性能无论如何都无法超越一个参数量高达200亿的模型所具备的计算能力。孙燕群直言不讳地指出,这也是众多大型企业纷纷投入千亿级模型研发的原因所在。当模型规模较小,其神经网络中的参数数量也会相应减少,导致所能容纳的知识量不足。这在文本生成领域尤为明显,常常会出现上下文不连贯的问题。
自然语义研究的初始宗旨并非局限于小型模型。在2019年的年末,这家公司曾考虑着手研发大型模型,然而由于未来发展方向尚不明确,再加上在购置高性能GPU时遭遇了资金及货源的双重压力,导致最终未能付诸实践。
孙燕群回忆道,令人惊讶的是,仅仅两年光景,国外便推出了大型模型。随后,随着众多大型企业纷纷加入这场大模型竞赛,作为核心硬件的高性能GPU价格节节攀升。那时,只要听说哪里有GPU,我们便会立刻乘坐飞机前往购买,即便提前支付了定金,也常常难以确保能购得所需。最终,公司通过组装超过10台设备,形成了一个强大的算力集群,足以支撑构建出拥有7B参数规模的模型。
为了在现有设备上最大限度地提升参数表现,自然语义公司的工程师们通过头脑风暴,提出了创新的分词策略,并将向量计算从实数域迁移至复数域等多种策略。“经过模型训练,这些创新技术均取得了显著的成效,使得一个3B参数的模型,其性能相当于150B参数模型的大约60%。”孙燕群这样说道。
中国信息通信研究院人工智能研究所的副总工程师王蕴韬在接受记者采访时表示,这些小型模型在经过“瘦身”处理之后,依然能够维持较高的性能水平,这主要归功于一系列已经成熟的模型压缩技术和高效的网络架构设计。这些技术涵盖了剪枝、量化、知识蒸馏等多个方面,以及构建先天就高效的网络架构。
让“小身材”跑出“大能量”
王蕴韬认为,小模型的发展前景广阔,未来针对特定应用场景的小模型,其潜力有望得到更进一步的挖掘。以人工智能终端为主的应用形态和产品服务,将构成小模型发挥强大功能的主要领域。
王蕴韬对小型模型的应用前景进行了详细阐述,他指出,首先,它为离线办公、文档摘要、私密对话等场景提供了便利;其次,随着处理器架构和神经处理单元技术的进步,手机、车载以及物联网设备将成为小型模型的理想应用平台;再者,在金融、医疗、法律、教育等垂直领域,“专精特新”行业已经出现了参数不超过6B的定制模型,这些模型成本较低、部署迅速,能够在特定任务上超越通用大模型。
王蕴韬指出,市场关注的焦点在于能否切实解决问题,对模型背后的技术细节并不感兴趣。同时,产品若能与具体场景深度融合,具备行业专业知识,尤其是那些可信度高的小型模型,其重要性尤为突出。
从用户角度观察,小模型在实际运用中展现出较高的性价比。北京一家互联网公司的算法工程师张先生在接受记者采访时指出,在当前技术环境下,要在本地部署大型模型面临不少挑战。“高性能GPU芯片的成本高昂,难以在低成本终端设备上应用,例如手机、机器人等设备所使用的芯片就无法支持大型模型的运行。”此外,这些设备所搭载的电源,通常难以满足高性能处理器的高能耗需求。”张先生指出,性能受限的这类硬件,更适宜用于运行小型模型。
王蕴韬在分析中提出,未来将采用大小模型相结合的系统模式。云端的大模型将负责通用推理任务,而端侧的小模型则负责即时响应和私域数据的处理。此外,他特别指出,小模型并非是大模型的简化版本,它们实际上是针对资源有限的环境和特定任务的高效经济解决方案。借助端云结合的部署模式以及针对行业数据的精准调整,企业能够使体型小巧的项目发挥出巨大的效能,从而在人工智能商业应用的后续阶段确保获得稳定的收益。(工人日报 记者陶稳)