科研速递 | 理工学院王方鑫教授团队在网络领域顶会ACM SIGCOMM上发表文章
近日,香港中文大学(深圳)理工学院/未来智联网络研究院王方鑫教授团队在计算机网络领域最顶级会议之一的ACM SIGCOMM上发表题为“NetLLM: Adapting Large Language Models for Networking”的文章。
会议介绍
SIGCOMM是ACM组织在通信网络领域历史最为悠久也最为权威的学术会议之一,审稿质量极其严格,旨在引领计算机网络通信领域未来的研究方向,是CSRankings计算机网络方向唯二收录的顶会之一,被中国计算机学会(CCF)推荐为A类国际学术会议。ACM SIGCOMM 2024共投稿366篇,其中62篇被接受,录稿率仅为16.9%。
研究背景
随着深度学习(DL)的快速发展,如今许多网络任务(例如带宽预测、码率自适应传输等)都采用DL技术来解决复杂的系统预测与优化问题。然而,当前DL算法的设计理念存在两大局限性:一是需要为不同的网络任务人工构建深度神经网络(DNN),导致工程开销增大;二是DNN在泛化能力上的不足,使其在遭遇未知数据分布或环境时,难以保持最佳性能。因此,探寻一种更为灵活、可扩展的算法设计理念,对于推动DL技术在网络领域的广泛应用与持续发展显得尤为迫切。
研究方法
图1 NetLLM架构图
受到大型语言模型(LLM)的启发,作者首次研究了LLM在网络领域的垂直化应用,以探索一种更加灵活可扩展的网络算法设计理念。LLM凭借海量的预训练知识和强大的推理能力,有望成为网络领域的基座模型,实现“一个模型完成所有任务”,减少模型设计开销同时增强泛化性能。为此,作者提出了NetLLM框架,实现LLM向网络领域的迁移与适配。图1展示了NetLLM的架构,其主要包含三个核心模块,以解决不同的挑战。
- Multimodal encoder:网络任务存在各式各样的模态数据,无法直接作为LLM的输入进行有效处理。为此,作者在NetLLM当中设计了multimodal encoder模块。该模块首先使用处理特定模态的特征提取器,从原始输入信息当中提取出有用特征,再借助可训练的线性层,将提取出的特征映射到token空间,使得LLM能够对输入信息进行有效处理。
- Networking head:LLM基于单词(token)预测的答案生成机制容易引发幻觉效应,导致产生无效答案而降低可靠性。此外,由于LLM往往需要多轮预测才能产生一个答案,这也导致了过高的推理延迟。为解决这一挑战。作者设计了不同的networking head以取代了LLM原始的输出层。每个networking head本质上是一个与网络任务相关的轻量级线性映射器,允许LLM在单轮预测就能产生有效答案,从而确保了LLM在网络领域的可靠性,同时降低了推理延迟。
- Data-driven low-rank networking adaptation (DD-LRNA):为实现LLM向网络领域的适配,需要对LLM进行微调,以获取相应的领域知识来解决网络任务。为了降低微调LLM所带来的高昂开销,作者设计了DD-LRNA机制,其基于离线强化学习(Offline RL)技术对LLM进行微调,减少了大量的训练时间,同时采用高效参数微调(PEFT)技术,将参数更新局限在一小部分可训练参数,从而进一步降低微调的开销。
图2 NetLLM与不同任务领域的SOTA方法的性能对比
为验证NetLLM的有效性,作者选取了三个与网络领域紧密相关的任务:视角预测(VP)、码率自适应传输(ABR)与集群作业调度(CJS)。作者以Llama2-7B为基座模型,基于NetLLM对Llama2-7B进行领域迁移,适配到上述三个网络任务,并与相应任务领域的SOTA方法进行性能对比。主要实验结果如图2所示。可以看到,NetLLM在所有任务上的性能持续超越了所有的方法,在VP、ABR、CJS任务上带来的平均性能提升分别达到10.1-36.6%、14.5-36.6%、6.8-41.3%。这些结果不仅表明NetLLM在LLM网络领域适配上的有效性,同时也展示了在NetLLM的支持下,LLM确实可以作为基座模型高效地完成各种网络任务。
图3 NetLLM与不同任务领域的SOTA方法的泛化性能对比(部分结果)
图3进一步比较了NetLLM与其他方法在面临未知数据分布或环境时的泛化性能表现。可以看到,NetLLM在所有任务上的性能依旧超越所有SOTA方法。这意味着在NetLLM的支持下,LLM相较传统方法确实展现出更强大的泛化能力。
图4 选用不同LLM作为基座模型时,NetLLM 在VP、ABR任务上的性能表现
先前实验均以Llama2作为LLM基座模型。为进一步探究NetLLM是否可以用于不同的LLM,作者以VP、ABR任务为例,额外选取OPT-7B、Mistral-7B、LLaVA-7B作为基座模型,将其性能与SOTA方法进行对比。如图4所示,无论采用哪种LLM作为基座,NetLLM的性能均能够超越SOTA。这一结果充分表明,NetLLM的有效性并不局限于特定的LLM,而是具有广泛的适用性。
研究结论
作者首次探索了利用LLM作为基座模型解决不同的网络任务,从而减少网络算法设计的开销并进一步提高性能表现。为此,作者提出了NetLLM,是首个实现LLM网络领域适配的框架。通过三个典型的网络任务作为案例,作者展示了NetLLM在LLM网络领域适配的有效性,并揭示了LLM在网络领域的巨大潜力。
作者简介
本文第一作者为吴铎,香港中文大学(深圳)理工学院2022级硕士研究生,本科毕业于暨南大学。研究兴趣主要聚焦于计算机网络、深度学习和大语言模型相关领域。目前以第一作者在JCR-Q1/CCF-A类核心期刊和会议上发表了多篇论文。
本文第二作者为王贤达,香港中文大学(深圳)理工学院2023级硕士研究生。目前主要从事大模型微调,模型融合,边缘计算,联邦学习等领域相关研究。
本文第三作者为乔雅琦,香港中文大学(深圳)2021级本科生。目前研究方向主要为大模型的网络应用、边缘计算和联邦学习。
本文通讯作者王方鑫博士现为香港中文大学(深圳)理工学院助理教授、博士生导师。他分别于北京邮电大学、清华大学、加拿大Simon Fraser University获得学士、硕士、博士学位,随后于加拿大 University of British Columbia从事博士后研究。他的研究兴趣包括多媒体网络与系统、云边端协同计算、深度学习、大模型与边缘智能等。他在IEEE INFOCOM、ACM Multimedia、IEEE VR、IEEE/ACM Transactions on Networking、IEEE Transaction on Mobile Computing、IEEE Internet of Things Journal、IEEE Transactions on Networking Science and Engineering等国际顶级期刊会议上发表论文50余篇,近5年来论文总引用数次数超1100余次。他担任JCR一区期刊Transactions on Mobile Computing编委,IEEE Satellite 2023大会程序委员会主席,以及多个学术会议的技术委员会委员、分会主席。他入选中国科协“青年托举人才”计划,入选斯坦福大学世界前2%科学家榜单。
本文合作作者崔曙光教授,加拿大皇家科学院、加拿大工程院双院院士,全球高被引学者,IEEE Fellow,国家重点研发计划首席科学家,深圳市杰出人才培养计划首批入选人,深圳市决策咨询委员会成员。崔教授于2005年在美国斯坦福大学获得博士学位,先后在UC Davis等多所美国大学任教至讲座教授。2018年回国后曾担任香港中文大学(深圳)杰出校长讲座教授、理工学院执行院长、未来智联网络研究院院长、港中大(深圳)-京东集团人工智能联合实验室主任,广东省未来智联网络重点实验室主任。崔教授当前的科研成果主要集中在通信网络与AI技术的深度融合。他已在国际一流期刊和会议上发表了近400篇论文,曾担任多个IEEE国际会议的主席和程序委员会主席,IEEE旗舰期刊的编委和领域主编及指导委员会成员、主席,IEEE无线技术委员会的主席。他在2012年获得IEEE信号处理协会最佳论文奖,2013年当选IEEE Fellow,2014年入选IEEE通信协会杰出讲师、汤森路透全球高被引科学家名单、ScienceWatch全球最具影响力科学家名单。崔教授在2020至2022年还获得IEEE ICC最佳论文奖,IEEE ICIP最佳论文列表,IEEE GLOBECOM最佳论文奖,中国ICT创新应用奖,IEEE WCNC最佳论文奖,CCF Chinagraph首个图形开源数据集奖,中国电子学会自然科学一等奖,中国通信学会技术发明一等奖。在2023年,崔教授获得IEEE马可尼最佳论文奖,并当选新一届IEEE Transactions on Mobile Computing(CCF-A核心期刊)主编,是中国大陆工作的学者首次担任。