数据科学与智能计算科教平台Recherche
RESEARCH

    坚持“科教融合,打造综合性国家科学中心,建设世界一流大学”的总体思路,建设数据科学与智能计算科教平台。主要包括三部分基础设施:

    1.“智能算力及基础网络底座”,主要围绕院校智能机房和基础网络建设,为数据科学与智能计算科教平台提供物理机房和网络环境基础,建设院校科学性、先进性的大数据、大模型的算力中心。

    2.“人工智能算力与教学辅助中心”,定位为院校教育和科研提供云计算中心,构建统一的算力调度平台,实现算力资源的统一管理和分配,提高算力资源的利用效率,同时既可面向学生、教师提供充沛的应用计算资源,也能辅助提供优质教育资源和管理信息,又可面向相关管理部门提供教育多维度数据挖掘和分析等服务。

    3.“大数据基础科教云平台”、“智能计算实验与应用公共基础平台”、“物联感知综合教学平台”和“数据科学教研支撑平台”,是结合国内外先进的数据治理标准体系,物联感知应用体系和AI开放生态体系,以相关教学业务数据为基础,遵循国家行业标准,为院校提供面向教学和科研的实操应用系统平台。

    国内首个大规模国产化科教智算集群总体建设规模可达200P,集合管理、存储、计算、网络为一体,支持模型、算法、数据集的统一管理,实现“一云多芯”技术,打破传统计算平台的局限性;为整个集群子系统内和子系统间提供互联互通,支持远程算力动态调用,算力储备不少于1000PFlops;可以把国产化GPU与主流的英伟达等GPU卡做异构纳管,共同组网,支持在同一张网内统一调度管理,使用更方便灵活;支持大数据、人工智能科学计算,支持高性能数据科学处理、多模型维度分析、低代码开发、科学数据解析、大模型预训练、元宇宙数字孪生等应用方向教学科研支撑。

    五、亮点成果

    (1) 小航AI助手

    “小航”是北航打造的全国产软硬一体的多模态人工智能专属大模型。得益于“多层知识投影”的基础理论与工程实践,小航比现有通用大模型具备更加强大的逻辑推理能力、多模态处理能力以及意图感知能力。结合私域数据的安全计算技术,小航能够隐私化地将本地数据训练成为垂直领域专家,为工程设计、系统开发、流程优化提供工具以及决策支持层面的辅助。目前小航已经在北航师生的教、学、研、管场景中提供全面服务,并正在向物联控制、工业生产、医疗专科等场景进行扩展,打造垂类“小航+”专属大模型,促进领域数字化、智能化转型。

    (2) 异构算力调度平台

    异构算力调度平台立足于建设全国产的智算中心,在算法迁移过程中最为无缝衔接为师生提供科研和教学上的智能算力支撑。该智算中心技术领先、自主可控,具备远程弹性算力调度能力。算力建设规模超过百台千卡,将覆盖物理、化学、力学、电子、计算机、航空航天等众多学科领域,为高性能计算师生用户提供优质的计算支撑环境,为科研和教学注入新动能,支撑全校师生开拓创新。

    (3) 零拷贝计算体系

    实现了基于可降解区块链的多进程共识计算,在计算体系结构上实现分布式链网上的软件定义的“冯诺依曼体系”,将涉及多方数据的异步分布式计算能够以“单机”的控制逻辑进行内核级调用,实现基于算法路由的“多进程总线”,同时隐藏数据分布情况与计算调度。实现多进程程序设计语言,使应用程序能够将任意链上节点定义为计算资源(处理器、内存或硬盘)进行开发,使分布式应用的表达单进程化,大幅提升规模化多方协同应用的开发效率,并在程序设计语言级别提供可证明数据与计算安全。零拷贝计算体系已经广泛应用于雄安数字身份、国家医学与临床研究中心、跨境贸易、工业互联网平台等。

    (4) 数据活化

    “数据活化”(Data Vitalization)的概念和方法是2010年本团队在国际上率先提出。通过数据的实体互联、规律认知、高效利用,赋予数据“生命”,激活数据价值。经过十年攻关,以智慧城市为应用场景,通过解决数据流通中分布式安全计算、数字资源标准化分解、组件智能调度与按需组装等问题,构建了数据活化创新技术体系,研制了数智资源超市,使数据可生长、应用可进化、资源可交易,开拓了面向智慧城市应用的数字资源产业链。数智资源平台已经广泛的应用于北京、上海、杭州等城市,推动了数字经济发展,形成了新质生产力。

    (5) 时空大模型

    时空大模型是基于超大规模动态图神经网络技术构建的人工智能预训练模型,首次提出从人员时空位置表征到行为语义辨识的整体性新框架,并利用通信基站数据精准捕捉人群出行规律,揭示“人-时间-空间”动态关系。该模型由数据平台、学习平台、应用平台构成,具有覆盖面广、表征精细、场景多样等优势。其训练参数量达十亿级,能实现7*24小时不间断数据采集,涵盖公交、地铁等十余类全链路综合出行分析推理场景。通过赋能九天川流出行大模型,该模型已经广泛应用于交通、文旅、商贸等领域。

    (6) 器官大模型

    医疗人工智能面临效率低下和泛化性差的挑战,这些问题阻碍其在临床医疗领域的实际应用。面向心脏、脑、结直肠等器官研制知识探索驱动的器官大模型,设计多重特征提取器,获取位置、语义、时序、频域等多重敏感特征;引入知识驱动的训练策略,通过不同的提示模式完成动态的任务训练;解决相关下游任务如风湿性心脏病的识别和准确测量、二尖瓣钙化程度评估、肿瘤引流区域淋巴结的评估、结直肠分界最佳标志的确定以及新辅助放化疗效果等的评价等。相关成果已经在安贞医院、北医三院等三甲医院开展应用验证。

    (7) 光场光谱图像处理

    平台开展光谱光场图像处理研究,突破传统光场成像光线感知能力有限的难题,以及传统光谱成像缺乏结构信息的挑战,将光场与实际应用紧密结合,研发了十亿像素光谱光场相机阵列成像系统,建立了包括光谱光场数据采集与重建、非朗伯表面深度提取、低能见度环境场景感知、光场语义分割等在内的特色研究方向,并致力于进一步挖掘光谱光场在现实场景中的未来应用。形成的光场超远距离测距及目标识别技术在杭州西湖新型智慧画舫得到应用,在目标检测跟踪、浓雾穿透感知、水面反射去除等方面表现优异,受到广泛好评。

    (8) 智能交通

    智能交通面向城域出行需求感知与解析、城市交通组织优化、城际交通运输网络管理等多个研究方向和应用领域,基于千万级群体的多源海量出行大数据,通过解析和检测不同人群的出行需求和行为特征,构建城域级人员全过程活动谱、城际间人车物流动分析模型,相关技术被应用于交通出行服务、城市公交路网优化、全国高速路ETC联网与全国路网监测、交通行政非现场执法等应用场景。

    (9) 一码通用

    面向多码不兼容、数据不互信等难题,团队牵头制定标准统一服务规范,牵头编制一体化政务服务码国家标准《信息技术 政务服务码 参考模型》、《信息技术 政务服务码 码系统接口要求》等国家标准,为地方部门政务服务码建设提供统一标准,支撑国家“一码通用”政务服务码试点工作;研制码引擎推动数据互通互认,依托国家政务服务平台联通各地区政务服务码系统,实现跨地区跨部门的地方政务服务码路由转发和跨省互通互认,提升城市管理和便民服务水平,支持区域“一网通办”。相关工作在新华社《数字政府观察》专刊发表。

    (10) 教育垂直领域模型

    教育垂直领域模型是基于布鲁姆认知过程构建的“知识图谱+能力图谱+素质图谱”深度融合的大语言模型。它从学生学习的完整轨迹入手,在认知诊断理论的指导下将深度知识追踪模型与认知迁移矩阵相结合,挖掘课程中“知识点-能力点-素质点”的因果关系,借助大模型的涌现能力感知学生的学习达成。目前模型建立了面向全科的动态知识库,提供作业智能评阅、薄弱知识诊断、学习能力评价、认知规律感知等功能,衍生的智伴助教已在实际教学中应用,赋能北航入选教育部首批“人工智能+高等教育”应用场景典型案例。