上海AI实验室发布书生大模型“三件套” 涵盖视觉、语言和三维-时代测绘网

资讯

上海AI实验室发布书生大模型“三件套” 涵盖视觉、语言和三维

来源： IT时报

2023-07-08 01:23:04

“生成 ” 一座城市，还可“编辑”

(资料图)

作者／ IT时报记者郝俊慧

编辑／孙妍

屏幕上，中华艺术宫开始各种“妖娆”的旋转：正着转，翻着转，上下错层转……这栋上海著名的地标建筑，呈现出一种不同以往的风姿。

“今天当谈到 AIGC，我们想到的还是一张张照片；未来，AIGC 将可能生成我们心目中的家，心目中的整个城市。”在大模型扎堆的2023年世界人工智能大会（WAIC 2023）上，上海人工智能实验室（上海AI实验室）联合香港中文大学和上海市测绘院发布全球首个城市级NeRF实景三维大模型“书生·天际（LandMark）”（以下简称“书生·天际”）格外引人注目，据上海AI实验室教授林达华介绍，只需少量的倾斜拍摄图像，书生·天际便可实现大规模场景的三维实景建模，并突破性实现了“城市编辑”功能，旋转的中华艺术宫，不同光影中的武康大楼，都在书生·天际中变为现实。

自2021年发布后，“书生”（INTERN）历经数次升级，从国内首个覆盖多种视觉任务的通用大模型，逐步升级为涵括视觉、语言和三维等在内的大模型体系。除书生·天际外，书生还推出了书生·多模态、书生·浦语，并且提供了首个面向大模型研发与应用的全链条开源体系。目前，“书生”在130多个评测中性能达世界领先或先进水平。

“生成”一座城市

书生·天际高性能的内核，是上海 AI 实验室首创的CityNeRF技术。 2021年12月，上海AI实验室提出CityNeRF，将卫星与近景等多种不同高度的影像进行有效融合，早于谷歌将NeRF（Neural Radiance Fields神经辐射场）建模技术从物体级拓展到城市级。

NeRF是一种计算机视觉技术，用于生成高质量的三维重建模型。它利用深度学习技术从多个视角的图像中提取出对象的几何形状和纹理信息，然后使用这些信息生成一个连续的三维辐射场，从而可以在任意角度和距离下呈现出高度逼真的三维模型。

近几年来，NeRF技术的普及为计算机图形学、虚拟现实和增强现实提供了新的可能性，但由于高维神经网络特征中形状和纹理信息的隐性编码，编辑神经场是一项重大挑战。

为实现从NeRF到第二代CityNeRF的技术突破，上海AI实验室创新性提出了“算法+计算系统+算子”全套创新的“解题思路”，在大模型层面提出一种新的实景三维模型表征和训练范式，可以4K级图像精度准确呈现大规模三维城市场景，重构出来的三维实景中，不仅具备包括移除、移动和新建城市建筑等城市布局的调整能力，还可以“上帝视角”调节光照、季节等城市风格，从而使大范围、高精度、可编辑的城市级实景三维大模型变为现实，城市不仅可以“重建”，而且可以“编辑” 。

图像质量方面，书生·天际实现了4K分辨率离线渲染，同时首次实现城市级NeRF的100平方公里全范围1K分辨率、30帧实时渲染。书生·天际利用少量的倾斜拍摄图像，便可实现大规模场景的三维实景建模，建模范围理论上具有无限可扩展性。与传统建模方式相比，书生·天际效率显著提升，有望为城市数字孪生节约可观的人力和资源。

书生·天际实现4K分辨率离线渲染、1K分辨率实时渲染

未来，书生·天际还将继续进化，建模范围和功能进一步扩展，人工智能实验室也将对书生·天际的算法、算子和系统全部进行开源。

让AI更理解现实世界

如同人类是通过多种信息认识世界，让AI模型认知和理解现实世界，也需要突破单一模态，融合视觉、语言、语音等多种模态信息。此次书生还发布了书生·多模态、书生·浦语两个大模型，可通过自然语言定义各种任务。

书生多模态模型（InternLMM，Intern Large Multimodal Model）包含200亿参数，使用80亿多模态样本训练，支持多模态生成和跨模态交互，并支持350万语义标签的识别和理解，覆盖开放世界常见的类别和概念。

书生·浦语（InternLM）是国内首个正式发布的支持8K语境长度的千亿参数级语言大模型，具有1040 亿参数，是在包含18000 亿 token 的高质量语料上训练而成。

“书生”根据张大千的《湖山清夏图》创作的七言绝句

8K语境长度，意味着书生·浦语可以理解更长的输入内容，并展开复杂推理，并进行长时间多轮对话。目前书生·浦语支持二十多种语言，还可通过表格和图表等方式汇总与呈现复杂信息。

在语言大模型以往不擅长的“数学”方面，书生·浦语的数理逻辑能力明显进步，大幅提高了数值计算、函数运算、方程求解等数理能力，在数学评测集 GSM8K 上性能从 62.9 提高到 73.2，在2023年高考数学选择题上，正确率提升超过70%。

在全面升级的同时，书生·浦语也正式开源了一个70 亿参数的轻量级版本InternLM-7B，以及贯穿数据、预训练、微调、部署和评测五大环节的全链条工具体系。

在数据环节，通过OpenDataLab开放了包含30多种模态的5500公开数据集，其中在自然语言方面开放了超过10000亿token的高质量语料。

在预训练环节，开源了面向轻量级语言大模型的训练框架 InternLM-Train，支持从8卡到1024卡并行训练，提出了Hybrid-Zero独特技术，性能领先行业水平。