世界聚焦：中科院自动化所打造“紫东太初”全模态大模型

中新网北京5月6日电 (记者孙自法)中国科学院自动化研究所(中科院自动化所)6日发布消息说，该所以其多模态大模型“紫东太初”1.0为基础，目前正在和武汉人工智能研究院联合打造全模态大模型“紫东太初”2.0，可实现文本、图片、语音、视频、3D点云、传感信号等不同模态的统一表征和学习，助推从感知世界到认知世界的通用人工智能时代加速到来。

以多模态技术探索通用人工智能

(资料图)

在当天下午举行的华为昇腾AI(人工智能)开发者峰会上，中科院自动化所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥研究员应邀作主旨演讲介绍说，中科院自动化所2019年开始在语音、文本、图像等单模态大模型研究和应用基础上，瞄准多模态大模型领域联合攻关，2021年7月正式发布全球首个千亿参数多模态大模型“紫东太初”，以多模态技术探索通用人工智能发展道路。

有别于以文本为主的大部分语言大模型，“紫东太初”在研发之初即坚持以多模态技术为核心，利用图-音-文等更多类型数据进行跨模态的统一表征和学习，实现图像、文本、语音三模态数据间的“统一表示”与“相互生成”，使人工智能大模型的理解和生成能力更加接近人类，为贯通多模态人工智能行业应用提供创新基础，向通用人工智能迈出关键一步。

王金桥指出，在“紫东太初”1.0应用推广过程中，除需要处理海量语音、图像和文本等互联网信息外，更需要处理多种传感器、3D点云及视频等物联网海量数据，才能满足现实生产力的提高。针对数字物联时代的新需求与新趋势，中科院自动化所研究探索全模态大模型体系架构和基础算法，持续推动“紫东太初”技术和应用发展。在文本、图片、音频、视频的基础上，“紫东太初”2.0可融入3D、视频、传感信号等更多模态数据，并优化语音、视频和文本的融合认知以及常识计算等功能，进一步突破感知、认知和决策的交互屏障，让人工智能从感知世界进化为认知世界，延伸出更强大的通用能力。

促进国产全栈式基础软硬件发展

王金桥表示，“紫东太初”大模型从立项开始，就以中科院自动化所自研算法为核心，以全栈国产化基础软硬件昇腾AI平台为基础，依托武汉人工智能计算中心算力支持，从而有力促进国产全栈式基础软硬件的发展。

在华为昇腾AI开发者峰会上，“紫东太初”大模型开源了基于昇腾与昇思的3.8B图像-文本-语音多模态模型，并开放“紫东太初”大模型服务平台。

中科院自动化所称，从互联网的图音文多模态走向物联网的全模态，以打造国产化通用人工智能“底座”为目标，该所将持续推进“紫东太初”大模型基础理论、关键技术和应用生态的全链条自主创新，着力以自主可控基础软硬件建立开源开放的多模态产业生态，不懈探索通用人工智能创新路径。

“紫东太初”具有广阔应用潜力

王金桥透露，目前，由中科院自动化牵头打造的多模态人工智能产业联合体已陆续吸纳产学研各界近70家成员单位，围绕多模态大模型技术及应用，“紫东太初”大模型已在手语教学、法律咨询、交通出行、广电、医疗机器人、医学影像判读等数十个行业场景领域，展现出广阔的落地应用潜力。

其中，在法律咨询行业，“紫东太初”大模型仅用0.546秒就可对法律案件进行拆解、提取关键事件，在办公效率方面实现案件分析速度的百倍提升，可有效解决律师整体资源匮乏、服务成本高等问题。

在智慧交通领域，基于“紫东太初”大模型构建的面向公路路网孪生仿真、调度、养护、节能、服务等全周期、全天候、安全安心的数智平台，让道路通行率有效提升30%。

在医疗领域，基于“紫东太初”打造的MicroNeuro颅内微创手术机器人系统已完成国际首例深位颅内活检手术，支持视觉、触觉的跨模态融合，该大模型的升级也将加速优化针对神经外科手术场景的自主理解。