手术机器人中的ChatGPT—— 基于生成式AI（Transformer）的无影像配准技术

Ailiaili6789112个月前

公众号：Ailiaili | AI软件网
Ai项目交流群，Ai账号交易充值，Ai软件分享,Ai网站导航,Ai工具大全等
复制公众号

今年2月，国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会，会议强调，中央企业要把发展人工智能放在全局工作中统筹谋划，深入推进产业焕新，加快布局和发展智能产业。10家中央企业签订倡议书，表示将主动向社会开放人工智能应用场景。2023年9月25日，工信部召开会议表示，要大力推动数字技术与实体经济深度融合，深入实施智能制造工程和中小企业数字化赋能专项行动，推动人工智能创新应用。国家发改委也拟支持开展通用人工智能大模型和垂直领域人工智能大模型训练。

在此之前，三大运营商也纷纷发力AI算力建设。中国电信上海公司已在上海建成全国规模最大的运营商级智算中心“大规模算力集群暨人工智能公共算力服务平台”，为上海市人工智能企业提供一站式服务。中国联通于今年1月成立人工智能创新中心，加快布局人工智能新兴产业。中国移动将智算建设融入算力网络“4+N+31+X”体系，积极布局智算能力，构建了“N+X”智算中心布局，并加快建设智算信息基础设施和全栈智能信息服务体系。

国家部委和各类企业频繁落子人工智能，抢抓大模型机遇，围绕人工智能大模型等加快创新步伐，开展大模型创新算法及关键技术研究，加快智能算力基础设施建设，推动通用人工智能技术创新场景应用。本文就以手术机器人的无影像配准技术为例，介绍生成式AI在医疗领域中的应用。

1.ChatGPT的基本原理

生成式AI是指一类人工智能系统，它可以通过学习现有的数据并生成新的数据，从而实现类似人类创造力的功能。在自然语言处理领域中，根据关键词生成新的文章对话；在计算机视觉领域中，根据几个点生成逼真的图像；在音频领域中，根据几段声音生成高质量的语音和音乐。在原理上，ChatGPT使用了一种叫做Transformer的技术，它主要由编码器（Encoder)，隐空间代码（latent space), 解码器（decoder）三部分组成。隐空间代码可以理解为数据的意义，编码器根据输入数据，推断数据的意义，解码器根据隐空间代码生成数据。

ChatGPT中的编码器输入是一个序列化的信息，我们称之为Token。Token可以是任何东西，比如一本小说中的一个单词或者一部电影中的一帧画面。ChatGPT的突出优点是对超长序列的支持，源于其编码器中集成了一种注意力与位置编码机制，帮助编码器理解上下文，形成长期的记忆。比如当把一本小说放入ChatGPT后，在读最后大结局的时候，ChatGPT依然记得故事的起因，或是看到电影字幕主角的名字时，依然回忆起主角的第一段表演。解码器可以生成的数据是不限形式的，生成的数据可以是文字、图片或是三维模型，这种通用性使得它有几乎无限多的可能。

根据要求写一段话，是文字到文字的编解码。例如输入文字“城市发展的核心动力是什么？”会生成一段对话，如下图所示：

根据一段描述生成一张图片，是文字到图像的编解码。例如输入文字“A cardiac surgical robot with artificial intelligence”（具有人工智能的心脏手术机器人）会生成一张图像，如下图所示：

而针对手术中的应用需要开发另一种编解码器，基于手术中探针的姿态和序列，推断出病人器官的三维模型，即无影像配准技术。拥有无影像配准技术的手术机器人，可以大大提高手术的效率，节省术前拍摄CT的费用和时间。

2.无影像配准技术

2.1 无影像配准技术的意义

使用传统的骨科手术机器人在进行手术之前需要先拍摄CT影像，再花费一周左右的时间进行数据转化和数据导入，然后才能进行手术。基于生成式AI的无影像配准技术可以免去在术前拍摄CT的要求，而是在手术中利用点云实时构建骨骼模型，确定植入物位置，不仅能够有效提高临床手术效率，而且对于没有CT机的基层医院，也能利用无影像配准技术开展骨科手术，从而提高骨科手术的普及率。更重要的是在高难度的翻修手术中，由于骨盆破碎等不可控因素，使术前影像和术中实际情况的误差较大，无影像配准技术可以辅助医生实时构建骨骼模型，提高手术操作的精准度，进而提高手术治疗效果。

2.2 基于生成式AI的无影像配准技术

基于生成式AI的无影像配准技术，可以根据少量定位点（至少约100个定位点），构建出真实的三维模型（约100万个数据点），节省大量测算和规划的时间，提高临床效率。在骨科手术当中，术中实时利用点云定位构建骨骼和软骨的模型，术前无需拍摄CT，从而提高手术效率和精准度。

如视频所示，通过点云技术在术中用少量定位点与标准骨骼模型进行拟合，实时精准构建真实骨骼模型，采集的标志点越多，构造的模型便越准确。

2.3无影像配准技术的AI原理

在无影像重建技术中，Transformer的每一部分都有其特殊的临床意义。

编码器（Encoder）的作用近似于诊断，根据采样点的信息推断出患者性别、年龄、身高、疾病的种类与程度等信息；解码（Decoder）的注意力系统可以理解为人工智能在猜测探针采样点的解剖学位置，根据这些信息将骨头的形状重建出来。隐空间（Latent space）即是数据真实的结构，先把大量的数据压缩到很小的隐空间，再从隐空间将模型恢复出来，解码的过程是根据低维数据还原高维的观测数据。

编解码过程是所有机器学习过程的工作原理，但Transformer的不同在于注意力机制，在本例中它能将不同的点联合起来，可以从杂乱无章的点云数据中注意到几个重要的点（即关键的解剖位置），这些点对于诊断来说是更重要的信息。

无影像标定的工作流程，即是根据采样点的序列，首先估算出病人的疾病与变形程度，然后再根据患者的病情构建出其解剖模型。

在医疗领域除了基于生成式AI的无影像配准，还可以利用生成式AI识别医学影像从而发现和诊断疾病，或者对手术方案进行规划，在手术进行中实时导航，以此降低手术操作难度和风险，让更多人享受到安全、高效、可及的医疗服务。除此之外，生成式AI在金融、教育、工业、环境保护、社会治理、网络安全等各行各业都有广阔的应用前景。随着技术的不断进步和应用场景的不断深化，生成式AI将会在更多领域得到应用和发展。

下一步要抢抓大模型发展机遇，多方布局通用人工智能发展战略，积极推动前沿技术研发、产业生态构建和应用场景拓展，深度融合实体经济与数字经济，赋能产业升级与社会治理现代化，致力于打造具有国际竞争力的人工智能产业集群，同时加强伦理规范和法律法规建设，确保人工智能技术健康、安全、可持续发展，努力实现人机协同发展，让科技创新真正造福人类社会。

供稿：刘芳德刘悦

编辑：姜晓航

审核：李飞孟

投稿邮箱：urbanchina@vip.126.com

免责声明：文章旨在传递更多信息及用于知识推广、网络分享，不具有任何商业目的。如有论文、图片版权异议及其他任何问题，请权利人通过后台留言及时告知，我们会妥善处理。

推荐阅读：