当前位置：首页 > 科技资讯 > 我国科研团队领跑健康AI，DeepDR-LLM：国际首个多模态糖尿病诊疗大模型问世

我国科研团队领跑健康AI，DeepDR-LLM：国际首个多模态糖尿病诊疗大模型问世

发布时间：2024-07-29 02:27:26 作者：001资源网阅读：0次

7月25日消息，上海交通大学医学院附属第六人民医院的贾伟平与李华婷教授团队，联合上海交通大学电院及清华大学、新加坡国立大学的科研队伍，在医学与工程学的交叉领域取得重大突破。他们共同研发了DeepDR-LLM系统，这是全球首个专为糖尿病诊疗设计的视觉-大语言模型多模态集成智能平台。

该研究成果已于2024年7月19日在《Nature Medicine》杂志上发表，论文题为《基于图像的深度学习与语言模型在初级糖尿病护理中的集成应用》，标志着糖尿病治疗与管理进入了一个全新的智能化时代。

据介绍，DeepDR-LLM 系统融合了大语言模型和深度学习技术优势，实现了医学影像诊断与诊疗意见的多模态生成功能，能提供糖尿病视网膜病变辅助诊断结果及个性化糖尿病综合管理意见。

该系统在覆盖亚非欧三大区域七个国家的多中心队列中进行了回顾性验证，以及针对中国基层医疗实际开展了前瞻性真实世界验证，首次向全球提供了面向糖尿病医疗垂直领域的多模态大模型应用成效的高质量循证证据。研究团队表示，研究证明 DeepDR-LLM 系统可有效改善 DR 筛查和基层糖尿病管理水平，为未来全球糖尿病治理提供了革命性的数字解决方案。

既往的 AI 系统研发主要集中在糖尿病的并发症筛查或辅助管理的单一领域。随着全球范围内以 ChatGPT 为代表的生成式人工智能技术的迅猛发展，多模态大模型正不断推动医疗领域的新应用场景和模式的涌现，但这些模型尚不能根据患者的医学影像和具体病情，提供准确且安全的糖尿病综合诊疗建议。

针对当前的技术空白和临床的实际需求，该团队成功研发了全球首个面向糖尿病基层诊疗的视觉-大语言模型多模态集成智能系统 DeepDR-LLM。

其可适配包括 LLaMA 在内的大语言模型，LLM 模块将训练网络层与大语言模型的固有权重参数相融合，突破低算力资源约束下的多模态大模型优化的瓶颈，并进一步基于 37.2 万条基层慢病诊疗和慢病管理数据和知识实现了高效优化训练，使 DeepDR-LLM 系统可基于患者个体的临床信息生成精准糖尿病管理意见。

Luma AI解锁创意循环：Loops功能一键生成文本及图片驱动的流畅循环视频

近日消息，Luma AI，这家植根于旧金山的创新企业，揭晓了其Dream Machine平台的最新功能——“Loops”，进一步增强了该平台的创造力与灵活性，标志着AI技术在创意工具领域内的又一革新应用。

Luma AI解锁创意循环：Loops功能一键生成文本及图片驱动的流畅循环视频

这个新功能允许用户通过文本描述、图片或关键帧创建无缝、连续的视频循环。这意味着，无论是内容创作者还是数字营销人员，都能够轻松制作出无限循环的视频，而不需要担心画面中的明显剪接或过渡。

想象一下，内容创作者和数字营销人员现在可以制作出无限循环的视频，没有可见的剪切或过渡，这样不仅可以吸引观众的注意力，还能大大减少制作时间和成本。Luma AI 在推特上展示了这个功能的精彩示例，像是一个宇宙飞船穿越超空间的画面，还有一只水豚在公园骑自行车，真是看得人眼前一亮!

“Loops”功能操作起来很简答：只需选中一个框，即可从任何文本指令、图像、关键帧创建循环，或将上一个关键帧扩展到循环中。

在 AI 视频创作领域，制作平滑流畅的视频一直是个难题，以前 AI 生成的视频往往在播放超过几秒钟时就显得很突兀，但 “Loops” 功能改变了这一切。用户现在可以创建出持续播放的精彩视频，完全没有任何生硬的过渡。

这个看似小小的功能，实际上打开了巨大的可能性。广告商可以在数字广告牌上制作引人注目的动画，艺术家则可以创作出令人着迷的视频装置。而社交媒体用户更可能会在平台上发布大量完美循环的短视频和表情包。

“Loops” 功能的发布是在 Dream Machine 推出仅一个月后，这款平台迅速受到创作者和 AI 爱好者的欢迎。Dream Machine 的特别之处在于，它让普通用户能够通过简单的文本提示生成高质量、逼真的视频。这意味着，过去需要专业团队才能完成的事情，现在每个人都可以轻松做到，可能会引发一波内容创作的热潮。

当然，快速发展的 AI 生成媒体也带来了关于真实性和潜在滥用的重要。Luma AI 对此也有所回应，强调他们会实施强有力的水印和归属系统，确保透明度。此外，Luma AI 还计划推出 API 和插件，与流行创意软件结合，进一步扩大其影响力。

AI舞蹈革命：MimicMotion解锁无限创意，随心所欲创造舞蹈视频

近日消息，MimicMotion再度成为科技界热议的焦点，他们新推出的“自信姿态引导下的高品质人运动视频生成技术”正引领一场视觉内容创造的革新。

AI舞蹈革命：MimicMotion解锁无限创意，随心所欲创造舞蹈视频

这项技术的精髓在于其独特的图像到视频扩散模型，它巧妙地融合了置信度感知姿势引导，从而显著提高了生成视频的质量。对于视频制作者来说，这不仅仅是一个辅助工具，更是一个让创意表达更加生动、自由的利器。

特别值得一提的是，模型中的手动精炼机制。它专注于细节的打磨，通过对手部进行特别增强的训练，有效减少了手部扭曲的现象，大大提升了视觉的吸引力。对于追求完美细节的视频创作者而言，这无疑是一个巨大的福音。

MimicMotion的灵活性也让人印象深刻。它能够根据任何动作引导，生成任意长度的视频。无论是社交媒体上的舞蹈短片，还是复杂的运动场景，都可以通过AI技术轻松实现。

这项技术的应用前景非常广阔。从娱乐和社交媒体，到体育训练和康复医疗，MimicMotion都能发挥其重要作用。它不仅可以帮助学习者更深入地理解和模仿舞蹈技巧，提高学习效率，还可能为视频创作者带来全新的创作方式。

随着技术的不断演进，MimicMotion在未来的视频制作和动作捕捉领域将扮演更加关键的角色。它不仅能提升制作效率，还能为创作者提供更多的创意空间。让我们拭目以待，AI技术将如何为我们带来更多惊喜。

全球规模最大，甲骨文“数据集”实现开源

7月5日消息，“数字甲骨共创中心”于今日正式将全球最大的甲骨文多模态数据集开源，其中总共涵盖了一万片甲骨的拓片、摹本，还包括甲骨单字对应的位置、对应的字头、对应的释文以及辞例分组、释读顺序等数据。

全球规模最大，甲骨文“数据集”实现开源

据介绍，所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法，加速甲骨文研究智能化进程。

数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯 SSV 数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起，并获得中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等全球高校和研究机构的支持。

腾讯优图实验室、腾讯 SSV 数字文化实验室、厦门大学、安阳师范学院联合开发了 AI 模型技术：

甲骨字检测模型：标注准确率超 90%

摹本生成模型：摹本-拓片逐像素对齐

字形匹配模型：自动匹配相近字

甲骨校重模型：在大量拓片和摹本中实现“摹本去重”和“拓片探源”

全球最大甲骨文多模态数据集已在“甲骨文 AI 协同平台”上线，该平台还可以查询甲骨文、甲骨片信息，具体功能可以自行访问体验。