云从科技发布3D行为识别基础大模型
科技日报记者 雍黎 9月22日,科技记者从云从科技获悉,发布在近日举行的为识国际计算机视觉大会(ICCV2023)细粒度行为检测挑战赛中,云从科技的别基云从从容大模型展示了对多种模态信息的理解和处理能力,刷新世界纪录,模型在行为分类赛道中斩获冠军。科技 多模态到底意味着什么?当你输入一张照片,发布并用语音或文字“指挥”AI将其部分抠图修改,为识并发送给朋友时,别基它能立即理解并完成指令。模型多模态交互降低了AI使用的科技门槛,使AI有望成为万千大众都能使用的发布生产工具和个人助理。 如今,为识多模态大模型已成为大模型迈向通用人工智能(AGI)目标的别基下一个前沿焦点。大模型具有强大的模型表征能力,并且在多模态(如语言、音频、图像、视频、视觉语言)上得到验证,云从结合实际业务落地需求研发了基于时空建模的3D行为识别基础大模型。 3D行为识别技术相比2D图像识别增加了时间维度的建模,是以人为中心的感知任务的重要组成部分,一直是人工智能领域的研究热点。 该模型基于Vision Transformer(视觉自注意力模型)结构进行设计,通过自注意力机制将空间维度和时间维度的信息进行充分关联。 基于大模型预训练获得的基础时空特征,能够广泛用于视频检索、视频问答、3D行为识别、行为关键帧检测等下游任务中。在下游任务微调阶段,通过帧间信息互补的方式自适应去除模型冗余的部分,极大提升了下游任务的训练和推理速度。 本次挑战赛数据集包含491个日常生活中的人类行为,部分行为之间只有极其微小的差别,需要从视频中抽取多帧画面并采用3D时空建模算法进行分析。 挑战赛中,云从科技从容大模型凭借在视觉领域的积累,在数据集粗粒度(coarse)行为类别上精度达到93.87%,在细粒度(fine-grain)行为类别上精度达到91.96%,识别精度相比上一届冠军方案高出4%以上。 准确率的大幅提升表明大模型在时空关系特征建模上的优势,意味着3D行为识别算法已经迈入多模态大模型时代,将极大提升该技术的商业应用价值。目前,该技术已在金融、安防等领域得到了广泛应用,例如人员动作合规识别,打架、跌倒等行为检测。
- 最近发表
- 随机阅读
-
- 锦绣中国年丨民俗非遗之西安鼓乐
- 长白山40米口径射电望远镜建设项目启动
- 一批涉及健康、高品质生活等领域国家标准发布
- 澳大利亚籍人员成蕾被国家安全机关依法执行驱逐出境
- 从春运新变化看中国经济新春“人面”
- 百余项尖端技术成果亮相2023跨国公司与中国主题展
- 我国高性能液体橡胶首次实现国产化
- 第六届进博会最后冲刺 “中欧班列
- 广西科学院生态产业研究院发布4项科技成果
- 早期宇宙惊现大量类银河系星系
- 澳大利亚籍人员成蕾被国家安全机关依法执行驱逐出境
- 乒乓球声学超表面可吸收低频噪音
- 满足我国迫切需要!自主研制,填补这一领域空白
- 中体“着陆器”或是癌症扩散载体
- AI识别出290个新蛋白质家族
- 科普一下丨儿童也会患上风湿性关节炎?
- 城市科技“哨兵”春节不休假
- 一场指导会,让极兔快递又戴上了“紧箍咒”
- 3D打印纯素鲑鱼现身货架
- 首届国际科技项目管理人才培训班在海南成功举办
- 搜索
-