云从科技发布3D行为识别基础大模型
科技日报记者 雍黎 9月22日,科技记者从云从科技获悉,发布在近日举行的为识国际计算机视觉大会(ICCV2023)细粒度行为检测挑战赛中,云从科技的别基云从从容大模型展示了对多种模态信息的理解和处理能力,刷新世界纪录,模型在行为分类赛道中斩获冠军。科技 多模态到底意味着什么?当你输入一张照片,发布并用语音或文字“指挥”AI将其部分抠图修改,为识并发送给朋友时,别基它能立即理解并完成指令。模型多模态交互降低了AI使用的科技门槛,使AI有望成为万千大众都能使用的发布生产工具和个人助理。 如今,为识多模态大模型已成为大模型迈向通用人工智能(AGI)目标的别基下一个前沿焦点。大模型具有强大的模型表征能力,并且在多模态(如语言、音频、图像、视频、视觉语言)上得到验证,云从结合实际业务落地需求研发了基于时空建模的3D行为识别基础大模型。 3D行为识别技术相比2D图像识别增加了时间维度的建模,是以人为中心的感知任务的重要组成部分,一直是人工智能领域的研究热点。 该模型基于Vision Transformer(视觉自注意力模型)结构进行设计,通过自注意力机制将空间维度和时间维度的信息进行充分关联。 基于大模型预训练获得的基础时空特征,能够广泛用于视频检索、视频问答、3D行为识别、行为关键帧检测等下游任务中。在下游任务微调阶段,通过帧间信息互补的方式自适应去除模型冗余的部分,极大提升了下游任务的训练和推理速度。 本次挑战赛数据集包含491个日常生活中的人类行为,部分行为之间只有极其微小的差别,需要从视频中抽取多帧画面并采用3D时空建模算法进行分析。 挑战赛中,云从科技从容大模型凭借在视觉领域的积累,在数据集粗粒度(coarse)行为类别上精度达到93.87%,在细粒度(fine-grain)行为类别上精度达到91.96%,识别精度相比上一届冠军方案高出4%以上。 准确率的大幅提升表明大模型在时空关系特征建模上的优势,意味着3D行为识别算法已经迈入多模态大模型时代,将极大提升该技术的商业应用价值。目前,该技术已在金融、安防等领域得到了广泛应用,例如人员动作合规识别,打架、跌倒等行为检测。
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- AI文生视频效果“炸裂”,未来扔一部小说出一部大片?
- 科学新发现丨警惕!纸吸管中检测出“永久化学品”
- 医疗服务强基层:门诊延至晚八点、骨干“驻村”常值守
- 请羊来吃草!宁夏这家电站生态治理赋能经济效益
- 科技创新世界潮
- 江西分宜:全力护航科技型中小企业成长
- 山西右玉县:人居环境提起来 和美乡村靓起来
- 国家发改委发文 加强粮食流通领域质量安全监管
- 巴黎奥运会和残奥会奖牌亮相
- 科学新发现丨南极海冰损失致大量帝企鹅繁殖失败
- 赛迪顾问:2023年国产大模型呈爆发式增长
- 真实空间测量首次检测到量子纠缠波
- 江西南昌国际陆港节后作业忙
- 厦门“苏颂杯”未来产业技术创新赛北京分赛区启动
- 医疗服务强基层:门诊延至晚八点、骨干“驻村”常值守
- 首届网络空间安全(天津)高峰论坛开幕
- 2024春节档新片票房破10亿
- 学位法草案拟规定: 利用人工智能代写学位论文或被撤销学位
- 2023浦江创新论坛9月9日至11日举办
- 让城市闪烁志愿服务光芒——杭州亚运会城市志愿者观察
- 搜索
-