968931323
097-224774945
导航

抢视频小编饭碗?微软亚研新技术可自动为视频写标题

发布日期:2021-11-23 02:03

本文摘要:近日,台湾清华大学电子工程系教授林嘉文及孙敏宣告,他们与微软公司亚洲研究院的陶玫博士合作研发利用计算机视觉技术为视频内容加到标签和标题。据报,陶玫博士曾参予了微软公司 COCO 的研发。 微软公司 COCO 是一套全新的图像识别、分类、解释的数据集,为辨识多个物体设计而出有。被业内熟悉的是微软公司 COCO 图像解释大赛,参赛者利用自律研发的图像识别系统并融合微软公司 COCO 对登录图像展开文字说明。 结果则根据系统解释的准确率、详尽程度以及跟人类叙述的相近度展开评估。

IM体育

近日,台湾清华大学电子工程系教授林嘉文及孙敏宣告,他们与微软公司亚洲研究院的陶玫博士合作研发利用计算机视觉技术为视频内容加到标签和标题。据报,陶玫博士曾参予了微软公司 COCO 的研发。

微软公司 COCO 是一套全新的图像识别、分类、解释的数据集,为辨识多个物体设计而出有。被业内熟悉的是微软公司 COCO 图像解释大赛,参赛者利用自律研发的图像识别系统并融合微软公司 COCO 对登录图像展开文字说明。

结果则根据系统解释的准确率、详尽程度以及跟人类叙述的相近度展开评估。微软公司回应, 台湾清华大学两名教授利用微软公司 COCO 数据集创立了一套系统, 利用计算机视觉技术来确认视频里的主要内容,并为其加到标题。微软公司在博文中认为:孙教授基于深度自学来自动寻找视频中的类似时刻或最重要内容,并创立了一个视频标题分解新方法,基于视频中的这些最重要内容产生精确及有意思的标题。

与此同时,林教授则研发了一种能自动在视频中检测人脸的方法,并为共享这些视频的用户获取更加非常丰富的总结及涉及建议。通过合作,他们的算法能检测并叙述出有最重要内容,同时分解标签及标题。

IM体育

孙敏教授和他的学生还通过参与 VideoToText challenge 大赛来提高这一系统。消息称之为,他们将在欧洲计算机视觉会议(ECCV)上展出近期研究成果。

说明和叙述视频/图片画面中的内容,不仅必须理解图片中是什么,更加要理解图像中的对象有什么联系。利用算法辨识视频内容然后生产标题或者标签相对来说可玩性和计算出来量更加可观,而辨识图片内容从而分解标签或画面叙述文字已愈发成熟期。

上个月谷歌公布了近期机器学习系统,通过辨识图像中的内容,配上上对应文字,目前算法叙述图像的准确率早已低约 93.9%。归功于 COCO,微软公司在图片叙述上也具有一定的累积,其中被广泛应用地就是 One Drive 中的Blogger归类功能。

该功能可以让用户有效地分类并展出照片,还能从图片中辨识文字。当然,最重要的是它还能对图片特征展开辨识分析并展开自动标记。

除了微软公司、谷歌外,Facebook 也在今年公布了类似于的系统,该系统可以理解照片中正在再次发生的事情,并且将内容转换成自然语言来叙述。Facebook 展示了一个人玩游戏滑板的照片。

算法把照片内容分解成“一个滑板,一个男人,一个绝招,他的滑板”,它指出有可能早已再次发生的事情是“做到的,玩游戏滑板,正在做到”。用户可利用 VPN 翻墙到 iPhone 版 Facebook 后用于,同时也能利用 iPhone 自带的 voiceover 功能对于本来有文字描述的东西都能读出来。

无论是图片叙述还是视频叙述,在消费级层面:其不仅可协助用户自动管理Blogger(视频集)。此外,该技术可以协助盲人用户用语音理解照片和视频中的内容。

IM体育

涉及读者:亲测:让盲人“看到”图片 我们离这项白科技有多近谷歌公布最新版 AI 系统,图像配文准确率低约 93.9%原创文章,予以许可禁令刊登。下文闻刊登须知。


本文关键词:IM体育,抢,视频,小编,饭碗,微软,亚研,新技术,可,自动

本文来源:IM体育-www.gmzhaocai.com