iDST的人脸与文字识别技术

日期:2023-02-22 16:23:44 / 人气:111

我们给优酷做的一个审核的业务,优酷有很多用户规则,比方说在视频外面不能呈现公家的QQ号或许一些联络方式广告。比方说优酷给我们一百万视频,当然这一百万视频外面只要0.5%的图象帧外面是有广告的,我们是没法定位到这个视频外面哪一帧是有广告,哪一帧是没有的,所以这一块给训练形成了很多费事。最初到达的效果是,大约有95%的广告视频都可以被我们检测到,精度有70%,还有30%的虚景。但是其实这个虚景外面还有很多是人工标落了,由于如今有一个优酷那边的审核团队比拟大,能够是几百人吧,只需有用户上传视频,他们就会有一团体把视频从头看到尾,假如人看久之后是十分容易累的。如今有了这个东西,他们会渐渐缩减人员的规模。(二)国际证件辨认这个是跟领取宝协作的一个国际的证件辨认,由于领取宝它的次要战略是鼎力开展海内市场。在海内的话普通你要做实名认证就得上传一张国度的证件。假如用通用的模型间接来检测证件,常常会呈现哪个中央多一块哪个中央少一块,然后它对应的一些字段就提取不对。而我们如今的这个通用模型经过分支间接预测证件构造,就可以把分支选的比拟好,由于在每一个框外面它的字的散布式是平均的。有了大的构造之后假如漏了几行或许是多了几行,其实都不太影响,可以用一些复杂的办法把它的噪声去掉,这样的话后果会更好。(三)体育照片搜索我们将人脸跟文字做了一个交融,然后如今是跟一个马拉松竞赛的一个赛事组织商协作,他们企业大约每个星期都会有一场竞赛,普通我们参与马拉松竞赛跑完之后,赛事主办方会拍能够几千张照片,比方说要去几千张照片找本人的照片,根本上是找不到,或许经过人工的方式一张一张的看。如今假如有人脸和文字的话,只需在这个入口上传一张本人的照片,就会把你的一切照片全都列出来了。或许输出本人的号码牌也会把你的照片全部列出来。多模态交融这一块我们是把人脸还有一些运动信息和语音作了一个交融,可以做一些视频的剖析。交融了这些信息之后我们参与了一个竞赛,然后在这个竞赛中得了第一,比第二略微高一点点,之所以能得第一能够次要就是源于我们关于视频外面比方说音频信息愈加充沛一点。多模态视频搜索我们阿里云协作做的一个多模态视频搜索,用外面的触标性的分类,还有语音,还有文字,还有人脸做一个视频剖析的零碎,然后可以做人类检索、语音检索、文字检索,也可以用一些做短视频的引荐还有搜索。达芬奇 (http://idst-open.alibaba.com)最初就是IDST对外有一个网站,这个是网址http://idst-open.alibaba.com,大家可以上去体验一下,能够跟里面的一些创业企业的一些网站迥然不同,但是也有一些比拟有意思的共同的处理方案。更多技术干货敬请关注云栖社区知乎机构号:阿里云云栖社区 - 知乎

作者:杏盛娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 杏盛娱乐 版权所有