今日头条升级灵犬反低俗助手,新增图片识别功能

  • 时间:
  • 浏览:31
  • 来源:幸运快3_快3开奖_幸运快3开奖

2019-07-80 17:09   牛华网     

我你可以评论(

)

字号:T|T

7月80日,今日头条公布正式推出新版灵犬反低俗助手(以下简称“灵犬”),同去支持图片和文本识别。这是时隔多日后,“灵犬”的又一次重要升级。

“灵犬”脱胎于今日头条反低俗模型,是一款检测内容健康度的辅助小工具,致力于打击低俗低质内容,层流手术室 网络空间。用户目前还也能 在今日头条内,搜索“灵犬”进行试用。

当天下午,一场名为“算法要怎样反低俗”的沟通会在字节跳动总部举办。字节跳动人工智能实验室总监王长虎现场介绍了“灵犬”身后的技术原理。

据了解,在文本识别领域,新版“灵犬”同去应用了“Bert”和半监督技术,训练数据集所含98万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用宽度学习作为正确处理方案,在数据、模型、计算力等方面均做了针对性优化。

“灵犬”使用人次超过80万

信息大爆炸时代,打击低俗低质内容,是当前全球信息平台都面临的问题报告 报告 ,不管是国外的Facebook、Google,还是国内的微信、今日头条,全版都是寻求正确处理方案。

反低俗无法单一地依靠技术或人工正确处理。王长虎表示,低俗的定义相对笼统,比较慢全版精确地定义出来,这项工作即使对人来说一些一些容易,交给机器做更难实现,而在当前内容创作和消费海量增长的趋势下,纯靠人工正确处理,时延低,无法有效满足用户需求。

字节跳动人工智能实验室总监王长虎分享“灵犬”身后的技术原理

今日头条是国内反低俗的先行者,而“灵犬”是今日头条反低俗系统的一一好多个多繁杂版本。据了解,2012年以来,今日头条內部搭建了反色情、反低俗、反标题党、反虚假信息、反低质等数百个模型,并投入近万人专业审核团队。“作为行业领先者,在内容安全上,今日头条突然用最高的标准要求一些人,”王长虎说,“灵犬是一一好多个多开放的反低俗窗口,亲戚亲戚大伙儿儿希望通过灵犬,接收社会各界对反低俗的意见和建议。”

新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。后续还将支持语音识别和视频识别。

此前一年时间内,“灵犬”已陆续完成两次迭代。2018年3月28日,今日头条首次上线“灵犬”,支持检测文字和文章链接。2018年5月16日,“灵犬”完成服务能力升级,增加反色情短文本模型和反谩骂模型,将准确率从73%提升至82%。2019年2月20日,“灵犬2.0”正式上线,除了反色情低俗模型,加入反暴力谩骂和反标题党模型,覆盖了主要的低俗低质内容类型,整体识别准确率接近85%。截至2019年6月,灵犬反低俗助手的使用人次原应超过了80万。

用户只也能 在“灵犬”内输入一段文字或文章链接,“灵犬”就还也能 帮助其检测内容健康指数,返回一一好多个多鉴定结果。对于用户输入的内容,“灵犬”会先进行提取、分词和语义识别,过后根据相关规则, 输出对应的分数、评级和结论。一种生活切全版都是短短几秒内完成。图片和图片链接检测同理,用户在“灵犬”内上传图片或图片链接,即可快速获取鉴定结果。

“灵犬”身后的技术迭代

据王长虎介绍,“灵犬”身后的文本分类模型,原应经过了三次迭代。每个新版本相对于旧版本,在技术和数据集层面,全版都是一一好多个多明显的跃升。

第一代“灵犬”,应用的是“词向量”和“CNN(卷积神经网络)”技术,训练数据集所含380万数据样本,对随机样本的预测准确率达到79%。第二代“灵犬”,应用的是“LSTM(长短期记忆)”和“Attention”技术,训练数据集所含88万数据样本,准确率提升至85%。

新版“灵犬”同去应用了“Bert”和半监督技术,过后在此基础上使用了专门的中文语料,在不牺牲效果的清况 调整了模型特征,使得计算时延能达到实用水平。“Bert”是当前最先进的自然语言正确处理技术,是该领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义所含、问答、相关性等各项任务上,大幅提高了性能。

一种生活代“灵犬”训练数据集总量是1.一一好多个多T,大约20倍百度百科或80倍维基百科的数据总量,所含98万个样本,准确率提升至91%。

不同于文本识别,图片识别的技术难点主要在于三方面:非均衡、类内方差大和不可穷举,即,低俗图片占整体图片内容的比例较低,低俗图片的种类富有、繁杂,构成低俗图片的特征千差万别。

对此,“灵犬”运用的正确处理方案,是宽度学习。“亲戚亲戚大伙儿儿分别在数据、模型、计算力等方面做了一些一些优化。”王长虎说。数据层面,“灵犬”已每种上千万级别的训练数据。模型层面,“灵犬”针对一些困难样本做了模型特征调优,尝试正确处理多尺寸、多尺度、小目标等繁杂问题报告 报告 。计算力层面,“灵犬”利用分布式训练算法以及GPU训练集群,加速模型的训练和调试。

一些技术难以拿出的问题报告 报告 ,现阶段还有赖于人工判断。比如技术暂时难以制定标准的案例:世界名画中常常再次出现裸体女子,原应全版交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而一些拍摄芭蕾舞的图片,以机器的视角来看,着实类似于于裙底偷拍。

此外原应使用场景、人群不同而原应标准变动的案例:内衣和内衣模特再次出现在购物平台上,会被默认为正常,但原应频繁再次出现在新闻资讯平台上,就原应被认为有低俗嫌疑;正常的热舞内容,提供给成年人看,符合常规标准,但原应开启了青少年模式,哪些内容就不应该再次出现。

王长虎说,针对低俗判断问题报告 报告 的繁杂性和不同判断妙招的局限性,一方面也能 不断进化技术模型,一方面也能 有效结合技术和人工判断一种生活妙招。

当前,“灵犬”建设了比较完善的模型迭代系统。通过“数据分类分类整理—数据标注—数据清洗—模型训练—模型评估—badcase分析”一种生活套全版的流程,持续做优化。