首页 > 国际新闻

Techo开发者大会丨腾讯安全天御精准识别音、图、文等网络垃圾

文章作者:来源:www.xax495.com时间:2020-01-28



随着互联网的飞速发展,我们已经进入了一个信息爆炸的时代。图片、视频、聊天和直播等互动内容已经成为人们日常工作和生活中不可或缺的一部分。然而,这些不断增长的内容充斥着各种各样的不良评论、垃圾广告、色情和其他互联网垃圾。通过互联网传播的垃圾内容不仅极大地影响了用户体验,也让许多企业感到困惑。

面对日益复杂的安全形势,企业应该如何“消除污染”,保护内容安全?在11月6日至7日举行的首届腾讯科技开发者大会云安全技术及应用专题会议上,腾讯安全业务安全总监杨红聚焦《新时代的内容风控实践与创新》,从文本、图片、音频等载体的内容安全现状分析、算法选择、对抗过程和实际效果等方面,展示了腾讯在保护内容安全方面的实践经验。

色情人工智能识别模型,毫秒级的坏音频识别

音频是现阶段网络上增长最快的信息载体。目前,游戏中的语音交流已经成为常态。手机游戏中的音频传输和通过语音即时通信工具传输的音频内容都是音频垃圾内容的灾区。然而,音频内容识别时间短、通道复杂、难度大,成为内容安全监管的难点。

在大规模的音频识别中,“黄色歧视”无疑构成了巨大的挑战。与标准影音音频的识别相比,色情音频在内容、时长和通道维度上有其自身的特点,如静音、噪声干扰大、背景音乐大、时间短、编码格式多样、采样率不均匀等,这些都给识别带来一定的困难。为了解决这个问题,腾讯安全设计了一套基于人工智能的色情音频识别流程。通过相应的技术,静音内容被移除,音频被分段。最后,根据每个片段的分数和时长,得到整个语音内容的识别结果。针对音频样本采集和标注的困难,腾讯安全天宇报道了大量综合网民。通过多类型多标签标注,音频黄色识别准确率达到82%,召回率达到90%以上。

针对在线滥用,腾讯安全天宇建立了高性能多语言语音关键词系统,通过特征提取、声学建模和解码,可以在毫秒级识别不良音频。

在线攻击、离线主动收集标签、恶意文本无处可藏

互联网文本是网络中最大的信息载体,几乎所有互联网平台都面临文本安全问题。网络垃圾短信通常包含特殊符号、变体字符、复调字符和象形字符。然而,传统的文本策略抗干扰能力弱,经常导致意外死亡。

腾讯安全天宇特别建立了垃圾短信文本识别模型TextCNN文本分类算法,通过在线实时攻击和离线主动收集标签,让恶意文本无处藏身。在线模型训练中,添加拼音和结构信息进行训练,并在训练数据中添加同音字和连字符以提高抗干扰性能。对于在线模型无法覆盖的新型恶意垃圾,腾讯安全天宇设计了离线样本的主动收集流程,允许学习算法主动提出要标记哪些数据,并逐步训练分类模型实时攻击。

在这套算法的支持下,腾讯安全天宇的识别覆盖率提高了至少50%,准确率和召回率分别达到90%和80%。

多标签学习细粒度识别,扫过网络图像的暗角

图片是仅次于文本的第二大信息载体,其识别挑战大于文本。腾讯安泰(Tencent Safely)和天宇(天宇)提出了一种支持多标签输出和多标签预测的多标签图像识别算法,这意味着在一定粒度下,图片应该配有“身份证”进行识别。

腾讯安全而丰富的数据积累是该算法运行的关键。目前,腾讯安全技术

企业很容易获得腾讯控制安全和天气内容的能力。腾讯安全天宇(Tencent Security天宇)不仅提供了API接口,还可以与滕旭云等产品合作访问企业的内容风控制系统,帮助企业零开发,快速识别平台中可能存在的非法内容。

目前,腾讯安全天宇的内容风控制服务已经通过腾讯云和微信小程序服务了5万多名开发者。行业渗透率达到90%,审计效率提高20倍以上,业务健康率达到99.89%,保护数万客户的内容安全,确保业务健康发展,守护清晰绿色的互联网。