直通屏山|福建|时评|大学城|台海|娱乐|体育|国内|国际|专题|网事|福州|厦门|莆田|泉州|漳州|龙岩|宁德|南平|三明
您所在的位置?#28023;?东南网 > 首页> 党政网群> 福建记协 > 正文

面对海量信息 如何实现内容识别

2019-08-13 15:54:33??来源:人民网-传媒频道  责任编辑:肖月青 肖月青  

互联网平台的出现以及移动传播体系的形成,改变了人类内容生产和分发的方式。?#26377;?#24577;上,互联网平台代替传统媒体成为了信息聚合和分发的枢纽;从传播关系看,社会成员个体的参与愿望及信息需求,形成了当代社会信息?#25442;?#30340;双轮驱动。?#20174;?#22312;内容生产与分发过程中,现象之一就是互联网用户个人上传的各类内容成为了网络空间里一个海量的存在,以当前发展迅速的短视频平台为例,它们每天都有数以千万条计的短视频内容上传;现象之二是,这样海量的内容只有通过移动终端,面向用户个人的差异化信息需求,通过推送式的精准分发,才能使人们所生产的信息“各得其所”、“各尽其用”,以充分发挥不同内容的效能。

这一切的前提是内容本身是真实的,健康的。而面对每天上传到互联网平台上数以十万篇计的文章、千万条计的短视频、十亿张计的照片这样级别的海量信息,想要鉴别它们的“成色”并实现推送式的精准分发,必须充分运用人工智能?#38469;酢?#36825;也就是为什么习近平同志在2019年1月25日的中央政治局集体学习时?#19981;?#20013;,要求“探索将人工智能运用在新闻采集、生产、分发、接收、反馈中” 。通俗地说,就是要“互联网?#38469;?#20135;生的问题,用互联网?#38469;?#26469;解决”。

维护互联网平台上内容的真实性和健康性是一个国际性课题。前不久,在美国参与的“数字时代的美国新旧媒体”考察活动给了我切身体验。中国和美国这两个不同社会制度的国家,都面临着互联网平台带来的各种挑战,其中互联网内容的真实、健康和安全是最为人们关注的。在各自国家政府和社会公众的压力之下,两个国家的互联网平台都在做出努力来解决上述问题。这些努力的主要方面,就是积极利用人工智能?#38469;酰?#24320;发对互联网内容进行审核的应用。比较分析的结果是,中国的互联网平台在这一领域居于领先地位。

以国内最大的资讯分发平台今日头条及其系列产品为例,其反低俗的软件“灵犬”,经过三次迭代升级,最新版本包括识别类型和模型能力的重要升级,同时应用了“Bert” 和半监督?#38469;?,并在此基础上使用了专门的中文语料,使对存在色情低俗、暴力谩骂、标题党类问题内容的文本识别准确率提升至91%,还能支持对含有色情低俗、血腥暴力成分的?#35745;?#30340;识别。比较而言,谷歌和脸书等平台对虚假、低俗类信息识别的?#38469;?#36335;线更多是“重点对用户特征(包括个人级别特征和组织级别特征)、新闻特征(包括文本特征和传播特征)和网络关系(包括用户关系网、事件关系网和传播路径网)这三个要素进行自动查验” ,具体而言,更多依靠用户的反馈和标注,以及对相关因素的一致性检验,在借助人工智能和大数据对文本本身进行更加全面的识别方面?#24230;?#19981;足,从而导致相应的?#38469;?#33021;力无法应对以“深伪(Deepfake)”为代表的伪造信息?#38469;?#30340;发展。有研?#31354;?#25351;出,“瑞?#38752;?#23398;家在一篇论文中就首次对人脸识别方法检测Deepfake的效果进行了较为全面的测评,尝试用最前沿的人脸识别系统去识别假视频,结果错误率高达95%。所以当前如果要求平台对深?#20219;?#36896;?#32676;?#25104;媒体内容进行识别和标注,在?#38469;?#19978;几乎是不可能实现的” 。这一事实告诉我们,在网络传播中反虚假、反低俗,还是要更多依靠更加先进的人工智能应用,通过大数据与算法的结合,提升对各类内容(文字、?#35745;?#35270;频等)的识别能力。

当前的人工智能,实质上是基于对人类处理各种事务规则的算法化,并基于大数据提供的深度学习资源而实现的。具体地说,就是人们根据对于客观事物的认识,制定处理相关事务的规则和标准,然后找到一组数学公式来模拟这个过程,也就是形成算法,再把算法开发成为软件,就可以用大数据来训练这个软件学会识别不同状态和情况,达到比较成熟的水平就可以上线运营,代替人类来工作了。客观上,在这个过程中,关键性的难点在各个?#26041;?#37117;存在。如人们制定的标准和规则是否科学,取决于人们对相关事物本身发展规律的认识水平。按?#31456;?#20811;思的论断,“一种科学只有在成功地运用数学时,才算达到了真正完善的地?#20581;薄?这需要人们对客观规律有深刻的认识,目前在社会科学领域这显然是研究的短板。以?#25910;?#26412;人近年来对主流价值观如何体现为算法的研究为例,旨在面向个人推送信息以提高传播效?#23454;?#31639;法,如何在社会成员个人对事件重要性的判断与社会主体对事件重要性的判?#29616;?#38388;建立一致性就是一个难题。在内容审核方面,也存在标准和规则随具体场景而变化的情况,如越南战争期间著名的反战新闻照片,照片主体是一位越南小女孩?#36335;?#34987;汽油弹引燃而浑身赤裸奔跑,就曾经因为“裸露”, 被Facebook误?#23613;?#23454;践中,即使实现了规则和标?#35760;?#26224;且正确,还要能够找到可行的算法,建立较大规模的数据库,还要有算力的支持。如灵犬3.0,就?#24230;?#20102;更大的算力。从上述过程看,利用人工智能的深度学习来解决虚假、低俗内容充斥网络空间的问题,是一个具有相当?#38469;蹌讯鵲南?#32479;工程,需要假以时日,需要付出更大的努力。

用?#38469;?#35782;别内容如此之难,是不是我们就不要走这条路,靠人工去完成这个工作呢?很显然,在互联网传播环境下,这是不现实的。当前,互联网?#38469;?#30340;应用,已经实现了在传播的?#38469;?#26465;件方面对用户的普遍赋权,在中国,每天都有数以亿计的互联网用户活跃在各个网络平台上,以短视频为例,抖音等平台,每天都有千万条级别的内容上传,今日头条平台每天经审核后发布的内容?#32479;?#36807;60万条。这是无法完全用人工去处理的。与人工审核相比,机器审核的优势在于,机器一是计算快,一秒钟能执行百亿次计算;二是存储大,可以轻松存储千亿以上汉字;三是运?#24418;?#23450;,?#25442;?#22240;心情、状态、对标准的理解等因素影响处理结果。据了解,由于强化内容标注和审核的需要,今日头条的母公?#23613;?#23383;节跳动”已经建立了近万人的审?#36865;?#38431;。在“机器+人工”审核模式下,我国主要的互联网信息分发平台的内容安全得到了较大程度的提升,未来随着研究的深入、?#38469;?#30340;进步,内容审核的水平还会?#20013;?#25552;升。

?

打印 | 收藏 | 发给好友 【字号
今日热词
更多>>福建今日重点
更多>>国际国内热点
更多>>新闻?#35745;?/div>
关于我们 | 广告服务 | 网站地图 | 网站公告 | 法律顾问
国新办发函[2001]232号 闽ICP备案号(闽ICP备05022042号) 互联网新闻信息服务许可证 编号:35120170001 网络文化经营许可证 闽网文〔2019〕3630-217号
信息网络传播视听节目许可(互联网视听节目服务/移动互联网视听节目服务)证号:1310572 广播电视节目制作经营许可证(闽)字第085号
互联网出版许可证 新出网证(闽)字12号 增值电信业务经营许可证 闽B2-20100029 互联网药品信息服务(闽)-经营性-2015-0001
福建日报报业集团拥有东南网采编人员所创作作品之版权,未经报业集团书面授权,不得转载、摘编或以其他方式使用和传播
职业道德监?#20581;?#36829;法和不良信息举报电话:0591-87095151 举报邮箱:[email protected] 福建省新闻道德委举报电话:0591-87275327
全国非法网络公关工商部门举报:010-88650507(白)010-68022771(夜)
阿尔艾因比赛直播
一分快3结果预测 北京pk赛车官网直播 90比分网 下载红码管家 江西时时历史开奖结果查询 安徽时时十一选五开奖结果走势图 bet007足球即时比分球探网 11选5每天稳赚五十方法 江苏快三神计划 江苏时时组三的几率 腾讯三公游戏下载 博彩到底能不能挣钱 重庆时时骗局龙虎合 万人炸金花本地下载 百家樂看路技巧带图 国际物流服务