文章插图
在行业里打拼了8年,冯伟见证了舆论行业的兴起和变化 。目前,他仍深入该领域,担任北京人民在线网络有限公司技术总监.
如今,舆论行业的未来由大数据和AI技术主导,但“内容”仍然发挥着不可替代的作用 。在日新月异的科技浪潮中,它将走向何方?接下来,让我们跟随冯伟一起了解这个经常被外界误解的舆论行业 。
舆情业的演变升级
即使进入21世纪后,早期公众对舆论的理解仍然是片面的,认为“舆论是负面的” 。事实上,舆论的概念早已发生了变化,它不再局限于民众的社会政治态度,舆论的对象也不再局限于“国家管理者” 。
百度百科对舆论的解释是:在一定的社会空间中,围绕着中介性社会事件的发生、发展和变化,人们作为主体对作为客体的社会管理者、企业、个人和其他组织的社会态度及其政治、社会和道德取向 。它是许多人对社会中各种现象和问题所表达的信念、态度、观点和情感的总和 。这与后来大多数学者提出的基本观点没有太大区别 。
以网络为载体,以事件为核心的网络舆情,是广大网民情绪、态度、观点、观点的表达、交流和互动,以及后续影响的集合 。带着广大网友的主观性,不经过媒体验证和包装,通过各种形式直接发布在互联网上 。
目前以人民在线为例,舆情业务提供的服务主要在监测、预警、研判、报告、咨询和培训,前四项服务需要舆情监测平台.的支持
早年舆论的技术表达不多,舆论分析和相关报道主要由内容专家根据自己的经验和判断撰写 。2009年左右,大数据成为热词,新浪微博推出 。随着移动互联网的到来,越来越多的人通过互联网发声 。
与此同时,一些技术制造商开始进入将大数据和舆情的概念包装到一起,形成“平台”工具.从2009年到2012年,人们普遍做定制项目,软件和许可证在项目背后销售 。
2013年到2015年,厂商从卖落地的定制化产品转向SaaS服务. 2016年到2019年,自媒体如火如荼,整个互联网的舆论生态发生了变化,数据量也发生了巨大的变化 。舆论行业的关注重点已经转变为对形势和事件后续发展的分析处置,突出系统性归纳分析,提高舆论工作的可靠性,作为决策的参考依据 。
【以下哪种不属于创业的竞争门槛,对于创业公司应尽量避免在什么上试错】在冯伟看来,舆论行业不太好 。在野蛮生长的早期,人们往往简单片面地看待舆论 。产品功能同质化严重,技术架构几乎十年不变.这些问题还没有解决,各大机构平台已经开始打价格战,行业陷入了陷阱 。
2020年,由于新冠肺炎疫情,很多行业损失惨重,但舆论行业出现了新的变化 。“虽然疫情带来了许多负面影响,但对技术发展的影响是积极的 。”冯伟表示,数字化浪潮某种程度上更进一步了,比如大数据、AI等技术实际上都在更加积极地往前推进.技术迭代在开启智能舆论方面发挥了关键作用 。
以中台为契机的变革
要管理好技术,光懂技术是不够的 。
从研发工程师到技术总监,冯伟面临的挑战比他想象的要多 。
“比如我在Tours的时候,虽然做过管理工作,但是会负责某个产品的研发,更多的是在一线作战 。我通常遇到的挑战基本上都是技术性的
的问题攻克 。”
那会大数据领域还不像现在这样有不少比较完善的框架,很多问题只能用“笨方法”去啃硬骨头,冯伟表示,“2013年的时候,Spark还没有1.0版本,尝试新技术好比在扫雷,那时候不管是技术还是社区都不完善,只能去硬啃官方的文档,去看源代码,去解决问题 。”
2017年,冯伟开始创业 。“创业之前,会觉得创业是件很美好的事情,充满了向往和期待 。创业之后,才发现在公司当个螺丝钉很幸福,因为很多问题不用自己操心 。”冯伟认真回忆那段时间,自己当“老板”并没有那么容易 。
“原来可能只需要专注在自己的技术侧和产品侧,创业之后,要考虑的问题很多,不单单是技术这个层面,还要去考虑公司现在所在赛道的整体情况,投资人的意见看法等 。”
冯伟强调,创业公司实际上面临的风险很大,试错成本很高 。一旦融资出现困难,创始团队就容易出现分歧,难以走下去 。
结束创业旅程后,冯伟来到了人民在线 。(人民在线是由人民网控股、人民网与证券时报社合资成立的专业舆情服务机构和信息增值服务机构 。)等待他的任务并不轻松,人民在线已有相对成型的技术框架 。在这样的背景下,如何说服公司相信技术的力量,一起改变尝试新技术,是他面临的主要挑战 。
“公司原来的技术栈或许有很多不足,但它依然能支撑起公司每年数亿营收的业务,就证明它还是有价值的,我既不能全盘把它否定掉,更要在保证支撑业务稳定的同时,去做技术上的革新 。”
2018年“中台”概念的兴起,让冯伟找到了推动公司技术改革的“支点”,后来也是以中台建设为核心,完成了整个公司的技术改革 。据介绍,人民在线有三块主要业务,分别是舆情、融媒体和区块链 。舆情和融媒体有很多共性,核心是数据和智能化,所以分别做了数据中台和 AI 中台 。除此之外,还有一个技术中台,这是大的技术底座 。
在中台建设的过程中,冯伟表示的确遇到了诸多技术问题,甚至有一些是在自己不够擅长的领域,但是只能迎难而上,找专家,找团队,总之没想过放弃 。
除了技术本身的建设难点,很多资源关系的调配也成了“拦路虎” 。中台也不是万能的,“饼”画得越大,建设就更为复杂,周期也更长 。
“期间既要保证现有的业务没有抖动,不受影响,又要完成技术的迭代革新,因此牵扯到各种资源的腾挪 。”冯伟表示,“只能抽出来一部分搞,完了再把这一部分挪过去,就这样一直挪来挪去 。”
当时,公司正好要换机房,为了节约成本,将原有北京、武汉的两个机房统一迁到襄阳 。有一些屋漏偏逢连夜雨的意味,“既要做中台的建设,又要完成公司机房的迁移,同时又要求业务线不受影响,这是非常巨大的挑战 。”冯伟回忆起那一年,“这个过程很痛苦,资源并不齐备是一方面,另一方面大家的期待都很高,中途总有质疑的声音,比如会吐槽“新业务遇到的问题都还没有解决,你们这些人不知道在忙些什么” 。
冯伟感慨道,当时自己终于理解王坚为什么会在某个年会上哭,“明明很努力在工作,但很多人不理解,大家就觉得这个阶段你没有产出,忽悠了公司领导,公司投那么多资源去干这个事情,却没有回报 。”
“只能顶住压力,那会我们就喝王坚博士的鸡汤度日 。就像他当年设计阿里云一样,所有人都在骂,觉得他是个骗子 。”后来,在一次述职会上,冯伟引用了“马氏名言”——因为相信,所以看见 。
文章插图
图源:网络
内容 + 科技:触发新的可能
技术决定了行业的下限,但内容决定了高度 。
在冯伟看来,网络舆情实际上是一个复杂的交叉学科,涉及新闻传播学、社会心理学、信息管理学等 。对于一家网络舆情公司,核心竞争力也不是单一的,而是需要“内容 + 科技”,两者相辅相成,缺一不可 。
网络舆情研判的其中一个重要方法是关键词搜索法 。而靠关键词检索的方式去获取数据,往往会产生不相关的数据 。
冯伟谈到目前舆情行业普遍采用的关键词监测机制,仍然存在一些误差 。“比如针对某个社会民生热点或敏感事件的监测任务,我们可以把相关的的敏感词都填进去,这个关键词可能有几百个甚至几千个 。”
最直接的一个影响是,用这一系列的关键词进行搜索,产生的结果可能是命中了其中一两个词,讲的却不是这件事 。
而在实际的业务运行中,技术能够推送的信息越准确,对于人工过滤而言,能节省的时间成为就越多 。据冯伟介绍,人民在线现行的舆情监测服务是7×24小时的,舆情编辑在机器粗筛之后要进行人工过滤,三班倒实际要面临不小的工作强度 。
“AI一定程度上可以释放生产力,缩小人工劳动力在舆情监测和预警环节所占的比重 。”冯伟看好AI技术对于舆情行业的重塑力量 。他指出,舆情实际上是一个对 AI 全面应用的业务场景 。
在最开始的采集层面,怎么去把一个网页里的主体部分智能地提取出来,以及与反爬措施之间的对抗也涵盖了大量的智能策略 。在预处理层面,应用AI的地方则更多:对每一条信息都要做分析和加工,这涉及到多模态的特征指纹提取,还有分类标签体系、垃圾信息识别、情感分析、实体识别、主体识别、OCR、图片视频的目标检测等等 。到后续的一些具体场景,比如事件的研判、沙盘的推演、机器写作(报告)等等,则涉及到知识图谱的构建及推理 。
因此,AI技术的不断发展是会对舆情行业的发展起到推动的作用,甚至会改变现有的服务模式与商业逻辑 。
除了AI,数据也是舆情行业面临的另一大技术挑战 。随着隐私保护的加强,加上各大内容生产方对自己数据的价值认知不断提升,舆情行业在数据采集上面临的阻碍越来越大 。不像以前,有个简单的爬虫就可以把数据爬下来,现在一方面存在法律风险问题,另一方面是来自反爬措施的阻挠 。
另外,随着全网的数据量越来越大,模态上又多了图片和视频,对后续的存储和数据预处理的压力也会变得很大 。因为舆情对时效性很敏感,对一些NLP算法模型的时效性要求很高,如此一来,像BERT这样的比较流行的大模型,在实时场景里的应用会受到一些局限 。
总的来看,虽然AI等技术会不断促进舆情行业的发展,但冯伟表示,如果想对舆情做深度的研判,还是需要从内容侧 / 理论方法侧去给予支撑和指导,内容侧的创新才能推动产生一些变化 。舆情行业对数据质量的要求很高,但目前数据质量的改变还是依赖于人,因为AI智能化的程度还不够高,人的经验和知识在这里面仍起着到很大的作用 。
因此,网络舆情的发展不能只从内容侧或技术侧孤立地来看,而是应该从融合的整体去看 。
拥抱开源不是为了刷 KPI
尽管人民在线是一家国企,但它在技术上的使用并不像外界所想的那么保守 。冯伟告诉InfoQ,早在2018年年初的时候,团队就在用 TiDB,和人们的固有观念不同,采用新的技术并不是为了刷kpi任务,有痛点才会尝试 。
彼时TiDB刚推1.0版本,是个新型的分布式关系型数据库 。冯伟的团队毅然选择用TiDB,一方面是考虑到团队规模不大,在某些专业人才上也有所缺失,比如在数据库领域没有那么专业的DBA(数据库管理员) 。如果用MySQL,当数据量很大的时候,业务侧要自己去做分库分表,依赖一些更多的中间件,要做很多工作,这样一来整个技术栈就会变得更复杂,对团队的要求就会更高,出故障的概率也会更大 。
“当时我们在找寻一些可替代的方案,看中了TiDB的一个特点,一些原本交给中间件、或者是业务侧去做的复杂工作,TiDB本身自己都解决了,而且是以非常简单、轻量的方式去解决,这跟我们的诉求很匹配 。所以我们很早就尝试用TiDB,放在一些做预警数据和采集数据的存储场景里,我们也见证了TiDB从当年功能很简单、稳定性欠佳的 1.0版本,到现在5.0都发布了的整个过程,我们也会参与到TiDB的一些社区活动,去分享一些我们的案例等等 。”
冯伟表示,虽然他们不像美团那样给TiDB提供大量的源代码,但可以贡献场景,变成深度用户,发现问题提供一些case,和开源社区一起成长 。在转型云原生的过程中,除了用TiDB,他们还用了现在社区内很火的开源消息中间件Pulsar 。
“积极尝试新的技术,纯粹是因为有痛点 。”冯伟强调,在用Pulsar 之前,团队也用过RabbitMQ、Kafka,但都有一些问题,所以才会在开源社区里寻找一些与他们的价值观和规划相匹配的技术 。“从目前看,我们选的这些技术在社区里已经发展都非常好,我们也成为了他们早期的用户 。”
冯伟表示,舆情属于入门门槛很低的行业,只要能搭个爬虫,有个存储,上面能写个应用,这就成了一个舆情系统 。
但想做好,路还很长 。舆情系统想要全面化、精细化,门槛其实很高 。需要在第一步将全网的数据进行采集和监测,这本身已经是个巨大的挑战 。而这还仅仅是个开始,如何将数据转化为能服务于各个行业的标准化的产品,以及让用户满意,这部分还要难得多 。
采访嘉宾介绍
冯伟,人民在线技术总监,国内最早一批从事舆情研发及文本智能研究工作,也是国内媒体融合早期建设者,擅长大数据和人工智能领域 。目前正在推动公司科技转型,以“云原生 + 中台”为路径,探索研发下一代智能舆情产品 。
作者:罗燕珊
来源:“TGO鲲鹏会”微信公众号
编辑:支仲凯 | 责编:朱玉萍 张力
文章插图