他们想用 AI,批量生产「中供铁军」( 五 )


03
B2B营销的关键
是数据处理和提取
FounderPark:对于百炼智能来说 , 核心是通过搜索找到销售线索 , 再推给相应的公司 , 那搜索的数据是从哪里来的?
冯是聪:百炼智能本身是一家数字智能营销公司 , 数据是我们的基础 。 绝大部分数据都是从公开互联网获取的 , 从这个角度来说 , 理论上数据源跟百度、字节是没有任何区别的 , 只要是能合法采集的数据都可以用 。 公开的数据包括工商数据 , 中大型企业的官网上的招聘、招投标信息 , 微信、微博上发布的新闻稿和公关稿等 。 这也是我们的第一个数据源 , 也是最大的数据源 。
第二个数据源 , 是我们的一些独家数据 , 通过众包服务获取的 。 比如写字楼下的水牌 , 通过众包公司实地拍照 , 再通过OCR技术自动识别 , 就能精确地知道这栋楼里有哪些公司 。 还有就是比如汽车4S店的门头照和货架上的SKU等 。
第三类数据是通过服务企业的CRM系统获取的 。 这三类数据的总和就是百炼智能的所有数据 , 这些数据都是以企业为主体且合法得到的 。
FounderPark:既然很多数据都是来源于公开信息 , 那百炼智能的优势是什么?
冯是聪:百度或字节跳动是以网页作为基本单位来推荐信息的 , 而百炼智能是以数据为单位 , 即把网页里所有要素都提取出来了 , 人、事、地、物、组织、时间、关系等都提取出来了 。 原来的搜索引擎和推荐引擎是基于关键词为单位的 , 而百炼智能输入的是各种各样的原材料 , 输出的是数据 , 甚至是智能关系 。 这也是企业的初心 , 起名叫百炼智能 , 就跟炼钢厂一样 , 要比所有的信息加工公司更往前迈进了一步 , 已经做到了语义的承接 , 这个级别是远超于关键词的 。
另外就是 , 在数据准确性上 , 我们是机器+人工的模式 , 工业数据还是必须要有人工的校验、标注和确认 , 类似于机器处理95% , 剩下的5%交给人工确认 。
FounderPark:移动互联网崛起后 , App的数据不像以前的网页那样对搜索引擎开放了 , 这对于百炼智能来说会是一个比较大的挑战吗?
冯是聪:2021年国内开始实施反垄断 , 各大巨头必须放开 , 数据公开的程度会越来越高 。 之前在腾讯的软件里是打不开抖音或淘宝链接的 , 现在都可以相互支持了 。
开放是互联网最主要的特征之一 。 分久必合、合久必分 , 在PC互联网的时候 , 大家尽一切努力把应用程序提升到浏览器里 , 到移动互联网时候因为性能的缘故就反过来了 , 把所有浏览器的东西都放到App里了 。 但现在手机的性能提升了 , 加上国家的反垄断政策 , 在国家鼓励创新的情况下创业公司还是有很多机会的 , 对百炼智能来说也是一个机会 , 而不是挑战 。
FounderPark:B2B营销涉及哪些关键的技术?
冯是聪:最大的挑战是怎么把这些信息加工成数据 , 比如一篇文章里把人物、时间、地点、事件的关系全部抽取出来 , 这已经远远超出关键字的范畴了 。 所需要的第一个强大功能是NLP自然语言处理技术 , 这是人工智能最大的门槛之一 , 因为自然语言是最灵活的 。
第二个核心技术是图像处理 , 通常有两个场景 。 第一个层面是OCR技术 , 很多时候信息存放到网页会转变成PDF或图片的格式 , 落地工作时需要先通过OCR技术把文字识别出来 。 第二个是识别产品 , 比如识别门头照、货架栏SKU、卡车或者私家车 。
第三个技术是知识图谱 , 这跟原来的创业经历有关 。 KnowledgeGraph最早是谷歌提出的 , 应用在搜索引擎上 , 比如搜索某位名人的时候 , 右边会展示他的家人、作品等 , 在中国第一个运用知识图谱技术进行大规模生产的就是明略数据 , 用于帮助公安破案 , 现在这个技术继承到百炼智能了 。