他们想用 AI，批量生产「中供铁军」( 五 ) 靠地推进行2B销售的时代已经过

03
B2B营销的关键
是数据处理和提取
FounderPark：对于百炼智能来说，核心是通过搜索找到销售线索，再推给相应的公司，那搜索的数据是从哪里来的？
冯是聪：百炼智能本身是一家数字智能营销公司，数据是我们的基础。绝大部分数据都是从公开互联网获取的，从这个角度来说，理论上数据源跟百度、字节是没有任何区别的，只要是能合法采集的数据都可以用。公开的数据包括工商数据，中大型企业的官网上的招聘、招投标信息，微信、微博上发布的新闻稿和公关稿等。这也是我们的第一个数据源，也是最大的数据源。
第二个数据源，是我们的一些独家数据，通过众包服务获取的。比如写字楼下的水牌，通过众包公司实地拍照，再通过OCR技术自动识别，就能精确地知道这栋楼里有哪些公司。还有就是比如汽车4S店的门头照和货架上的SKU等。
第三类数据是通过服务企业的CRM系统获取的。这三类数据的总和就是百炼智能的所有数据，这些数据都是以企业为主体且合法得到的。
FounderPark：既然很多数据都是来源于公开信息，那百炼智能的优势是什么？
冯是聪：百度或字节跳动是以网页作为基本单位来推荐信息的，而百炼智能是以数据为单位，即把网页里所有要素都提取出来了，人、事、地、物、组织、时间、关系等都提取出来了。原来的搜索引擎和推荐引擎是基于关键词为单位的，而百炼智能输入的是各种各样的原材料，输出的是数据，甚至是智能关系。这也是企业的初心，起名叫百炼智能，就跟炼钢厂一样，要比所有的信息加工公司更往前迈进了一步，已经做到了语义的承接，这个级别是远超于关键词的。
另外就是，在数据准确性上，我们是机器+人工的模式，工业数据还是必须要有人工的校验、标注和确认，类似于机器处理95% ，剩下的5%交给人工确认。
FounderPark：移动互联网崛起后， App的数据不像以前的网页那样对搜索引擎开放了，这对于百炼智能来说会是一个比较大的挑战吗？
冯是聪：2021年国内开始实施反垄断，各大巨头必须放开，数据公开的程度会越来越高。之前在腾讯的软件里是打不开抖音或淘宝链接的，现在都可以相互支持了。
开放是互联网最主要的特征之一。分久必合、合久必分，在PC互联网的时候，大家尽一切努力把应用程序提升到浏览器里，到移动互联网时候因为性能的缘故就反过来了，把所有浏览器的东西都放到App里了。但现在手机的性能提升了，加上国家的反垄断政策，在国家鼓励创新的情况下创业公司还是有很多机会的，对百炼智能来说也是一个机会，而不是挑战。
FounderPark：B2B营销涉及哪些关键的技术？
冯是聪：最大的挑战是怎么把这些信息加工成数据，比如一篇文章里把人物、时间、地点、事件的关系全部抽取出来，这已经远远超出关键字的范畴了。所需要的第一个强大功能是NLP自然语言处理技术，这是人工智能最大的门槛之一，因为自然语言是最灵活的。
第二个核心技术是图像处理，通常有两个场景。第一个层面是OCR技术，很多时候信息存放到网页会转变成PDF或图片的格式，落地工作时需要先通过OCR技术把文字识别出来。第二个是识别产品，比如识别门头照、货架栏SKU、卡车或者私家车。
第三个技术是知识图谱，这跟原来的创业经历有关。 KnowledgeGraph最早是谷歌提出的，应用在搜索引擎上，比如搜索某位名人的时候，右边会展示他的家人、作品等，在中国第一个运用知识图谱技术进行大规模生产的就是明略数据，用于帮助公安破案，现在这个技术继承到百炼智能了。