新起点智慧爬虫本地接口的编写教程
1,帝国cms本地接口:

如图,新起点智慧爬虫的本地接口文件通常是一个用于采集器与网站进行连接的txt文件。
下面我们以帝国cms系统为例,讲解一下本地接口文件的写法。
如上图,我们可以看得到,接口文件的每一行为一个字段。每个字段的中间都有一个“:”号,“:”的左边是目标网站的字段,右边为字段值。
由于网站的不同,这些字段与字段值也可能略有不同,比如上图中,笔者就自建了mtitle、wno等多个字段。
其中,enews:AddNews、checked:1、addnews:提交等,都是帝国cms自带的字段和必须的值,不可以更改。
classid:classid和classname:class,左边都是帝国cms的自带字段,右边都是新起点采集系统的自带字段,也不可以更改。
其余采集系统中所采集到的字段,则必须与帝国cms中的字段一一对应,如以下几条:
wz:网址
befrom:来源
title:标题
newstext:内容
newstime:时间
username:作者
keyboard:关键词
mtitle:文件名称
wno:文件编号

2,百家号本地接口:
如百家号的接口文档中所写(网址:https://baijiahao.baidu.com/builder/rc/docs/developer/contentPublish/publishPT),百家号的本地接口文件需包含以下字段:

其中,app_id和app_token分别对应您的百家号帐号ID和密钥。
title、content和origin_url需对应采集系统中的标签字段。
cover_images,可不填,建议省略。
is_original,可不填,当字段值是1时表示为原创,字段值为0时表示非原创。
3,微信公众号等
与百家号类似。
4,dedecms等
与帝国cms类似。
5,官方支持
没看懂?需要官方支持?请联系

网站公告: