采集过滤规则 CMS3



标题过滤: (图); (组图); 【(*)】; html标签排除全部选中, 不得为空, 不得重复, 内容长度小于3时过滤.


内容过滤: (图); id="(*)"; title="(*)"; 


内容替换: 


< -> < ; > -> >; " -> " ; inline="(*)" -> 空 ; alt="(*)" =>空; 


-> 空 (彻底过滤图片, 需要网站图片下载的请忽略这条)


内容图片,附件: 补为全绝对路径 ,目录: /uploa\d\file/\i\ma\ge\s/yyyyMMddHH/  保存格式: [随机文件名]


下载图片, 探测文件并下载 (选项可以用)


关键字规则: 组合数据: 标题内容采集过滤规则[标签:内容]  自动分词  用, 分割 保留7个最高频词.

不得为空.内容长度小于8时过滤



简介规则: 避免内容无文字,或者文字过少.


截取前150个字符, html标签排除全部选中, 不得为空, 内容长度小于10时过滤


时间替换: html标签排除全部选中, 智能提取时间, 时间修正, 空内容缺省值(...)


签名:这个人很懒,什么也没有留下!
最新回复 (0)
返回