标题过滤: (图); (组图); 【(*)】; html标签排除全部选中, 不得为空, 不得重复, 内容长度小于3时过滤.
内容过滤: (图); id="(*)"; title="(*)";
内容替换:
< -> < ; > -> >; " -> " ; inline="(*)" -> 空 ; alt="(*)" =>空;
-> 空 (彻底过滤图片, 需要网站图片下载的请忽略这条)
内容图片,附件: 补为全绝对路径 ,目录: /uploa\d\file/\i\ma\ge\s/yyyyMMddHH/ 保存格式: [随机文件名]
下载图片, 探测文件并下载 (选项可以用)
关键字规则: 组合数据: 标题内容采集过滤规则[标签:内容] 自动分词 用, 分割 保留7个最高频词.
不得为空.内容长度小于8时过滤
简介规则: 避免内容无文字,或者文字过少.
截取前150个字符, html标签排除全部选中, 不得为空, 内容长度小于10时过滤
时间替换: html标签排除全部选中, 智能提取时间, 时间修正, 空内容缺省值(...)
签名:这个人很懒,什么也没有留下!