火车头采集的内容如何伪原创1.先把火车头采集规则写好
然后在调用插件来对内容做一下伪原创或者二次更改处理。
我每个版本都不同,基本上都在其他设置里面选择采集结果处理插件,来处理采集的内容,5118的伪原创处理是采用的dll插件,这里不得不说火车头的强大,可以用python 脚本,也可以选择用dll脚本处理,c#,php也全部都可以使用。
2.选择你的插件
火车头支持很多语言插件翻译 其中就比如:
1.C#
2.python
3.php
这里我主要是以php插件为主,如果你会的话可以选择写其他版本的插件!
还有http请求插件,和下载完成处理文件的插件不等!
选择你的伪原创插件,图上是以 php为主的!
然后再去测试一下即可!
伪原创的大部分原理都是一样,翻译在翻译处理一下就好了,有一些是语义接口根据你句子的语义来进行替换伪原创,这类一般都是nlp模型来做的处理。
3.处理结果
这里就能看到明显不一样了,字数也减少了,伪原创目前来说效果一般般,但是做优化哪能照搬呢,有肯定是更好了。