あくまでも手法、それも機械的に可能と思われ かつ スパムとして利用できそうなものを独断と偏見と思いつきで分類してみます。
これスパムの手法っぽいんじゃん?ってのも他にいくつかあるんですが、機械的に生成できそうにないものは除外しました。
■全引用型
・コピペ
・もととなる記事をどこからか拾ってきてそのまま用いる
・もっとも原始的
・引用もとに対する感想に見せかけたコメントを挿入する場合がしばしば
・無名サイトを丸ごとコピーする悪質極まりないケースもある
■部分引用型
・コピペ
・もととなる記事をどこからか拾ってきて、部分的に切り張りして使う
・1コンテンツに対して複数の引用文を用いることで、検索エンジンをだましやすくなる
・それぞれの引用に対するコメントを機械的に付与するのが結構難関
■再生成型
・ワードサラダ
・引用型をだいぶ高度にしたもの
・もとになる文章をどこからか拾ってきて切り貼りして使う
・手動のほか機械的に作られる場合もある
・機械的に生成する場合、マルコフ連鎖やベイジアンネットワークが使われる
■定型文型
・テンプレ
・定型文に任意のキーワードを埋め込む手法
・定型文はたとえば5W1Hなど、構文を定型化する
・文章構造自体はオリジナルである場合が多い
・機械的、半機械的に生成される場合が多い
■置換型
・定型文型を少し高度にしたもの
・定型文自体を機械的に生成する
・定型文の元記事をどこからか拾ってきて形態素解析し、品詞やキーワードを置換する
■完全置換型
・引用もとの文章構造を抽出し、そのすべての文言を同活用/同形態素の別文言に置き換える
・文章構造を参考にすることで日本語としての体を確保し、別の文言にすることでオリジナルの文章を偽装する
■編纂型
・ワードライズ
・引用元の文章をそのまま用いるのではなく、否定、仮定、命令などの別活用や、同義語や類義語に書き換える
・置換型の類型
■校正型
・引用文を文章校正にかけ、校正後の内容を使用する
・校正個所がなさそうな文章は選択しても意味がないので、個人ブログの文章などが適している
■翻訳型
・他言語の引用文を翻訳サービスに丸投げし、出来あがった翻訳文を使用する
・ぱっと見めちゃくちゃになりがちだが、構文的には正しいことが多いので検索エンジンは騙しやすい
■多重翻訳型
・日本語の引用文を一度他言語に翻訳し、日本語に翻訳し直す
・さらに他の言語を介しても良い
・翻訳エンジンの不可逆性を利用したお手軽な手法
■列挙型
・ヘッドライン
・複数の関連しそうな記事を拾い、短いセンテンスを拾って適当に並べたり文章っぽくしたりする
■件名列挙型
・ヘッドライン
・ニュースの人気記事や有名ブログの最新記事を機械的に拾ってきて羅列する
・内容に見合った短文コメントを機械的に付与するのが結構難関
■要約型
・引用文をなんらかの方法で要約/短縮して使用する
・短絡的で強引な手段としては、文章を句読点で分解し、最初と最後を繋げる手法などが考えられる
・係り受けなどを考慮するとそれらしい要約が出来る
■引用もとになりやすいのは
・Wikipedia
・有名ブログ
・QAサイト
・ニュースサイト
・NAVERまとめ
・まとめサイト
・2ch
など、まとまった文章量があって かつ 文章を抜きやすいサービス
NAVERまとめに至ってはシェア(転用/引用)が前提のサービス
■おまけ:コメントを他人のふんどしで賄う方法もある
・引用もとサイトとは別のサイトで付いているコメントを拾う
・たとえばはてブコメントを引っ張ってくる
・商品であればレビューの内容
・引用もとのURLでWeb検索して、言及しているブログの文章の一部をコメントとして切り出す方法も考えられる
・そのまま使うとリスクが高いので、品詞情報を書き換えるなどして使うとリスクが下がる
具体的な機械的実装は書きませんよ。
あくまで手法の紹介ということで。
そのうちネタサービスでジェネレータのようなものを作ろうかと思います。
吉野家コピペとかルイズコピペをテンプレにして時事ニュースの形態素を組み込んだら面白いんじゃないかなー、とか妄想してます。