Skip to main content

コンテンツセキュリティ管理

禁止用語管理

禁止用語管理機能は、ユーザーが禁止用語リストを定義、閲覧、管理できるようにします。この機能を通じて、特定のコンプライアンス要件やコミュニティガイドラインに従うために、望ましくないコンテンツを制御およびフィルタリングすることが可能です。

禁止用語管理ページの主な機能は以下の通りです:

  • 禁止用語の追加:新しい禁止用語をリストに追加し、将来のコンテンツでそれらが識別および処理されるようにします。
  • 禁止用語リストの閲覧:定義済みのすべての禁止用語を一覧表示し、それらの有効状態、説明、作成日時を確認できます。
  • 禁止用語の管理:特定の禁止用語を有効化または無効化したり、その説明情報を更新することができます。


コンテンツ審査モデル

信頼度(Confidence)は、通常、モデルやシステムがその予測結果に対してどれだけ確信を持っているかを示す指標です。

コンテンツ審査モデルの文脈では、信頼度の閾値設定は重要な機能であり、モデルが特定のカテゴリ(スパム、不適切なコンテンツなど)としてコンテンツをマークする前に、最低限必要な信頼度レベルをユーザーが定義できるようにします。この設定により、閾値に応じて誤検出や見逃しの数を減らすことができます。

例えば、信頼度の閾値が0.8に設定されている場合、モデルが予測結果に対して少なくとも80%の信頼度を持っている場合にのみ、そのコンテンツを不適切とマークします。これにより、モデルが非常に確信を持っているケースのみがアクション対象となることを保証します。