コンテンツ安全管理
禁止用語管理
禁止用語管理機能は、ユーザーが禁止用語リストを定義、閲覧、管理することを可能にします。この機能を通じて、ユーザーは特定のコンプライアンス要件やコミュニティガイドラインに従い、望ましくないコンテンツを制御およびフィルタリングすることができます。
禁止用語管理ページの主な機能は以下の通りです:
- 禁止用語の追加:新しい禁止用語をリストに追加し、今後のコンテンツでそれらが識別・処理されるようにします。
- 禁止用語リストの閲覧:定義済みのすべての禁止用語の概要を提供し、それらの有効状態、説明、作成日時を確認できます。
- 禁止用語の管理:特定の禁止用語を有効化または無効化し、それらの説明情報を更新することができます。
コンテンツ審査モデル
信頼度(Confidence)は、通常、モデルやシステムがその予測結果に対してどれだけ確信を持っているかを示す指標です。
コンテンツ審査モデルの文脈では、信頼度閾値の設定は重要な機能であり、モデルが特定のカテゴリ(例えば、スパム、不適切なコンテンツなど)としてコンテンツをマークする前に達成すべき最低信頼度レベルをユーザーが定義することを可能にします。この設定により、閾値に応じて誤検出や見逃しを減らすことができます。
例えば、信頼度閾値が0.8に設定されている場合、モデルがその予測結果に対して少なくとも80%の信頼度を持っている場合にのみ、コンテンツを不適切とマークします。これにより、モデルが非常に確信を持っているケースのみがアクション対象となることを保証します。