feat: ContentGuardianAgent, onboarding UX, Team Activity action wiring, docs, agent help modal

ContentGuardianAgent consolidation: - Merge 3 duplicate classes into single source in specialized/content_guardian.py - Watchdog audit_committee() with heuristic scoring, coverage gaps, overlaps, alerts - Remove misleading rejection_rate() helper; use acceptance_rate directly - Integrate audit + alerts + trend signals into today_workflow_service.py Team Activity page: - QualityAuditPanel: health ring, per-agent critiques, coverage gaps, overlaps - TrendSignalsPanel: opportunity cards with urgency/impact/coverage bars - AlertBanner: persistent dismiss via POST /alerts/{id}/mark-read - AgentHelpModal: dialog showing all 8 agents with descriptions, tools, schedule - QualityAuditPanel action buttons: Fill gap -> /content-planning, Resolve overlap, View CTA on alerts/issues - TrendSignalsPanel action buttons: Create content from this trend -> /blog-writer with trend context state Onboarding system: - Step 4 validation: no auto-pass via basic_ready; requires persona data or explicit progression - Step 5 validation: logs warning on auto-pass without integration data - OnboardingCompletionService: single DB session, transactional task creation, upsert pattern - Business-without-website: nullable website_url on SIFIndexingTask and MarketTrendsTask - DeepCompetitorAnalysisExecutor: 5-min timeout, 10-competitor cap, asyncio.wait_for - Persona generation: async with 30s timeout, falls back to scheduler - OnboardingProgressService.reset_onboarding(): resets session + pauses all DB tasks - OnboardingControlService.reset_onboarding(): also cancels APScheduler jobs - FinalStep TaskSchedulingPanel: shows scheduled/failed tasks after completion, 8s auto-redirect - onboarding_completed agent activity event logged to feed Documentation: - docs-site/features/onboarding/: overview, steps, scheduler-tasks, technical-reference (4 pages) - docs-site/mkdocs.yml: added Onboarding System nav section - docs-site/features/sif-agents/: overview, agent-directory, committee-system, content-guardian (4 pages) - docs-site/features/team-activity/: overview, quality-audit, trend-signals, alert-system (4 pages) - docs-site/features/todays-workflow/: updated overview, technical-architecture, workflow-guide, api-reference
2026-06-01 12:24:31 +05:30
parent 9b472f1c18
commit 923fa671fe
90 changed files with 8914 additions and 2731 deletions
--- a/backend/services/intelligence/agents.py
+++ b/backend/services/intelligence/agents.py
@@ -86,185 +86,6 @@ class StrategyArchitectAgent(SIFBaseAgent):
            logger.error(f"[{self.__class__.__name__}] Full traceback: {traceback.format_exc()}")
            return []

-class ContentGuardianAgent(SIFBaseAgent):
-    """Agent for preventing cannibalization and ensuring content originality."""
-    
-    CANNIBALIZATION_THRESHOLD = 0.85  # Similarity threshold for cannibalization warning
-    ORIGINALITY_THRESHOLD = 0.75  # Minimum originality score
-    
-    def __init__(self, intelligence_service: TxtaiIntelligenceService, sif_service: Any = None):
-        super().__init__(intelligence_service)
-        self.sif_service = sif_service
-
-    async def check_cannibalization(self, new_draft: str) -> Dict[str, Any]:
-        """Check if a new draft competes semantically with existing pages."""
-        self._log_agent_operation("Checking for semantic cannibalization", draft_length=len(new_draft))
-        
-        try:
-            if not self.intelligence.is_initialized():
-                logger.error(f"[{self.__class__.__name__}] Intelligence service not initialized")
-                return {"warning": False, "error": "Service not initialized"}
-            
-            if not new_draft or len(new_draft.strip()) < 50:
-                logger.warning(f"[{self.__class__.__name__}] Draft too short for meaningful analysis")
-                return {"warning": False, "reason": "Draft too short"}
-            
-            results = await self.intelligence.search(new_draft, limit=1)
-            
-            if not results:
-                logger.info(f"[{self.__class__.__name__}] No similar content found - draft is unique")
-                return {"warning": False, "uniqueness_score": 1.0}
-            
-            top_result = results[0]
-            similarity_score = top_result.get('score', 0.0)
-            
-            logger.debug(f"[{self.__class__.__name__}] Top similarity score: {similarity_score:.4f}")
-            
-            if similarity_score > self.CANNIBALIZATION_THRESHOLD:
-                warning_data = {
-                    "warning": True,
-                    "similar_to": top_result.get('id', 'unknown'),
-                    "score": similarity_score,
-                    "threshold": self.CANNIBALIZATION_THRESHOLD,
-                    "recommendation": "Consider revising the draft to target a different angle or merge with existing content"
-                }
-                logger.warning(f"[{self.__class__.__name__}] Cannibalization detected: {warning_data}")
-                return warning_data
-            
-            logger.info(f"[{self.__class__.__name__}] No cannibalization detected. Draft is sufficiently unique.")
-            return {"warning": False, "uniqueness_score": 1.0 - similarity_score}
-            
-        except Exception as e:
-            logger.error(f"[{self.__class__.__name__}] Failed to check cannibalization: {e}")
-            logger.error(f"[{self.__class__.__name__}] Full traceback: {traceback.format_exc()}")
-            return {"warning": False, "error": str(e)}
-
-    async def verify_originality(self, text: str, competitor_index: Any) -> Dict[str, Any]:
-        """Verify originality against competitor content index."""
-        self._log_agent_operation("Verifying originality against competitors", text_length=len(text))
-        
-        try:
-            if not text or len(text.strip()) < 50:
-                logger.warning(f"[{self.__class__.__name__}] Text too short for meaningful originality check")
-                return {"originality_score": 0.0, "reason": "Text too short"}
-            
-            # STUB: Implement cross-index search against competitor content
-            # This would search the text against a competitor-specific index
-            
-            logger.info(f"[{self.__class__.__name__}] Originality verification stub completed")
-            return {
-                "originality_score": 0.95,  # Placeholder
-                "confidence": 0.8,
-                "method": "semantic_comparison",
-                "notes": "Competitor index integration pending"
-            }
-            
-        except Exception as e:
-            logger.error(f"[{self.__class__.__name__}] Failed to verify originality: {e}")
-            logger.error(f"[{self.__class__.__name__}] Full traceback: {traceback.format_exc()}")
-            return {"originality_score": 0.0, "error": str(e)}
-
-    async def style_enforcer(self, text: str, style_guidelines: Optional[Dict[str, Any]] = None) -> Dict[str, Any]:
-        """
-        Tool: Ensures content adheres to brand voice and style guidelines.
-        """
-        self._log_agent_operation("Enforcing style guidelines", text_length=len(text))
-        
-        try:
-            if not text:
-                return {"compliance_score": 0.0, "issues": ["No text provided"]}
-
-            # 1. Fetch Style Guidelines from SIF if not provided
-            if not style_guidelines and self.sif_service:
-                try:
-                    # Search for website analysis to get brand voice/style
-                    # We assume the most relevant 'website_analysis' doc contains the guidelines
-                    results = await self.intelligence.search("website analysis brand voice style", limit=1)
-                    if results:
-                        import json
-                        res = results[0]
-                        metadata_str = res.get('object')
-                        metadata = json.loads(metadata_str) if isinstance(metadata_str, str) else (metadata_str or res)
-                        
-                        if metadata.get('type') == 'website_analysis':
-                            report = metadata.get('full_report', {})
-                            style_guidelines = {
-                                "tone": report.get('brand_analysis', {}).get('brand_voice', 'neutral'),
-                                "style_patterns": report.get('style_patterns', {}),
-                                "writing_style": report.get('writing_style', {})
-                            }
-                            logger.info(f"[{self.__class__.__name__}] Retrieved style guidelines from SIF: {style_guidelines.get('tone')}")
-                except Exception as e:
-                    logger.warning(f"[{self.__class__.__name__}] Failed to retrieve style guidelines from SIF: {e}")
-
-            issues = []
-            score = 1.0
-            
-            # Basic Heuristic Checks (Placeholder for LLM-based style analysis)
-            
-            # 1. Tone Check (e.g., formal vs casual)
-            # If guidelines specify 'formal', check for contractions
-            tone = style_guidelines.get('tone', '').lower() if style_guidelines else ''
-            if 'formal' in tone or 'professional' in tone:
-                contractions = ["can't", "won't", "don't", "it's"]
-                found_contractions = [c for c in contractions if c in text.lower()]
-                if found_contractions:
-                    issues.append(f"Found contractions in formal text: {', '.join(found_contractions[:3])}...")
-                    score -= 0.1
-            
-            # 2. Length/Sentence Structure (simple metric)
-            sentences = text.split('.')
-            avg_len = sum(len(s.split()) for s in sentences if s) / max(1, len(sentences))
-            if avg_len > 25:
-                issues.append("Average sentence length is too high (>25 words). Consider shortening.")
-                score -= 0.1
-                
-            return {
-                "compliance_score": max(0.0, score),
-                "issues": issues,
-                "is_compliant": score > 0.8,
-                "guidelines_source": "sif_index" if not style_guidelines and self.sif_service else "provided"
-            }
-            
-        except Exception as e:
-            logger.error(f"[{self.__class__.__name__}] Style enforcement failed: {e}")
-            return {"error": str(e)}
-
-    async def safety_filter(self, text: str) -> Dict[str, Any]:
-        """
-        Tool: Flags potentially harmful, offensive, or sensitive content.
-        """
-        self._log_agent_operation("Running safety filter", text_length=len(text))
-        
-        try:
-            # Basic Keyword Blocklist (Placeholder for LLM/Safety Model)
-            # In production, this should call a dedicated safety API (e.g., OpenAI Moderation, Llama Guard)
-            unsafe_keywords = [
-                "hate", "kill", "murder", "attack", "destroy", # Violent
-                "scam", "fraud", "steal", # Illegal
-                "explicit", "adult" # NSFW
-            ]
-            
-            found_flags = []
-            text_lower = text.lower()
-            
-            for keyword in unsafe_keywords:
-                if f" {keyword} " in text_lower: # Simple word boundary check
-                    found_flags.append(keyword)
-            
-            is_safe = len(found_flags) == 0
-            
-            return {
-                "is_safe": is_safe,
-                "flags": found_flags,
-                "safety_score": 1.0 if is_safe else 0.0,
-                "action": "approve" if is_safe else "flag_for_review"
-            }
-            
-        except Exception as e:
-            logger.error(f"[{self.__class__.__name__}] Safety filter failed: {e}")
-            return {"error": str(e)}
-
 class LinkGraphAgent(SIFBaseAgent):
    """
    Agent for internal link suggestions, graph management, and authority analysis.