Files

2026-01-01 17:56:25 +05:30

7.5 KiB

Raw Permalink Blame History

Research Persona Data Retrieval Review

Review Date: 2025-12-30

Summary

After fixing the competitor analysis bug, we reviewed the research persona generation to ensure it correctly retrieves and uses onboarding data. This document outlines findings and fixes.

✅ What's Working Correctly

1. Database Retrieval Pattern

✅ OnboardingDatabaseService.get_persona_data() correctly uses user_id (Clerk ID) to find session
✅ Queries PersonaData table using session.id (database session ID) - CORRECT
✅ Returns data in expected format: {'corePersona': ..., 'platformPersonas': ..., ...}

2. Data Collection Flow

✅ ResearchPersonaService._collect_onboarding_data() correctly calls:
- get_website_analysis(user_id, db)
- get_persona_data(user_id, db)
- get_research_preferences(user_id, db)
✅ All three data sources are successfully retrieved

3. Session Lookup

✅ Uses OnboardingSession.user_id == user_id (Clerk ID) - CORRECT
✅ No parameter confusion like the competitor analysis bug

🐛 Issues Found & Fixed

Issue 1: Prompt Builder Key Mismatch

Problem:

Prompt builder was looking for persona_data.get("core_persona") (snake_case)
But database service returns persona_data.get("corePersona") (camelCase)
The _collect_onboarding_data() method correctly handles both, but prompt builder didn't

Fix Applied:

# Before:
core_persona = persona_data.get("core_persona", {}) or {}

# After:
core_persona = persona_data.get("corePersona") or persona_data.get("core_persona") or {}

File: backend/services/research/research_persona_prompt_builder.py:26

Issue 2: Core Persona Structure Mismatch

Problem:

Code expects core_persona.industry and core_persona.target_audience to exist

Actual structure is:

{
  "identity": {
    "persona_name": "...",
    "archetype": "...",
    "core_belief": "...",
    "brand_voice_description": "..."
  },
  "linguistic_fingerprint": {...},
  "stylistic_constraints": {...},
  "tonal_range": {...}
}

No industry or target_audience fields exist in core persona

Current Behavior (Working as Designed):

Code correctly falls back to website_analysis.target_audience.industry_focus
If not found, infers from research_preferences.content_types
If still not found, uses intelligent defaults

Status: ✅ Working correctly - The fallback logic handles missing fields properly.

📊 Actual Data Structure

Core Persona Structure (from database):

{
  "identity": {
    "persona_name": "The Clarity Architect",
    "archetype": "The Sage",
    "core_belief": "...",
    "brand_voice_description": "..."
  },
  "linguistic_fingerprint": {
    "sentence_metrics": {...},
    "lexical_features": {...},
    ...
  },
  "stylistic_constraints": {...},
  "tonal_range": {...}
}

Where Industry/Audience Actually Come From:

Primary Source: website_analysis.target_audience.industry_focus
Secondary Source: research_preferences.content_types (inferred)
Fallback: Intelligent defaults based on content types

✅ Verification Tests

Test 1: Persona Data Retrieval

persona_data = service.get_persona_data(user_id, db)
# Result: ✅ Successfully retrieved
# Keys: ['corePersona', 'platformPersonas', 'qualityMetrics', 'selectedPlatforms']

Test 2: Website Analysis Retrieval

website_analysis = service.get_website_analysis(user_id, db)
# Result: ✅ Successfully retrieved
# Keys: ['id', 'website_url', 'writing_style', 'content_characteristics', ...]

Test 3: Research Preferences Retrieval

research_prefs = service.get_research_preferences(user_id, db)
# Result: ✅ Successfully retrieved
# Keys: ['id', 'session_id', 'research_depth', 'content_types', ...]

Test 4: Onboarding Data Collection

onboarding_data = service._collect_onboarding_data(user_id)
# Result: ✅ Successfully collected all data sources
# Keys: ['website_analysis', 'persona_data', 'research_preferences', 'business_info']

🔍 Data Flow Verification

Step 1: Database Retrieval ✅

user_id (Clerk ID) 
  → OnboardingSession.user_id == user_id
  → session.id (database ID)
  → PersonaData.session_id == session.id
  → Returns persona data

Step 2: Data Collection ✅

ResearchPersonaService._collect_onboarding_data()
  → get_website_analysis(user_id, db) ✅
  → get_persona_data(user_id, db) ✅
  → get_research_preferences(user_id, db) ✅
  → Constructs business_info with fallbacks ✅

Step 3: Prompt Building ✅ (Fixed)

ResearchPersonaPromptBuilder.build_research_persona_prompt()
  → Extracts core_persona (now handles both camelCase and snake_case) ✅
  → Includes all onboarding data in prompt ✅

Step 4: LLM Generation ✅

llm_text_gen(prompt, json_struct=ResearchPersona.schema())
  → Generates structured ResearchPersona ✅
  → Validates against Pydantic model ✅

Step 5: Database Storage ✅

ResearchPersonaService.save_research_persona()
  → Updates PersonaData.research_persona ✅
  → Sets PersonaData.research_persona_generated_at ✅

📝 Key Differences from Competitor Analysis Bug

Competitor Analysis Bug (Fixed):

❌ Used session_id parameter that was actually user_id (Clerk ID)
❌ Tried to query OnboardingSession.id == session_id (string vs integer)
❌ Tried to save to non-existent session.step_data field

Persona Data Retrieval (Working Correctly):

✅ Uses user_id parameter correctly
✅ Queries OnboardingSession.user_id == user_id (correct)
✅ Queries PersonaData.session_id == session.id (correct)
✅ Saves to correct PersonaData.research_persona field

🎯 Recommendations

1. Industry/Audience Extraction Enhancement (Future)

Consider extracting industry/audience from:

core_persona.identity.brand_voice_description (via NLP analysis)
website_analysis.content_characteristics (patterns suggest industry)
research_preferences (more structured industry field)

2. Data Validation (Future)

Add validation to ensure:

Core persona has expected structure
Website analysis has target_audience data
Research preferences have content_types

3. Logging Enhancement (Future)

Add detailed logging for:

What data sources were used
Which fallbacks were triggered
What fields were inferred vs. extracted

✅ Conclusion

Status: ✅ Persona data retrieval is working correctly

The research persona generation:

✅ Correctly retrieves persona data from database using Clerk user_id
✅ Successfully collects all onboarding data sources
✅ Properly handles missing fields with intelligent fallbacks
✅ Fixed prompt builder key mismatch issue

No critical bugs found - The system is functioning as designed with proper fallback logic for missing industry/audience data.

Files Modified

backend/services/research/research_persona_prompt_builder.py
- Fixed: Handle both corePersona (camelCase) and core_persona (snake_case)

Test Results

All data retrieval tests pass:

✅ Persona data retrieval: Working
✅ Website analysis retrieval: Working
✅ Research preferences retrieval: Working
✅ Onboarding data collection: Working
✅ Prompt building: Fixed and Working

7.5 KiB Raw Permalink Blame History