day1-progress/backend/embeddings.py

"""Embeddings generation for DS Task AI News"""
import os
import numpy as np
from typing import List, Dict, Any, Optional
try:
    from sentence_transformers import SentenceTransformer
    SENTENCE_TRANSFORMERS_AVAILABLE = True
except ImportError:
    SENTENCE_TRANSFORMERS_AVAILABLE = False
    print("⚠️  Sentence Transformers not available")

try:
    import cohere
    COHERE_AVAILABLE = True
except ImportError:
    COHERE_AVAILABLE = False
    print("⚠️  Cohere not available")

from config import settings

class EmbeddingGenerator:
    def __init__(self):
        self.cohere_client = None
        self.sentence_model = None
        self.use_cohere = COHERE_AVAILABLE and bool(settings.cohere_api_key)
        self.use_sentence_transformers = SENTENCE_TRANSFORMERS_AVAILABLE
        self.model_loaded = False
        self.dimension = settings.vector_dimension
        self.embedding_method = "hash"  # Default fallback

        # Priority: 1. Local Sentence Transformers, 2. Cohere, 3. Hash fallback
        # Use lazy loading for faster startup
        if self.use_sentence_transformers:
            print("🚀 Sentence Transformers available - will load on first use")
            self.embedding_method = "sentence_transformers"
            self.model_loaded = True  # Mark as ready for lazy loading

        if not self.use_sentence_transformers and self.use_cohere:
            try:
                self.cohere_client = cohere.Client(settings.cohere_api_key)
                self.embedding_method = "cohere"
                print("✅ Using Cohere for embeddings")
                self.model_loaded = True
            except Exception as e:
                print(f"❌ Cohere initialization failed: {e}")
                self.use_cohere = False

        if not self.use_sentence_transformers and not self.use_cohere:
            print("⚡ Using enhanced hash-based embeddings as fallback")
            self.embedding_method = "hash"
            self.model_loaded = True

    def _load_sentence_model(self):
        """Lazy load sentence transformer model on first use"""
        if self.sentence_model is None and self.use_sentence_transformers:
            try:
                print("📥 Loading Sentence Transformers model (first use)...")
                print("🌐 This may take a few minutes for initial download...")

                # Set longer timeout for model download
                import socket
                original_timeout = socket.getdefaulttimeout()
                socket.setdefaulttimeout(300)  # 5 minutes timeout

                try:
                    self.sentence_model = SentenceTransformer(settings.embedding_model)
                    print("✅ Sentence Transformers loaded successfully!")
                    print(f"📊 Model dimension: {self.sentence_model.get_sentence_embedding_dimension()}")
                    self.model_loaded = True
                    return True
                finally:
                    # Restore original timeout
                    socket.setdefaulttimeout(original_timeout)

            except Exception as e:
                print(f"❌ Failed to load Sentence Transformers: {e}")
                print("🔄 Retrying with cache_folder parameter...")

                # Try with explicit cache folder
                try:
                    import os
                    cache_dir = os.path.expanduser("~/.cache/huggingface/transformers")
                    os.makedirs(cache_dir, exist_ok=True)

                    self.sentence_model = SentenceTransformer(
                        settings.embedding_model,
                        cache_folder=cache_dir
                    )
                    print("✅ Sentence Transformers loaded successfully on retry!")
                    print(f"📊 Model dimension: {self.sentence_model.get_sentence_embedding_dimension()}")
                    self.model_loaded = True
                    return True
                except Exception as e2:
                    print(f"❌ Retry also failed: {e2}")
                    raise Exception(f"Cannot load Sentence Transformers model: {e2}")

        return self.sentence_model is not None

    def _simple_text_to_vector(self, text: str) -> np.ndarray:
        """Convert text to a simple vector using basic hashing (fallback method)"""
        words = text.lower().split()
        vector = np.zeros(self.dimension)

        for i, word in enumerate(words[:50]):  # Use first 50 words
            hash_val = hash(word) % self.dimension
            vector[hash_val] += 1.0 / (i + 1)  # Weight by position

        # Normalize
        norm = np.linalg.norm(vector)
        if norm > 0:
            vector = vector / norm

        return vector
    
    def create_article_text(self, article: Dict[str, Any]) -> str:
        """Combine article fields into text for embedding"""
        title = article.get('title', '')
        content = article.get('content', '')
        source = article.get('source', '')
        
        # Combine with weights (title is more important)
        text = f"{title}. {content}"
        if source:
            text += f" Source: {source}"
        
        return text.strip()
    
    def generate_embeddings_cohere(self, texts: List[str]) -> np.ndarray:
        """Generate embeddings using Cohere"""
        try:
            response = self.cohere_client.embed(
                texts=texts,
                model='embed-english-v3.0',
                input_type='search_document'
            )
            return np.array(response.embeddings)
        except Exception as e:
            print(f"Cohere embedding error: {e}")
            raise
    
    def generate_embeddings_sentence_transformer(self, texts: List[str]) -> np.ndarray:
        """Generate embeddings using Sentence Transformers"""
        try:
            if not self.model_loaded and SENTENCE_TRANSFORMERS_AVAILABLE:
                self._load_sentence_model()

            if self.sentence_model is None:
                # Use simple hash-based embeddings as fallback
                print("⚠️  Using simple hash-based embeddings (Sentence Transformers not available)")
                embeddings = []
                for text in texts:
                    embedding = self._simple_text_to_vector(text)
                    embeddings.append(embedding)
                return np.array(embeddings)

            embeddings = self.sentence_model.encode(texts, convert_to_numpy=True)
            return embeddings
        except Exception as e:
            print(f"❌ Sentence Transformer embedding error: {e}")
            # Use simple embeddings as fallback
            print("⚠️  Falling back to simple hash-based embeddings")
            embeddings = []
            for text in texts:
                embedding = self._simple_text_to_vector(text)
                embeddings.append(embedding)
            return np.array(embeddings)
    
    def generate_embeddings(self, articles: List[Dict[str, Any]]) -> np.ndarray:
        """Generate embeddings for articles using best available method"""
        if not articles:
            return np.array([])

        # Create texts for embedding
        texts = [self.create_article_text(article) for article in articles]

        print(f"🔄 Generating embeddings for {len(texts)} articles using {self.embedding_method}...")

        # Priority: Sentence Transformers > Cohere > Hash fallback
        if self.use_sentence_transformers:
            # Lazy load model on first use
            if self._load_sentence_model():
                embeddings = self.generate_embeddings_sentence_transformer(texts)
            else:
                # Fallback to hash if model loading failed
                embeddings = np.array([self._simple_text_to_vector(text) for text in texts])
        elif self.use_cohere:
            embeddings = self.generate_embeddings_cohere(texts)
        else:
            # Enhanced hash-based fallback
            embeddings = np.array([self._simple_text_to_vector(text) for text in texts])

        print(f"✅ Generated embeddings shape: {embeddings.shape}")
        return embeddings
    
    def generate_query_embedding(self, query: str) -> np.ndarray:
        """Generate embedding for a search query using best available method"""
        print(f"🔍 Generating query embedding using {self.embedding_method}...")

        # Priority: Sentence Transformers > Cohere > Hash fallback
        if self.use_sentence_transformers:
            # Lazy load model on first use
            if self._load_sentence_model():
                try:
                    embedding = self.sentence_model.encode([query], convert_to_numpy=True)[0]
                    print(f"✅ Query embedding generated with shape: {embedding.shape}")
                    return embedding
                except Exception as e:
                    print(f"❌ Sentence Transformers query error: {e}")

        if self.use_cohere:
            try:
                response = self.cohere_client.embed(
                    texts=[query],
                    model='embed-english-v3.0',
                    input_type='search_query'
                )
                embedding = np.array(response.embeddings[0])
                print(f"✅ Query embedding generated with shape: {embedding.shape}")
                return embedding
            except Exception as e:
                print(f"❌ Cohere query embedding error: {e}")

        # Fallback to hash-based embeddings
        print("⚡ Using hash-based fallback for query embedding")
        return self._simple_text_to_vector(query)
    
    def compute_similarity(self, embedding1: np.ndarray, embedding2: np.ndarray) -> float:
        """Compute cosine similarity between two embeddings"""
        # Normalize embeddings
        norm1 = np.linalg.norm(embedding1)
        norm2 = np.linalg.norm(embedding2)
        
        if norm1 == 0 or norm2 == 0:
            return 0.0
        
        # Cosine similarity
        similarity = np.dot(embedding1, embedding2) / (norm1 * norm2)
        return float(similarity)
    
    def find_similar_articles(self, query_embedding: np.ndarray, 
                            article_embeddings: np.ndarray, 
                            articles: List[Dict[str, Any]], 
                            top_k: int = 5) -> List[Dict[str, Any]]:
        """Find most similar articles to query"""
        if len(article_embeddings) == 0:
            return []
        
        similarities = []
        for i, article_embedding in enumerate(article_embeddings):
            similarity = self.compute_similarity(query_embedding, article_embedding)
            similarities.append((similarity, i))
        
        # Sort by similarity (descending)
        similarities.sort(reverse=True)
        
        # Get top-k results
        results = []
        for similarity, idx in similarities[:top_k]:
            if similarity >= settings.similarity_threshold:
                article = articles[idx].copy()
                article['similarity_score'] = similarity
                results.append(article)
        
        return results

# Test function
if __name__ == "__main__":
    # Test with sample articles
    sample_articles = [
        {
            "title": "AI Revolution in Healthcare",
            "content": "Artificial intelligence is transforming medical diagnosis and treatment.",
            "source": "TechNews"
        },
        {
            "title": "Climate Change Solutions",
            "content": "New technologies are being developed to combat global warming.",
            "source": "ScienceDaily"
        }
    ]
    
    generator = EmbeddingGenerator()
    embeddings = generator.generate_embeddings(sample_articles)
    print(f"Test embeddings shape: {embeddings.shape}")
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`"""Embeddings generation for DS Task AI News"""`
			`import os`
			`import numpy as np`
			`from typing import List, Dict, Any, Optional`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`try:`
			`from sentence_transformers import SentenceTransformer`
			`SENTENCE_TRANSFORMERS_AVAILABLE = True`
			`except ImportError:`
			`SENTENCE_TRANSFORMERS_AVAILABLE = False`
			`print("⚠️ Sentence Transformers not available")`

			`try:`
			`import cohere`
			`COHERE_AVAILABLE = True`
			`except ImportError:`
			`COHERE_AVAILABLE = False`
			`print("⚠️ Cohere not available")`

feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`from config import settings`

			`class EmbeddingGenerator:`
			`def __init__(self):`
			`self.cohere_client = None`
			`self.sentence_model = None`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`self.use_cohere = COHERE_AVAILABLE and bool(settings.cohere_api_key)`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`self.use_sentence_transformers = SENTENCE_TRANSFORMERS_AVAILABLE`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`self.model_loaded = False`
			`self.dimension = settings.vector_dimension`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`self.embedding_method = "hash" # Default fallback`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`# Priority: 1. Local Sentence Transformers, 2. Cohere, 3. Hash fallback`
			`# Use lazy loading for faster startup`
			`if self.use_sentence_transformers:`
			`print("🚀 Sentence Transformers available - will load on first use")`
			`self.embedding_method = "sentence_transformers"`
			`self.model_loaded = True # Mark as ready for lazy loading`

			`if not self.use_sentence_transformers and self.use_cohere:`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`try:`
			`self.cohere_client = cohere.Client(settings.cohere_api_key)`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`self.embedding_method = "cohere"`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`print("✅ Using Cohere for embeddings")`
			`self.model_loaded = True`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`except Exception as e:`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`print(f"❌ Cohere initialization failed: {e}")`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`self.use_cohere = False`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`if not self.use_sentence_transformers and not self.use_cohere:`
			`print("⚡ Using enhanced hash-based embeddings as fallback")`
			`self.embedding_method = "hash"`
			`self.model_loaded = True`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00
			`def _load_sentence_model(self):`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`"""Lazy load sentence transformer model on first use"""`
			`if self.sentence_model is None and self.use_sentence_transformers:`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`try:`
feat: Complete AI transformation to production-ready system 2025-07-09 12:31:24 +01:00			`print("📥 Loading Sentence Transformers model (first use)...")`
			`print("🌐 This may take a few minutes for initial download...")`

			`# Set longer timeout for model download`
			`import socket`
			`original_timeout = socket.getdefaulttimeout()`
			`socket.setdefaulttimeout(300) # 5 minutes timeout`

			`try:`
			`self.sentence_model = SentenceTransformer(settings.embedding_model)`
			`print("✅ Sentence Transformers loaded successfully!")`
			`print(f"📊 Model dimension: {self.sentence_model.get_sentence_embedding_dimension()}")`
			`self.model_loaded = True`
			`return True`
			`finally:`
			`# Restore original timeout`
			`socket.setdefaulttimeout(original_timeout)`

feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`except Exception as e:`
feat: Complete AI transformation to production-ready system 2025-07-09 12:31:24 +01:00			`print(f"❌ Failed to load Sentence Transformers: {e}")`
			`print("🔄 Retrying with cache_folder parameter...")`

			`# Try with explicit cache folder`
			`try:`
			`import os`
			`cache_dir = os.path.expanduser("~/.cache/huggingface/transformers")`
			`os.makedirs(cache_dir, exist_ok=True)`

			`self.sentence_model = SentenceTransformer(`
			`settings.embedding_model,`
			`cache_folder=cache_dir`
			`)`
			`print("✅ Sentence Transformers loaded successfully on retry!")`
			`print(f"📊 Model dimension: {self.sentence_model.get_sentence_embedding_dimension()}")`
			`self.model_loaded = True`
			`return True`
			`except Exception as e2:`
			`print(f"❌ Retry also failed: {e2}")`
			`raise Exception(f"Cannot load Sentence Transformers model: {e2}")`

feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`return self.sentence_model is not None`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00
			`def _simple_text_to_vector(self, text: str) -> np.ndarray:`
			`"""Convert text to a simple vector using basic hashing (fallback method)"""`
			`words = text.lower().split()`
			`vector = np.zeros(self.dimension)`

			`for i, word in enumerate(words[:50]): # Use first 50 words`
			`hash_val = hash(word) % self.dimension`
			`vector[hash_val] += 1.0 / (i + 1) # Weight by position`

			`# Normalize`
			`norm = np.linalg.norm(vector)`
			`if norm > 0:`
			`vector = vector / norm`

			`return vector`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00
			`def create_article_text(self, article: Dict[str, Any]) -> str:`
			`"""Combine article fields into text for embedding"""`
			`title = article.get('title', '')`
			`content = article.get('content', '')`
			`source = article.get('source', '')`

			`# Combine with weights (title is more important)`
			`text = f"{title}. {content}"`
			`if source:`
			`text += f" Source: {source}"`

			`return text.strip()`

			`def generate_embeddings_cohere(self, texts: List[str]) -> np.ndarray:`
			`"""Generate embeddings using Cohere"""`
			`try:`
			`response = self.cohere_client.embed(`
			`texts=texts,`
			`model='embed-english-v3.0',`
			`input_type='search_document'`
			`)`
			`return np.array(response.embeddings)`
			`except Exception as e:`
			`print(f"Cohere embedding error: {e}")`
			`raise`

			`def generate_embeddings_sentence_transformer(self, texts: List[str]) -> np.ndarray:`
			`"""Generate embeddings using Sentence Transformers"""`
			`try:`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`if not self.model_loaded and SENTENCE_TRANSFORMERS_AVAILABLE:`
			`self._load_sentence_model()`

			`if self.sentence_model is None:`
			`# Use simple hash-based embeddings as fallback`
			`print("⚠️ Using simple hash-based embeddings (Sentence Transformers not available)")`
			`embeddings = []`
			`for text in texts:`
			`embedding = self._simple_text_to_vector(text)`
			`embeddings.append(embedding)`
			`return np.array(embeddings)`

feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`embeddings = self.sentence_model.encode(texts, convert_to_numpy=True)`
			`return embeddings`
			`except Exception as e:`
feat: Complete AI-powered news system with working embeddings and vector search 2025-07-07 20:32:23 +01:00			`print(f"❌ Sentence Transformer embedding error: {e}")`
			`# Use simple embeddings as fallback`
			`print("⚠️ Falling back to simple hash-based embeddings")`
			`embeddings = []`
			`for text in texts:`
			`embedding = self._simple_text_to_vector(text)`
			`embeddings.append(embedding)`
			`return np.array(embeddings)`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00
			`def generate_embeddings(self, articles: List[Dict[str, Any]]) -> np.ndarray:`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`"""Generate embeddings for articles using best available method"""`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`if not articles:`
			`return np.array([])`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`# Create texts for embedding`
			`texts = [self.create_article_text(article) for article in articles]`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00
			`print(f"🔄 Generating embeddings for {len(texts)} articles using {self.embedding_method}...")`

			`# Priority: Sentence Transformers > Cohere > Hash fallback`
			`if self.use_sentence_transformers:`
			`# Lazy load model on first use`
			`if self._load_sentence_model():`
			`embeddings = self.generate_embeddings_sentence_transformer(texts)`
			`else:`
			`# Fallback to hash if model loading failed`
			`embeddings = np.array([self._simple_text_to_vector(text) for text in texts])`
			`elif self.use_cohere:`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`embeddings = self.generate_embeddings_cohere(texts)`
			`else:`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`# Enhanced hash-based fallback`
			`embeddings = np.array([self._simple_text_to_vector(text) for text in texts])`

			`print(f"✅ Generated embeddings shape: {embeddings.shape}")`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`return embeddings`

			`def generate_query_embedding(self, query: str) -> np.ndarray:`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`"""Generate embedding for a search query using best available method"""`
			`print(f"🔍 Generating query embedding using {self.embedding_method}...")`

			`# Priority: Sentence Transformers > Cohere > Hash fallback`
			`if self.use_sentence_transformers:`
			`# Lazy load model on first use`
			`if self._load_sentence_model():`
			`try:`
			`embedding = self.sentence_model.encode([query], convert_to_numpy=True)[0]`
			`print(f"✅ Query embedding generated with shape: {embedding.shape}")`
			`return embedding`
			`except Exception as e:`
			`print(f"❌ Sentence Transformers query error: {e}")`

feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`if self.use_cohere:`
			`try:`
			`response = self.cohere_client.embed(`
			`texts=[query],`
			`model='embed-english-v3.0',`
			`input_type='search_query'`
			`)`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`embedding = np.array(response.embeddings[0])`
			`print(f"✅ Query embedding generated with shape: {embedding.shape}")`
			`return embedding`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00			`except Exception as e:`
feat: Complete all 4 major optimization tasks 2025-07-08 16:45:38 +01:00			`print(f"❌ Cohere query embedding error: {e}")`

			`# Fallback to hash-based embeddings`
			`print("⚡ Using hash-based fallback for query embedding")`
			`return self._simple_text_to_vector(query)`
feat: Implement complete RSS news fetching system with multi-source support 2025-07-07 18:31:38 +01:00
			`def compute_similarity(self, embedding1: np.ndarray, embedding2: np.ndarray) -> float:`
			`"""Compute cosine similarity between two embeddings"""`
			`# Normalize embeddings`
			`norm1 = np.linalg.norm(embedding1)`
			`norm2 = np.linalg.norm(embedding2)`

			`if norm1 == 0 or norm2 == 0:`
			`return 0.0`

			`# Cosine similarity`
			`similarity = np.dot(embedding1, embedding2) / (norm1 * norm2)`
			`return float(similarity)`

			`def find_similar_articles(self, query_embedding: np.ndarray,`
			`article_embeddings: np.ndarray,`
			`articles: List[Dict[str, Any]],`
			`top_k: int = 5) -> List[Dict[str, Any]]:`
			`"""Find most similar articles to query"""`
			`if len(article_embeddings) == 0:`
			`return []`

			`similarities = []`
			`for i, article_embedding in enumerate(article_embeddings):`
			`similarity = self.compute_similarity(query_embedding, article_embedding)`
			`similarities.append((similarity, i))`

			`# Sort by similarity (descending)`
			`similarities.sort(reverse=True)`

			`# Get top-k results`
			`results = []`
			`for similarity, idx in similarities[:top_k]:`
			`if similarity >= settings.similarity_threshold:`
			`article = articles[idx].copy()`
			`article['similarity_score'] = similarity`
			`results.append(article)`

			`return results`

			`# Test function`
			`if __name__ == "__main__":`
			`# Test with sample articles`
			`sample_articles = [`
			`{`
			`"title": "AI Revolution in Healthcare",`
			`"content": "Artificial intelligence is transforming medical diagnosis and treatment.",`
			`"source": "TechNews"`
			`},`
			`{`
			`"title": "Climate Change Solutions",`
			`"content": "New technologies are being developed to combat global warming.",`
			`"source": "ScienceDaily"`
			`}`
			`]`

			`generator = EmbeddingGenerator()`
			`embeddings = generator.generate_embeddings(sample_articles)`
			`print(f"Test embeddings shape: {embeddings.shape}")`