há 2 anos atrás · 283979fc46
--- a/api/core/indexing_runner.py
+++ b/api/core/indexing_runner.py
@@ -19,6 +19,7 @@ from core.model_manager import ModelInstance, ModelManager
 
				 from core.model_runtime.entities.model_entities import ModelType, PriceType
			
 
				 from core.model_runtime.model_providers.__base.large_language_model import LargeLanguageModel
			
 
				 from core.model_runtime.model_providers.__base.text_embedding_model import TextEmbeddingModel
			
 
				+from core.rag.datasource.keyword.keyword_factory import Keyword
			
 
				 from core.rag.extractor.entity.extract_setting import ExtractSetting
			
 
				 from core.rag.index_processor.index_processor_base import BaseIndexProcessor
			
 
				 from core.rag.index_processor.index_processor_factory import IndexProcessorFactory
			
@@ -657,18 +658,25 @@ class IndexingRunner:
 
				         if embedding_model_instance:
			
 
				             embedding_model_type_instance = embedding_model_instance.model_type_instance
			
 
				             embedding_model_type_instance = cast(TextEmbeddingModel, embedding_model_type_instance)
			
 
				-        with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
			
 
				-            futures = []
			
 
				-            for i in range(0, len(documents), chunk_size):
			
 
				-                chunk_documents = documents[i:i + chunk_size]
			
 
				-                futures.append(executor.submit(self._process_chunk, current_app._get_current_object(), index_processor,
			
 
				-                                               chunk_documents, dataset,
			
 
				-                                               dataset_document, embedding_model_instance,
			
 
				-                                               embedding_model_type_instance))
			
 
				-
			
 
				-            for future in futures:
			
 
				-                tokens += future.result()
			
 
				-
			
 
				+        # create keyword index
			
 
				+        create_keyword_thread = threading.Thread(target=self._process_keyword_index,
			
 
				+                                                 args=(current_app._get_current_object(),
			
 
				+                                                       dataset, dataset_document, documents))
			
 
				+        create_keyword_thread.start()
			
 
				+        if dataset.indexing_technique == 'high_quality':
			
 
				+            with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
			
 
				+                futures = []
			
 
				+                for i in range(0, len(documents), chunk_size):
			
 
				+                    chunk_documents = documents[i:i + chunk_size]
			
 
				+                    futures.append(executor.submit(self._process_chunk, current_app._get_current_object(), index_processor,
			
 
				+                                                   chunk_documents, dataset,
			
 
				+                                                   dataset_document, embedding_model_instance,
			
 
				+                                                   embedding_model_type_instance))
			
 
				+
			
 
				+                for future in futures:
			
 
				+                    tokens += future.result()
			
 
				+
			
 
				+        create_keyword_thread.join()
			
 
				         indexing_end_at = time.perf_counter()
			
 
				 
			
 
				         # update document status to completed
			
@@ -682,6 +690,24 @@ class IndexingRunner:
 
				             }
			
 
				         )
			
 
				 
			
 
				+    def _process_keyword_index(self, flask_app, dataset, dataset_document, documents):
			
 
				+        with flask_app.app_context():
			
 
				+            keyword = Keyword(dataset)
			
 
				+            keyword.create(documents)
			
 
				+            if dataset.indexing_technique != 'high_quality':
			
 
				+                document_ids = [document.metadata['doc_id'] for document in documents]
			
 
				+                db.session.query(DocumentSegment).filter(
			
 
				+                    DocumentSegment.document_id == dataset_document.id,
			
 
				+                    DocumentSegment.index_node_id.in_(document_ids),
			
 
				+                    DocumentSegment.status == "indexing"
			
 
				+                ).update({
			
 
				+                    DocumentSegment.status: "completed",
			
 
				+                    DocumentSegment.enabled: True,
			
 
				+                    DocumentSegment.completed_at: datetime.datetime.utcnow()
			
 
				+                })
			
 
				+
			
 
				+                db.session.commit()
			
 
				+
			
 
				     def _process_chunk(self, flask_app, index_processor, chunk_documents, dataset, dataset_document,
			
 
				                        embedding_model_instance, embedding_model_type_instance):
			
 
				         with flask_app.app_context():
			
@@ -700,7 +726,7 @@ class IndexingRunner:
 
				                 )
			
 
				 
			
 
				             # load index
			
 
				-            index_processor.load(dataset, chunk_documents)
			
 
				+            index_processor.load(dataset, chunk_documents, with_keywords=False)
			
 
				 
			
 
				             document_ids = [document.metadata['doc_id'] for document in chunk_documents]
			
 
				             db.session.query(DocumentSegment).filter(
			
--- a/api/core/rag/datasource/keyword/jieba/jieba.py
+++ b/api/core/rag/datasource/keyword/jieba/jieba.py
@@ -24,56 +24,64 @@ class Jieba(BaseKeyword):
 
				         self._config = KeywordTableConfig()
			
 
				 
			
 
				     def create(self, texts: list[Document], **kwargs) -> BaseKeyword:
			
 
				-        keyword_table_handler = JiebaKeywordTableHandler()
			
 
				-        keyword_table = self._get_dataset_keyword_table()
			
 
				-        for text in texts:
			
 
				-            keywords = keyword_table_handler.extract_keywords(text.page_content, self._config.max_keywords_per_chunk)
			
 
				-            self._update_segment_keywords(self.dataset.id, text.metadata['doc_id'], list(keywords))
			
 
				-            keyword_table = self._add_text_to_keyword_table(keyword_table, text.metadata['doc_id'], list(keywords))
			
 
				+        lock_name = 'keyword_indexing_lock_{}'.format(self.dataset.id)
			
 
				+        with redis_client.lock(lock_name, timeout=600):
			
 
				+            keyword_table_handler = JiebaKeywordTableHandler()
			
 
				+            keyword_table = self._get_dataset_keyword_table()
			
 
				+            for text in texts:
			
 
				+                keywords = keyword_table_handler.extract_keywords(text.page_content, self._config.max_keywords_per_chunk)
			
 
				+                self._update_segment_keywords(self.dataset.id, text.metadata['doc_id'], list(keywords))
			
 
				+                keyword_table = self._add_text_to_keyword_table(keyword_table, text.metadata['doc_id'], list(keywords))
			
 
				 
			
 
				-        self._save_dataset_keyword_table(keyword_table)
			
 
				+            self._save_dataset_keyword_table(keyword_table)
			
 
				 
			
 
				-        return self
			
 
				+            return self
			
 
				 
			
 
				     def add_texts(self, texts: list[Document], **kwargs):
			
 
				-        keyword_table_handler = JiebaKeywordTableHandler()
			
 
				-
			
 
				-        keyword_table = self._get_dataset_keyword_table()
			
 
				-        keywords_list = kwargs.get('keywords_list', None)
			
 
				-        for i in range(len(texts)):
			
 
				-            text = texts[i]
			
 
				-            if keywords_list:
			
 
				-                keywords = keywords_list[i]
			
 
				-            else:
			
 
				-                keywords = keyword_table_handler.extract_keywords(text.page_content, self._config.max_keywords_per_chunk)
			
 
				-            self._update_segment_keywords(self.dataset.id, text.metadata['doc_id'], list(keywords))
			
 
				-            keyword_table = self._add_text_to_keyword_table(keyword_table, text.metadata['doc_id'], list(keywords))
			
 
				-
			
 
				-        self._save_dataset_keyword_table(keyword_table)
			
 
				+        lock_name = 'keyword_indexing_lock_{}'.format(self.dataset.id)
			
 
				+        with redis_client.lock(lock_name, timeout=600):
			
 
				+            keyword_table_handler = JiebaKeywordTableHandler()
			
 
				+
			
 
				+            keyword_table = self._get_dataset_keyword_table()
			
 
				+            keywords_list = kwargs.get('keywords_list', None)
			
 
				+            for i in range(len(texts)):
			
 
				+                text = texts[i]
			
 
				+                if keywords_list:
			
 
				+                    keywords = keywords_list[i]
			
 
				+                else:
			
 
				+                    keywords = keyword_table_handler.extract_keywords(text.page_content, self._config.max_keywords_per_chunk)
			
 
				+                self._update_segment_keywords(self.dataset.id, text.metadata['doc_id'], list(keywords))
			
 
				+                keyword_table = self._add_text_to_keyword_table(keyword_table, text.metadata['doc_id'], list(keywords))
			
 
				+
			
 
				+            self._save_dataset_keyword_table(keyword_table)
			
 
				 
			
 
				     def text_exists(self, id: str) -> bool:
			
 
				         keyword_table = self._get_dataset_keyword_table()
			
 
				         return id in set.union(*keyword_table.values())
			
 
				 
			
 
				     def delete_by_ids(self, ids: list[str]) -> None:
			
 
				-        keyword_table = self._get_dataset_keyword_table()
			
 
				-        keyword_table = self._delete_ids_from_keyword_table(keyword_table, ids)
			
 
				+        lock_name = 'keyword_indexing_lock_{}'.format(self.dataset.id)
			
 
				+        with redis_client.lock(lock_name, timeout=600):
			
 
				+            keyword_table = self._get_dataset_keyword_table()
			
 
				+            keyword_table = self._delete_ids_from_keyword_table(keyword_table, ids)
			
 
				 
			
 
				-        self._save_dataset_keyword_table(keyword_table)
			
 
				+            self._save_dataset_keyword_table(keyword_table)
			
 
				 
			
 
				     def delete_by_document_id(self, document_id: str):
			
 
				-        # get segment ids by document_id
			
 
				-        segments = db.session.query(DocumentSegment).filter(
			
 
				-            DocumentSegment.dataset_id == self.dataset.id,
			
 
				-            DocumentSegment.document_id == document_id
			
 
				-        ).all()
			
 
				+        lock_name = 'keyword_indexing_lock_{}'.format(self.dataset.id)
			
 
				+        with redis_client.lock(lock_name, timeout=600):
			
 
				+            # get segment ids by document_id
			
 
				+            segments = db.session.query(DocumentSegment).filter(
			
 
				+                DocumentSegment.dataset_id == self.dataset.id,
			
 
				+                DocumentSegment.document_id == document_id
			
 
				+            ).all()
			
 
				 
			
 
				-        ids = [segment.index_node_id for segment in segments]
			
 
				+            ids = [segment.index_node_id for segment in segments]
			
 
				 
			
 
				-        keyword_table = self._get_dataset_keyword_table()
			
 
				-        keyword_table = self._delete_ids_from_keyword_table(keyword_table, ids)
			
 
				+            keyword_table = self._get_dataset_keyword_table()
			
 
				+            keyword_table = self._delete_ids_from_keyword_table(keyword_table, ids)
			
 
				 
			
 
				-        self._save_dataset_keyword_table(keyword_table)
			
 
				+            self._save_dataset_keyword_table(keyword_table)
			
 
				 
			
 
				     def search(
			
 
				             self, query: str,
			
@@ -106,13 +114,15 @@ class Jieba(BaseKeyword):
 
				         return documents
			
 
				 
			
 
				     def delete(self) -> None:
			
 
				-        dataset_keyword_table = self.dataset.dataset_keyword_table
			
 
				-        if dataset_keyword_table:
			
 
				-            db.session.delete(dataset_keyword_table)
			
 
				-            db.session.commit()
			
 
				-            if dataset_keyword_table.data_source_type != 'database':
			
 
				-                file_key = 'keyword_files/' + self.dataset.tenant_id + '/' + self.dataset.id + '.txt'
			
 
				-                storage.delete(file_key)
			
 
				+        lock_name = 'keyword_indexing_lock_{}'.format(self.dataset.id)
			
 
				+        with redis_client.lock(lock_name, timeout=600):
			
 
				+            dataset_keyword_table = self.dataset.dataset_keyword_table
			
 
				+            if dataset_keyword_table:
			
 
				+                db.session.delete(dataset_keyword_table)
			
 
				+                db.session.commit()
			
 
				+                if dataset_keyword_table.data_source_type != 'database':
			
 
				+                    file_key = 'keyword_files/' + self.dataset.tenant_id + '/' + self.dataset.id + '.txt'
			
 
				+                    storage.delete(file_key)
			
 
				 
			
 
				     def _save_dataset_keyword_table(self, keyword_table):
			
 
				         keyword_table_dict = {
			
@@ -135,33 +145,31 @@ class Jieba(BaseKeyword):
 
				             storage.save(file_key, json.dumps(keyword_table_dict, cls=SetEncoder).encode('utf-8'))
			
 
				 
			
 
				     def _get_dataset_keyword_table(self) -> Optional[dict]:
			
 
				-        lock_name = 'keyword_indexing_lock_{}'.format(self.dataset.id)
			
 
				-        with redis_client.lock(lock_name, timeout=20):
			
 
				-            dataset_keyword_table = self.dataset.dataset_keyword_table
			
 
				-            if dataset_keyword_table:
			
 
				-                keyword_table_dict = dataset_keyword_table.keyword_table_dict
			
 
				-                if keyword_table_dict:
			
 
				-                    return keyword_table_dict['__data__']['table']
			
 
				-            else:
			
 
				-                keyword_data_source_type = current_app.config['KEYWORD_DATA_SOURCE_TYPE']
			
 
				-                dataset_keyword_table = DatasetKeywordTable(
			
 
				-                    dataset_id=self.dataset.id,
			
 
				-                    keyword_table='',
			
 
				-                    data_source_type=keyword_data_source_type,
			
 
				-                )
			
 
				-                if keyword_data_source_type == 'database':
			
 
				-                    dataset_keyword_table.keyword_table = json.dumps({
			
 
				-                        '__type__': 'keyword_table',
			
 
				-                        '__data__': {
			
 
				-                            "index_id": self.dataset.id,
			
 
				-                            "summary": None,
			
 
				-                            "table": {}
			
 
				-                        }
			
 
				-                    }, cls=SetEncoder)
			
 
				-                db.session.add(dataset_keyword_table)
			
 
				-                db.session.commit()
			
 
				+        dataset_keyword_table = self.dataset.dataset_keyword_table
			
 
				+        if dataset_keyword_table:
			
 
				+            keyword_table_dict = dataset_keyword_table.keyword_table_dict
			
 
				+            if keyword_table_dict:
			
 
				+                return keyword_table_dict['__data__']['table']
			
 
				+        else:
			
 
				+            keyword_data_source_type = current_app.config['KEYWORD_DATA_SOURCE_TYPE']
			
 
				+            dataset_keyword_table = DatasetKeywordTable(
			
 
				+                dataset_id=self.dataset.id,
			
 
				+                keyword_table='',
			
 
				+                data_source_type=keyword_data_source_type,
			
 
				+            )
			
 
				+            if keyword_data_source_type == 'database':
			
 
				+                dataset_keyword_table.keyword_table = json.dumps({
			
 
				+                    '__type__': 'keyword_table',
			
 
				+                    '__data__': {
			
 
				+                        "index_id": self.dataset.id,
			
 
				+                        "summary": None,
			
 
				+                        "table": {}
			
 
				+                    }
			
 
				+                }, cls=SetEncoder)
			
 
				+            db.session.add(dataset_keyword_table)
			
 
				+            db.session.commit()
			
 
				 
			
 
				-            return {}
			
 
				+        return {}
			
 
				 
			
 
				     def _add_text_to_keyword_table(self, keyword_table: dict, id: str, keywords: list[str]) -> dict:
			
 
				         for keyword in keywords: