Проекты - Интеллектуальный поиск по корпоративной базе знаний

RAG-система поверх разнородных источников — файловые хранилища, SharePoint, почта. Ответы всегда сопровождаются ссылками на источники.

Формат
Демо-проект
Тип системы
AI-ассистенты и корпоративные помощники
Отрасли
юридические и консалтинговые компании, R&D, аналитические отделы

Как это работает

Отвечает на вопросы по корпоративным документам и всегда показывает, из какого файла взят ответ.

  1. 1
    Файлы, SharePoint, почта
  2. 2
    Поиск по смыслу, не по словам
  3. 3
    Ответ со ссылкой на источник
live · пример

Запрос

Как мы обычно оформляем командировки за границу?
обработка

Ответ системы

По политике от 15.06.2024: билеты покупаем через корпоративный сервис, суточные 3000₽, отчёт в течение 7 дней. Источник: Travel_Policy_v4.docx, стр. 3.

Задача

В компании накоплены тысячи документов — договоры, отчёты, исследования, переписка, внутренние публикации. Ни один сотрудник не знает, где что лежит. Новички входят в курс дела месяцами. Эксперты уходят и уносят знания с собой.

Корпоративный поиск, встроенный в SharePoint или файловое хранилище, находит документы по точным словам. Но 80% запросов формулируются не так: «как мы обычно делаем X», «что писали по теме Y за последний год», «кто занимался проектом Z». На такие запросы классический поиск не отвечает.

Для юридических и консалтинговых команд проблема острее: им нужно не просто найти документ, а сослаться на конкретную цитату в нём. Без источника ответ нельзя использовать в работе.

Что мы построили

RAG-систему поверх разнородных источников с обязательным цитированием.

Инкрементальная индексация:

  • Коннекторы к файловым хранилищам (SMB/CIFS), SharePoint, Google Drive, корпоративной почте, внутренним wiki. Каждый коннектор работает в своём темпе и инкрементально обновляет индекс при изменениях.
  • Парсинг всех основных форматов: DOCX, XLSX, PPTX, PDF (с OCR для сканов), HTML, TXT, Markdown. Для email — парсинг треда с разбиением на отдельные сообщения.
  • Чанкинг с учётом структуры документа: заголовки, разделы, таблицы сохраняют семантический контекст.

Гибридный поиск:

  • BM25 для точных формулировок и терминов.
  • Semantic search через Qdrant с русскоязычной моделью эмбеддингов.
  • Reranker на выходе — cross-encoder, который пересортировывает топ-20 кандидатов по релевантности к конкретному запросу.

Права доступа:

  • Индекс знает права на уровне документа. При запросе система фильтрует кандидатов по правам текущего пользователя перед подачей в LLM. Это критично для юридических отделов, где доступ к документам регулируется.
  • Интеграция с корпоративным AD/LDAP через стандартный SSO.

Ответы с цитатами:

  • LLM отвечает только на основе переданного контекста. В ответе каждое утверждение помечено ссылкой на источник: документ + номер страницы + цитата. Пользователь может одним кликом открыть оригинал.
  • Если система не нашла релевантной информации, она честно говорит «не знаю» вместо галлюцинации. Это контролируется проверкой confidence reranker-а и специальным промптом.
RAG-конвейер с цитатами
Файлы, SharePoint, почта
Индексация + права доступа
Поиск по смыслу
Ответ со ссылкой на источник

Стек технологий

  • Python
  • Qdrant
  • sentence-transformers
  • BM25
  • cross-encoder reranker
  • GigaChat / Claude
  • SharePoint API
  • SSO / AD

Метрики системы

Recall@10 на тестовом корпусе
~0.91
точность цитирования
~95%
p95 latency на запрос
~2.5 с
документов в индексе на стенде
500 000+

Что показывает этот проект

  • Зрелый RAG для enterprise. Инкрементальная индексация, гибридный поиск, reranker, честная оценка качества. Не «подключили LlamaIndex за вечер» — это система, которая работает на больших объёмах и реальных запросах.
  • Честное цитирование. Для юристов и аналитиков это не приятный бонус, а требование к работе. Мы показываем, как LLM можно заставить не галлюцинировать, а ссылаться на источник в 95% случаев.
  • Права доступа. Типичная ошибка RAG-систем — LLM случайно «вспоминает» документ, к которому пользователь не должен был получить доступ. Мы фильтруем кандидатов до передачи в модель.
  • Большие объёмы. На стенде индекс содержит 500k+ документов. Это не игрушечный демо, а архитектура, которую можно масштабировать в реальной компании.

Другие наши проекты.

ai_hub — платформа для прототипирования AI-фич

Внутренняя площадка, где мы обкатываем AI-фичи на реальных сценариях до выката в прод: каталог прототипов, доступы, чат-оркестратор и RAG.

Подробнее

AI-движок для онлайн-образования

Модульный движок, на котором работает AI-тьютор: ведёт диалог со студентом, проверяет домашние работы, помнит учебный прогресс и даёт аналитику преподавателю.

Подробнее

Готовы обсудить задачу?

Начнём с бесплатного 30-минутного AI-аудита. Разберём ваши процессы и честно скажем, где AI даст эффект, а где нет.

Наши контакты

  • Россия, Ростов-на-Дону
    344019, Ростовская область, г.о. город Ростов-на-Дону, г. Ростов-на-Дону, ул. 11-я Линия, зд. 39
  • start@qwerty.digital
    8 (995) 797 17 17
    Telegram: @qwerty_digital_bot