Личный архив знаний с ИИ: RAG по заметкам за выходные
Личный архив знаний с ИИ — это RAG-система, которая ищет смысл, а не текст. Пошагово: настройка за выходные, реальные цифры, бесплатные инструменты.
У каждого из нас накоплены сотни заметок, PDF-отчётов, голосовых сообщений и закладок. Проблема не в объёме — проблема в том, что всё это мертво: нельзя спросить «какую ценовую модель я рассматривал полгода назад?» и получить ответ за секунду. Личный архив знаний с ИИ — RAG-система, которая превращает разрозненные записи в живой второй мозг, отвечающий на вопросы на русском языке. В этой статье мы покажем, как собрать такой архив самостоятельно за два дня без знания кода.
Что такое личный архив знаний с ИИ
Личный архив знаний с ИИ — это персональная база данных, в которой языковая модель ищет смысловые связи между документами и отвечает на ваши вопросы, опираясь только на ваши материалы, а не на общие знания интернета.
Ключевое отличие от обычного поиска: классический поиск ищет совпадение по словам. RAG (Retrieval-Augmented Generation) ищет совпадение по смыслу. Вы пишете «идеи по монетизации приложения» — система находит фрагменты, где вы обсуждали подписки, freemium и партнёрки, даже если этих слов в вопросе не было.
Из каких блоков состоит система
- Источники: Obsidian, Notion, Telegram «Избранное», PDF, голосовые расшифровки.
- Embeddings-движок: превращает текст в числовые векторы (OpenAI text-embedding-3-small, бесплатная квота Cohere или локальная модель через Ollama).
- Векторное хранилище: Chroma (локально, бесплатно) или Pinecone (облако, есть free-tier на 100 тыс. векторов).
- LLM-слой: GPT-4o-mini или Claude Haiku — формулирует финальный ответ по найденным фрагментам.
- Интерфейс: Telegram-бот, голосовой чат или простая веб-страница.
RAG не заменяет вашу память — он делает её доступной. Разница между «я это где-то записывал» и «вот точная цитата из ваших заметок от 12 января» стоит нескольких часов в неделю.
Шаг 1. Экспорт и очистка данных
Начните с того, что уже есть. Из Obsidian — экспортируйте папку Vault целиком в markdown. Из Notion — Export → Markdown & CSV. Из Telegram — пересылайте важные сообщения в «Избранное», затем экспортируйте чат через Settings → Export Telegram Data. PDF оставьте как есть.
Не нужно чистить всё идеально: достаточно удалить явный мусор (дублированные экспорты, системные файлы Notion). RAG работает нормально даже с «сырыми» заметками.
Шаг 2. Индексация — превращаем текст в векторы
Готовый стек без кода: LlamaIndex Desktop (бесплатно, Mac/Windows) или n8n с нодой LlamaIndex. Загружаете папку с файлами, выбираете embedding-модель, нажимаете «Индексировать». Для архива из 500 заметок это займёт 3–7 минут и стоит около $0.05 при использовании OpenAI Embeddings.
Если хотите полностью локальный вариант без передачи данных: Ollama + модель nomic-embed-text + Chroma. Всё запускается на обычном MacBook, данные не покидают компьютер.
Шаг 3. Интерфейс для запросов
Самый удобный вариант — Telegram-бот: он всегда под рукой, поддерживает голос и текст. Связка: n8n → Telegram Trigger → LlamaIndex Query → ответ в чат. Настройка занимает около двух часов. Альтернатива: AnythingLLM — десктопное приложение с готовым чатом, куда достаточно загрузить документы и нажать Chat.
Кейс: как фаундер подключил 4 года заметок и сократил подготовку к встречам
Один из наших клиентов — серийный предприниматель — вёл Obsidian с 2021 года: 1 200 заметок, 340 конспектов книг, 80 расшифровок звонков с командой. На подготовку к инвесторским встречам уходило 1,5–2 часа: нужно было вспомнить, что именно обсуждали, какие метрики называли, какие возражения уже отработаны.
Мы настроили RAG-архив за выходные: экспорт Vault (2,3 ГБ текста), индексация через LlamaIndex + OpenAI Embeddings ($1.80 за всю базу), Telegram-бот как интерфейс. Теперь перед встречей он пишет: «Что я говорил инвесторам про LTV в 2024 году?» — и получает 4–5 точных фрагментов с датами и источниками за 8 секунд.
Результат за первый месяц: подготовка к встречам сократилась с 90 минут до 12. Дополнительный эффект — нашлись три идеи из старых заметок, которые казались «потерянными», и одна из них стала фичей в продукте.
Что добавить после базовой настройки
- Автоматический реиндекс: n8n-кроном каждую ночь подхватывает новые файлы из папки.
- Голосовой ввод: Whisper транскрибирует голосовые заметки перед индексацией.
- Метаданные: добавьте теги «проект», «дата», «тип» — это резко повышает точность фильтрации.
- Память на сессию: сохраняйте последние 5 вопросов в контексте, чтобы вести диалог, а не задавать каждый раз новый вопрос с нуля.
Где система даёт сбои — честно
RAG плохо работает с очень короткими фрагментами (одна строка без контекста) и с таблицами в PDF — числа «распадаются» при парсинге. Решение: конвертировать таблицы в текстовое описание вручную или использовать специализированный PDF-парсер (LlamaParse). Ещё одна ловушка — слишком большой chunk-size: если разбивать текст кусками по 2 000 символов, модель получает слишком много лишнего. Оптимум для заметок — 400–600 символов с overlap 80.
Личный архив знаний с ИИ — не магия, а инструмент с конкретными настройками. Правильно собранный, он окупается за первые две недели: меньше времени на поиск, больше — на работу. Мы в Nimble строим такие системы как часть Персональной ОС — второго мозга, который помогает принимать решения быстрее и опираться на собственный накопленный опыт.
Собрать личный архив знаний с ИИ