Читаем PDF через ChatGPT

Несколько популярных рабочих решений с поддержкой русского языка

На уровне конкретного потребителя услуги принципиально, чтобы AI работал с документом в исходном формате, без лишних телодвижений с копированием теста из окна в окно. Человек получил документ, отправил его в сервис, получил обратно краткую выжимку, суть текста.

Технически это задача несложная, AI в любом случае будет работать с plane text и результат выдавать тоже как обычный текст, поэтому все подобные решения лишь конвертируют данные PDF>TEXT и отправляют их дальше в нейросеть. Единственная дополнительная ценность всех подобных решений заключается в функционале удобной конверсии из исходного формата (для этого есть готовые библиотеки) и работе через API с одним из доступных AI-решений (в основном ChatGPT) + биллинг клиента, так как в конечном итоге доступ в ChatGPT платный и полностью бесплатного решения тут быть не может.

Оба сервиса умеют работать с русским языком, но это не по причине того, что они специально обучены этому. Они используют GPT 3.5 (сейчас в ограниченном объеме уже доступен GPT4) который в определенном объеме русский язык умеет. В примерах мы читаем решения арбитражного суда. Трудно сказать, использовались ли подобные документы для обучения GPT, но пока можем предположить что нет.

Оба решения работают "вяло" как и большинство подобных сервисов "поверх ChatGPT". Возможно, что они используют бесплатные минимальные лимиты доступов по API либо самые минимальные платные тарифы. Этим могут объяснятся задержки и зависания. В остальном, аналогичный функционал "выжимки" будет доступен до конца 2023 года во всех популярных продукта от браузера до Microsoft Word причем скорее всего бесплатно либо в комплекте с подпиской на этот сервис.

Конкретной ценностью для задачи работы с документами арбитражного производства может быть самостоятельно до-обучение готовой большой лингвистической модели (LLM, large language model) документами решений суда. После этого модель используется для аналогичных целей: создание выжимок + создание шаблонов документов.

Пример зарубежного юридического стартапа https://www.harvey.ai. Попробовать сразу не дадут, просто сам факт.