В этой статье мы рассмотрим реализацию и примеры работы ChatGPT с компьютерным зрением.
Я занимаюсь разработкой своего ChatGPT-4 Telegram бота на Python. Мне пришла идея использовать компьютерное зрение для поиска текста на изображение, для составления запроса в ChatGPT.
Реализация
Tesseract — это популярный движок OCR с открытым исходным кодом, который был предварительно обучен для поддержки более 100 языков. В этой статье мы используем Python-tesseract (pytesseract), оболочку Python для Tesseract, которая позволяет использовать Tesseract с Python.
Прежде чем использовать Tesseract, его нужно установить. Не забудьте добавить русский язык в параметрах установки.
pip install pytesseract
Примеры
Все примеры будут показаны в моем Telegram боте, так как это удобнее, чем через консоль, ну и ради продвижения, конечно же…
Бот бесплатный. Имеет большой функционал. Всю информацию найдете внутри.
Telegram бот может обрабатывать фотографию в двух режимах:
- Получение текста с изображения без запроса в ChatGPT. Для этого нужно написать команду /text в подписи к изображению или оставить это поле пустым.
- Обработка текста с использованием инструкции для ChatGPT. Инструкция (запрос) пишется в подписи к изображению.
Попробуем распознать текст с этой фотографии документа, сделанной на телефон.
Есть неточности, но в целом не плохо
Попробуем решить тестовое задание с применением ChatGPT.
Обработка теста с изображения
Как по мне, вполне себе применимая штука получилась. Может пригодится. Все примеры вы можете опробовать сами, воспользовавшись Telegram ботом.