Геть свої брудні руки геть від наших форумів • Реєстр

У середу Reddit подав позов проти Perplexity AI і трьох її ймовірних торговців даними за торгівлю незаконно зібраною інформацією.

У скарзі, поданій у Південному окрузі Нью-Йорка, стверджується, що Oxylabs UAB, AWM Proxy і SerpApi незаконно обійшли засоби захисту Reddit і Google, щоб отримати вміст Reddit і відповідні результати пошуку. Там також сказано, що Perplexity вирішив придбати викрадені дані, а не ліцензувати їх у Reddit.

Про це розповів головний юридичний директор Reddit Бен Лі Реєстр в заяві, надісланій електронною поштою, про те, що компанії штучного інтелекту відчайдушно потребують якісного контенту, створеного реальними людьми, і ця потреба сприяє економіці відмивання даних у промислових масштабах.

«Скрепери обходять технологічні засоби захисту, щоб викрасти дані, а потім продати їх клієнтам, які прагнуть навчальних матеріалів», — сказав Лі. «Reddit є головною ціллю, тому що це одна з найбільших і найдинамічніших колекцій людських розмов, які будь-коли створювалися».

Лі стверджував, що Oxylabs UAB, бізнес зі збирання даних у Литві, AWM Proxy, колишній російський ботнет, і SerpApi, який рекламує доступ у реальному часі до зібраних результатів пошуку Google, є хрестоматійними прикладами такого роду незаконної поведінки.

«Не маючи змоги напряму сканувати Reddit, вони маскують свої особи, ховають своє місцезнаходження та маскують свої веб-скребки, щоб викрасти вміст Reddit із Пошуку Google», — сказав Лі. «Perplexity — це охочий клієнт принаймні одного з цих скребків, який вирішує купити вкрадені дані, а не укладати законну угоду з самим Reddit».

У скарзі Reddit ці три провайдери порівнюються з «можливими грабіжниками банків, які, знаючи, що не можуть потрапити в банківське сховище, замість цього вдираються в броньовану вантажівку з готівкою». Повторюючи характеристику Perplexity генерального директора Cloudflare Метью Прінса, юридична заявка Reddit описує Perplexity як «більш схожу на «північнокорейського хакера», який зробить усе необхідне, щоб отримати дані для підтримки свого механізму відповідей ШІ, окрім оплати за ліцензію.

Google не бере участі в судовому процесі, але намагався запобігти автоматичному збиранню результатів пошуку.

Соцмережі стверджують, що відповідачі порушили Закон США про захист авторських прав у цифрову епоху, обійшовши його технологічний захист від автоматизованого доступу до його серверів. І він звинувачує SerpApi та Oxylabs конкретно в порушенні заборони DMCA щодо торгівлі продуктами або послугами для обходу технологій. Інші позови включають недобросовісну конкуренцію, неправомірне збагачення та громадянську змову.

Reddit вимагає судової заборони, щоб припинити небажане копіювання його вмісту та відшкодування збитків.

У червні Reddit подав аналогічну скаргу проти Anthropic після того, як йому не вдалося переконати бізнес AI укласти угоду про ліцензування контенту, як це зробив OpenAI.

Oxylabs, яка рекламує себе як «найбільшу етичну проксі-мережу та передові рішення для збирання, що розширюють можливості індустрії ШІ та за її межами», не відразу відповіла на запит про коментарі.

«Схоже, що ми не отримували жодних повідомлень або послуг від Reddit щодо цього», — сказав Райан Шафер, директор із обслуговування клієнтів SerpApi, в електронному листі до Реєстр. “Ми категорично не погоджуємося зі звинуваченнями Reddit і маємо намір рішуче захищати себе в суді. На даний момент у нас немає додаткових коментарів”.

Про це повідомив представник Perplexity Реєстр, «На Perplexity ще не надійшов позов, але ми завжди будемо рішуче боротися за права користувачів на вільний і справедливий доступ до загальнодоступних відомостей. Наш підхід залишається принциповим і відповідальним, оскільки ми надаємо фактичні відповіді за допомогою точного штучного інтелекту, і ми не терпітимемо загроз відкритості та суспільних інтересів».

Reddit не єдиний у своїх спробах захиститися від того, що його вміст збирають і використовують для навчання моделей ШІ без згоди. Судовий позов [PDF] поданий минулого місяця від імені двох авторів, звинувачує Apple у «використанні Books3, набору даних піратських книг, захищених авторським правом», для навчання своїх мовних моделей OpenELM. У скарзі проти Apple йдеться, що AppleBot компанії збирав веб-дані протягом дев’яти років і ці дані тепер використовуються для вдосконалення моделей Apple Intelligence.

Інша справа, Millette проти OpenAI (2024), стверджує, що OpenAI незаконно збирав відео YouTube, щоб покращити свої моделі. New York Times Co. проти Microsoft Corp., OpenAI (2023) висуває подібні звинувачення щодо ймовірного використання Microsoft та OpenAI її новинного вмісту.

У серпні мережа доставки контенту Cloudflare засудила Perplexity за запуск веб-ботів для сканування, які ігнорують директиви веб-сайтів щодо заборони скрапінгу. ®

Оновлено в 2000 році з коментарем serpAPI.

ShareShare X Pinterest

12Views