Aby zwalczyć skrótów i podejmowanie ryzyka, Lorenzo pracuje nad narzędziem dla firmy DronEdeploy z San FranciscoW który sprzedaje oprogramowanie, które tworzy codzienne cyfrowe modele postępu pracy z filmów i zdjęć, znanych w handlu jako „przechwytywanie rzeczywistości”. Narzędzie, zwane AI Safety, analizuje codzienne przechwytywanie obrazów i flaguje warunki naruszające zasady bezpieczeństwa i zdrowia w pracy (OSHA), z tym, co twierdzi, że jest 95% dokładnością.
Oznacza to, że dla każdego ryzyka bezpieczeństwa flagi oprogramowania istnieje 95% pewności, że flaga jest dokładna i odnosi się do konkretnej regulacji OSHA. Lorezo mówi, że uruchomiony w październiku 2024 r. Wprowadzony jest teraz na setkach budowa w USA, a wersje specyficzne dla przepisów budowlanych w krajach, w tym Kanadzie, Wielkiej Brytanii, Korei Południowej i Australii.
Bezpieczeństwo AI jest jednym z wielu narzędzi bezpieczeństwa budowlanego AI, które pojawiły się w ostatnich latach, od Doliny Krzemowej po Hongkong po Jerozolimę. Wiele z nich polega na zespołach ludzkich „klikalców”, często w krajach o niskich wynagrodzeniach, aby ręcznie narysować granice wokół obrazów kluczowych obiektów, takich jak drabiny, aby oznaczyć duże ilości danych w celu wyszkolenia algorytmu.
Lorenzo twierdzi, że bezpieczeństwo AI jest pierwszym, który używa generatywnej sztucznej inteligencji do określenia naruszeń bezpieczeństwa, co oznacza algorytm, który może zrobić coś więcej niż rozpoznawanie obiektów, takich jak drabiny lub twarde czapki. Oprogramowanie może „rozumować” o tym, co dzieje się na zdjęciu witryny i wyciągnąć wniosek o tym, czy istnieje naruszenie OSHA. Lorenzo twierdzi, że jest to bardziej zaawansowana forma analizy niż wykrywanie obiektów, które jest obecnym standardem branżowym. Ale jak sugeruje 95% wskaźnik sukcesu, AI bezpieczeństwa nie jest bezbłędną i wszechwiedzącą inteligencją. Wymaga to doświadczonego inspektora bezpieczeństwa jako nadzorcy.
Model języka wizualnego w prawdziwym świecie
Roboty i AI mają tendencję do rozwoju w kontrolowanych, głównie statycznych środowiskach, takich jak fabryczne podłogi lub terminale wysyłkowe. Ale miejsca budowy z definicji zmieniają się trochę każdego dnia.
Lorenzo uważa, że zbudował lepszy sposób monitorowania witryn, używając rodzaju generatywnej sztucznej inteligencji zwanej modelem języka wizualnego lub VLM. VLM to LLM z enkoderem wizji, pozwalając mu „zobaczyć” obrazy świata i analizować to, co dzieje się na scenie.
Korzystając z lat, zgromadzone od klientów, za ich wyraźną zgodą, zespół Lorenzo zgromadził coś, co nazywa „złotym zestawem danych” obejmującym dziesiątki tysięcy zdjęć naruszeń OSHA. Po starannym zgromadzeniu tych konkretnych danych przez lata, nie martwi się, że nawet miliard dolarów będzie mógł go „skopiować i zmiażdżyć”.
Aby pomóc w szkoleniu modelu, Lorenzo ma mniejszy zespół profesjonalistów ds. Bezpieczeństwa budowlanego, zadaje strategiczne pytania AI. Trenerzy wprowadzają sceny testowe z Złotego zestawu danych do VLM i zadają pytania, które prowadzą model przez proces rozkładania sceny i analizy go krok po kroku tak, jak doświadczony człowiek. Jeśli VLM nie generuje prawidłowej odpowiedzi – na przykład nie ma naruszenia lub rejestruje fałszywie pozytywne – ludzcy trenerzy wracają i dostosowują podpowiedzi lub dane wejściowe. Lorenzo mówi, że zamiast po prostu uczyć się rozpoznawania obiektów, VLM uczy się „jak myśleć w określony sposób”, co oznacza, że może wyciągnąć subtelne wnioski na temat tego, co dzieje się na obrazie.
