Vad vi bearbetar

The Intelligence Company bearbetar en stor mängd datakällor runt företag dygnet runt. Men med vårt tillstånd som rikstäckande kreditupplysningsbolag har vi även alla svenskar från 15 års ålder i vårt register.

Observera att för privatpersoner enbart bearbeta den information som är nödvändig för att erbjuda kreditupplysningar med omfrågekopia på marknaden. Hela listan av dessa datakällor finns under om oss.

Vi använder oss i huvudsak av avvikelsedetektion.

Vad är avvikelsedetektion / anomalidetektering ?

Avvikelsedetektion som även kallas anomalidetektion innebär att man urskiljer data som är ovanligt eller annorlunda ur en stor mängd data. Det handlar om att identifiera sådant som sticker ut ur en stor mängd och kan upplevas annorlunda.

Inom avvikelsedetektion använder man maskininlärning, en del av artificiell intelligens, AI. Man lär en dator normala mönster och flaggar händelser som inte motsvarar  normala beteenden.

Algoritmer för avvikelsedetektering

Det finns ett antal metoder kring avvikelsedetektering och här beskriver vi några av dessa.

Klusteranalys

Innebär att datamängden grupperas in i liknande delmängder så kallade kluster. Centrumet dvs. tyngdpunkten för klustren kallas centroid och man mäter avståndet från centroiden till medlemmarna. Om datapunkter ligger för långt utanför centroiden betyder det en avvikelse. En bild får Wikipedia får visa ett exempel:

Cluster

Inom klustring finns ett antal metoder och algoritmer bland annat K-Means, Mean-shift, och agglomerativ hierarkisk klustring.

Beslutsträd och regressionsanalys

Beslutsträd är en modell där man ställer frågor och beroende på svar förflyttar sig till nästa gren. Exempelvis kan beslutsträd användas för att förutspå konkurser hos företag. Trädet kan handla om JA/NEJ frågor, dvs. binäraträd eller träd där svaret kan vara spann.

Beslutsträd används ofta ihop med regressionsanalys där det finns flertalet varianter och den enklaste är linjär regression som handlar om att man exempelvis hittar ett linjärt förhållande, dvs. en rak linje, som passar genom en mängd av punkter. En bild från Wikipedia får visa ett exempel där den blåa linjen bäst representerar datamängden.

Ett bra exempel på hur regressionanalys kan användas är om man samlar ålder, kön, vikt och längd på personer och drar en linje som bäst passar respektive datamängd för kön och ålder. Därefter kan man använda linjen för att förutsätta vad vikten är givet personens längd, ålder och kön.

Normdist regression

Neurala nätverk / Neuronnät

Neurala nätverk är en av de mera avancerade maskininlärningsalgoritmerna och används oftast för att lösa komplexa problem. Neurala nätverk består av sammankopplade noder i flera lager där varje nod tar emot data, använder en algoritm och lämnar vidare data till nästa nod.

Det neurala nätverket tränas genom att justera vikterna på länkarna mellan noderna. Två vanliga användningsområden är exempelvis att upptäcka mönster i okstrukturerad information eller identifiera mönster.

En bild från Wikipedia visar förenklat hur neuroner är sammankopplade:

Colored neural network