Calitatea datelor furnizate de restauranetele inteligente

29 0

Calitatea datelor Expressoft Technology

Calitatea datelor este o provocare generală, în cazul integrării în mod automat a datelor din surse autonome. Într-un mediu deschis agregatorul de date nu are niciun pic de influenţă asupra editorului de date. Datele sunt de multe ori eronate, şi combinarea datelor agravează adesea problema. Mai ales atunci când efectuează raţionamente (deduce în mod automat noile date din datele existente), datele eronate au un impact potenţial devastator asupra calităţii generale a setului de date rezultat.

Prin urmare, o provocare este cum editorii de date pot coordona, în scopul de a rezolva problemele din date sau site-uri pe lista neagră, care nu furnizează date fiabile. Este nevoie de metode şi tehnici pentru: verificarea integrităţii şi a preciziei; evidenţierea, identificarea şi coroborarea înregistrărilor; evaluarea probabilităţii ca o anumită afirmaţie este adevărată; echivalarea diferenţelelor de greutate între sectoare de piaţă sau firme; stabilirea modurilor de compensare pentru creşterea şi soluţionarea litigiilor între furnizorii de date concurenţi (şi, eventual, aflaţi în conflict); şi interacţionarea cu date eronate web de provenienţă şi de calitate potenţial dubioasă.

În rezumat, erorile de semnalizare, cantităţi, etichetare şi clasificare, pot împiedica serios utilitatea sistemelor de operare peste astfel de date.

Resurse web 

Desigur, nu toate datele valoroase se află în cadrul organizaţiilor. De fapt, infor- maţiile cele mai valoroase pentru informaţiile de afaceri şi suportul de decizie se găsesc de multe ori în exteriorul organizaţiei.

Odată cu apariţia de aplicaţii internet bogate şi portaluri web online, o gamă largă de procese de afaceri critice (cum ar fi comenzile) devin disponibile online. Din păcate, foarte puţine dintre aceste surse de date sindicalizează conţinut în format RSS, şi foarte puţine dintre aceste servicii oferă API-uri accesibile publicului. Prin urmare, editorii mashup rezolvă această problemă prin furnizarea de activatori sau conectori.

Nepotrivirea de text-date intr-un software marcaj restaurant

O mare parte a datelor este descrisă în text. Limbajul uman este adesea ambiguu – aceeaşi companie ar putea fi menţionată în mai multe variante (de exemplu, IBM, International Business Machines, sau Big Blue).

Ambiguitatea face conectarea cu date structurate dificilă. În plus, datele exprimate în limbaj uman sunt dificil de procesat prin intermediul programelor software. Una dintre funcţiile unui sistem de integrare a datelor este de a depăşi nepotrivirea între documente şi date.

Identitatea obiectului şi scheme separate 

Sunt disponibile date structurate într-o serie de formate. Convertirea datelor într-un format comun de date este astfel primul pas. Dar chiar dacă toate datele sunt disponibile într-un format comun, în practică sursele diferă în modul în care se afirmă practic acelaşi fapt.

Diferenţe există atât la nivelul obiectelor individuale cât şi la nivelul schemelor. Ca un exemplu de nepotrivire la nivel de obiect, luaţi în considerare următoarele: SEC utilizează o aşa-numită Index Central Key (CIK) pen- tru a identifica persoane (directori executivi, CFO), companii şi instrumente finan- ciare, în timp ce alte surse, cum ar fi DBpedia (o versiune de date structurate de pe Wikipedia), folosesc URI-uri pentru a identifica entităţi. În plus, fiecare sursă foloseste de obicei propria schemă şi idiosincrazii pentru a afirma ceea ce este, în esenţă, acelaşi fapt. Astfel, metodele trebuie să fie clare pentru a reconcilia diferitele reprezentări de obiecte şi scheme.

Nivelurile de abstractizare pentru marcaj mobil

Sursele de date furnizează date la nivele incompatibile de abstractizare sau clasifică datele lor în funcţie de taxonomii pertinente pentru un anumit sector. Din moment ce datele sunt publicate la diferite niveluri de abstractizare (de exemplu, persoană, companie, ţară, sau sector), datele agregate pentru puncte de vedere individuale s-ar putea să nu corespundă datelor, de exemplu, de la birourile de statistică.

De asemenea, există diferenţe în agregarea geografică (de exemplu, datele de regiune de la o sursă de date şi de la un nivel de ţară la alta). O problemă conexă este utili- zarea monedelor locale (USD vs. EUR), care trebuie să se reconcilieze, în scopul de a obţine date din surse disparate comparabile şi posibile de a fi supuse pentru analiză.

*Scris pentru SuperBlog 2018*

Related Post

Leave a comment

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Loading...