Una base de datos abierta de ediciones inconsistentes observadas en OSM a través de OSMCHA

Traducción de un artículo por Manohar Erikipati:

OSMCha es una herramienta de exploración de changesets de fuente abierta originalmente creada por Wille Marcel. A comienzos de 2016, pocos de nosotros en Mapbox estábamos interesados en utilizar esta herramienta para intentar validar a nivel de changesets. A lo largo de 2016, hicimos varias mejoras a la herramienta. A esta mañana hemos revisado más de 23.000 changesets y encontrado 1.150 dañinos para el mapa. La base de datos de OSMCha se compone de metadatos útiles de changesets como ID del changeset, nombre de usuario, editor utilizado, comentario del changeset, fuente, imágenes utilizadas, y marca de tiempo.

Puedes descargar un CSV de todos los changesets revisados aquí. Para miembros de la comunidad que esten interesados en validar el mapa utilizando OSMCha, nuestra guía de validación puede ser un buen punto de partida para entender la herramienta, como la utilizamos y validar su propio barrio.

Algunas cosas a notar

OSMCha no parsea todos los changesets de OSM. Hay unos pocos que quedan sin parsear cada día debido a varios casos extremos que estamos trabajando para arreglar. Así es que no te tomes los números sobre OSMCha como un absoluto sino como estimaciones casi precisas.

Parte de la actividad de mapeo marcada como dañina en OSMCha no es necesariamente perjudicial. Importaciones en OSM, no discutidas y no anunciadas, son constantemente rastreadas y revertidas por el DWG. Estas ediciones al mapa no necesariamente tienen errores de mapeo en ellos pero que se encontró no eran bien recibidos en el mapa para mantener un protocolo de importación de datos, precisión en el mapa y acuerdo con la comunidad local.

Es por esto que eliminaciones masivas de esas importaciones, en changesets de reversión por cuentas de limpieza del DWG como Woodpeck_repair también son marcados como ediciones buenas. Estas pueden ser ignoradas filtrando fuera las cuentas de reparación.

Los changesets revisados fueron de lugares aleatorios en el mapa y no son específicos a ningún lugar. Para filtrados específicos, podemos tomar ventaja del filtro bbox en OSMCha o filtrar manualmente dado que el CSV contiene la información de bbox para cada changeset.

Análisis básico

Dado que tenemos un conjunto de datos grande de changesets revisados, podemos encontrar correlación entre changesets dañinos para encontrar patrones de vandalismo en OSM. Hice un análisis básico utilizando un filtro de metadatos recientemente agregado en la página de estadísticas de OSMCha, con el que he llegado a los siguientes estimados.

Desglose por editor de changesets marcados como dañinos
Desglose por editor de los changesets revisados

Filtros que consideramos exitosos

Estos son los porcentajes de ediciones dañinas observadas frente al numero de revisadas.

iD+palabras sospechosa : 14,1%

iD+eliminación masivas : 7,9%

potlatch+eliminación masivas : 5,8%

JOSM+palabra sospechosa : 5,8%

JOSM+eliminación masivas : 4,9%

Maps.me : 3,7%

El filtro palabra sospechosa marca changesets con la palabra: apple, google, nokia, here, waze, tomtom, import y wikimapia, en el comentario o en la fuente.

De aquí en adelante

Tener una base de datos de ediciones de OSM que son clasificadas como buenas o dañinas puede ayudar a futuros esfuerzos para implementar herramientas para la detección inteligente de anomalías y algoritmos de machine learning para proteger el mapa de mejor manera.

Esperamos continuar validando con OSMCha, refinar la heurística de marcado de changesets de OSMCha, colaborar con la comunidad a través de mejores herramientas abiertas para proteger el mapa.

Déjanos saber que piensas de esto, como se puede avanzar y cuales crees que son las formas de mejorar la detección a nivel de características.