2020/03/25

À conversa com os autores do livro "Big Data – Concepts, Warehouse and Analytics" da FCA


A FCA deu-nos a oportunidade de conversar um pouco com alguns dos seus autores, e desta vez os escolhidos para a rubrica "À conversa com" foram Maribel Yasmina Santos e Carlos Costa - autores do livro "Big Data – Concepts, Warehouse and Analytics".


1) Quem são os principais interessados neste livro?

Todos os alunos, professores, investigadores e profissionais das áreas de Big Data, Data Warehousing e Business Analytics, dado que o livro destaca vários aspetos técnicos e tecnológicos modernos e relevantes para qualquer contexto de atividade académica e profissional nestas áreas. O livro foca-se particularmente na evolução dos sistemas de Data Warehousing para contextos de Big Data, acabando por ser este o tema-chave do livro, sendo que qualquer potencial interessado poderá esperar um extenso conjunto de recomendações estruturadas e aplicações das mesmas.

2) Big Data - Concepts, Warehouse and Analytics é o primeiro livro da FCA editado em inglês. Como é que se sentem relativamente a este marco?

Para nós é um marco fantástico, que nos enche de orgulho, pois reflete o culminar de um longo período de dedicação e trabalho, e sendo publicado em inglês significa que poderemos alcançar uma audiência muito maior. Notamos uma enorme abertura por parte da FCA para que a publicação fosse em inglês e também acreditamos que para a FCA foi uma experiência fantástica e uma nova direção que certamente deverá dar frutos no futuro. O processo de escrita, revisão e publicação altera-se com a questão linguística, mas todas as partes envolvidas reconheceram que esta era a melhor direção a seguir, e não podíamos estar mais contentes. Fazer parte do historial de publicação de uma editora como a FCA, ainda por cima sendo os primeiros autores a contribuir com um livro em inglês, é realmente algo que não esqueceremos. Mas o importante também é garantirmos que esta aposta se traduz num maior interesse pela obra a nível internacional, e sendo a primeira publicação, também será uma experiência a nível de divulgação da mesma.

3) O que é que vos motivou a escrever o livro neste idioma?

A resposta a esta pergunta encontra-se entre linhas da resposta anterior, uma vez que a nossa principal motivação foi mesmo alcançar uma audiência global, em vez de nos dirigirmos somente ao público que entende a língua portuguesa. Sendo nós profissionais da Engenharia dos Sistemas de Informação, o inglês é a língua standard, pelo que foi desde início a forma que encontramos de conseguir transmitir as ideias, técnicas e tecnologias inovadoras retratadas no livro. É também uma forma de motivarmos os nossos estudantes do ensino superior a dedicarem-se à leitura de obras técnicas em inglês, dado que é uma dificuldade sentida pelos mesmos ao longo do seu percurso académico.

4) O conceito Big Data ainda é muito recente em Portugal. Podem defini-lo?

Na verdade, apesar do conceito de Big Data não ser propriamente recente [termo divulgado em massa por Doug Laney em 2001 num artigo da Gartner (pdf)], é verdade que as grandes aplicações em Portugal suportadas por este novo tipo de dados são bem mais recentes. Big Data não tem uma definição standard, pelo que é difícil quantificar a que nível os dados “normais” se tornam Big Data. A nossa perspetiva é bastante pragmática, uma vez que definimos Big Data como dados cujo volume, variedade e/ou velocidade forçam uma organização a uma mudança arquitetural e infraestrutural assente em técnicas e tecnologias de armazenamento e processamento distribuído, escalável e flexível de dados. É impossível definir que limite é este para todas as organizações. Cada organização é um caso diferente, onde deve ser feita uma análise das necessidades, requisitos e custos para realmente perceber se as técnicas e tecnologias de Big Data são realmente adequadas dado o panorama atual da organização e, em caso afirmativo, quais destas são as mais adequadas para o contexto em questão.

5) Que áreas operacionais podem beneficiar deste sistema?

Praticamente todas as áreas de negócio podem beneficiar do desenvolvimento de aplicações analíticas suportadas por Big Data, dado que em qualquer contexto de negócio há sempre decisões para serem tomadas. Na nossa perspetiva, uma decisão baseada em factos é sempre melhor que uma decisão baseada em intuição, e quando existem imensas fontes e dados para suportar essa decisão melhor ainda. Assim sendo, as seguintes áreas podem beneficiar do conceito de Big Data: indústria (e.g., manutenção preventiva, otimização de produção e redução de custos), saúde (e.g. análise causa-efeitos e tratamentos personalizamos), retalho (e.g., segmentação de clientes e sistemas de recomendação), marketing (e.g., análise e personalização de campanhas), agricultura (e.g., automatização dos processos de cultivo), ambiente (e.g., estudos de impacto ambiental); cidades inteligentes (e.g, eficiência energética de edifícios e redes de energia e análise de mobilidade nas cidades); entre muitas outras. O livro “Big Data: Concepts, Warehousing and Analytics” destaca algumas destas áreas, descrevendo como aplicações analíticas eficientes podem ser desenvolvidas para ultrapassar os desafios técnicos e tecnológicos que o Big Data impõe nas organizações, dada a complexidade de lidar com este novo tipo de dados.

6) As bases de dados construídas através de sistemas Big Data estão mais protegidas?

Não, infelizmente muitas das vezes acontece o oposto, como já foi possível observar através de vários ataques a clusters (conjuntos de máquinas) Hadoop e MongoDB desprotegidos, duas das tecnologias de Big Data mais reconhecidas e utilizadas. O que acontece é que muitas das vezes as tecnologias de Big Data, sendo open source, relativamente recentes e algo complexas, são instaladas sem as recomendações de segurança adequadas, o que leva a ataques muitas das vezes iniciados por entidades mal-intencionadas. Em contraste, tecnologias tradicionais mais simples e maduras, muitas das vezes têm processos que guiam o utilizador a uma configuração inicial relativamente segura. Por sua vez, pode-se concluir que estas tecnologias de Big Data, por defeito, podem até ser vistas como menos seguras que as tradicionais nas suas configurações por defeito, mas nunca (e aqui convém destacar o nunca) nas suas configurações de segurança recomendadas, uma vez que estas tecnologias de Big Data dispõem, muitas vezes, de vários níveis de segurança com algoritmos e mecanismos de ponta, que garantem encriptação, proteção, acesso e autorização adequados às necessidades de qualquer organização, independentemente dos seus requisitos de segurança.

7) De que forma a necessidade de soluções de Business Intelligence está relacionada com o conceito de Data Warehouse?

Está totalmente relacionada na medida em que a maioria das aplicações de BI assenta sobre um Data Warehouse. Se olharmos para uma aplicação de BI como uma aplicação que disponibiliza inteligência ao negócio através de dashboards, reports e indicadores de performance (KPIs), o Data Warehouse é normalmente o repositório de dados integrado e eficiente que permite que essas análises de dados ocorram e sejam disponibilizadas a qualquer decisor de uma organização. Neste livro, nós reconhecemos que o Data Warehouse tradicional, que nos remete à década de 90, apresenta severas limitações para processar Big Data devido ao volume, variedade e velocidade deste tipo de dados, e então propomos o conceito de Big Data Warehouse, apresentando aos leitores como poderão conceber e implementar um sistema deste género.

8) Quais consideram ser as principais vantagens à implementação do Big Data na generalidade das empresas?

As principais vantagens da implementação de Big Data dependem do grau de maturidade da organização. Para qualquer organização que ainda não dispõe de um Data Warehouse e que esteja a necessitar de um repositório central e integrado de dados para suporte à tomada de decisão, o nosso conselho é que adotem logo à partida um Big Data Warehouse, pois irão garantir escalabilidade para suportar necessidades futuras, mesmo que o volume, variedade e velocidade de dados atual possa indicar que uma solução tradicional é suficiente. Custará mais no futuro migrar modelos de dados, arquiteturas e sistemas, do que começar com uma abordagem de Big Data Warehousing assente numa infraestrutura em pequena escala, cujos custos podem revelar-se inferiores a manter soluções comerciais tradicionais assentes em tecnologia proprietária e apenas escalável verticalmente. Para as organizações que já dispõem de um Data Warehouse, as mesmas devem refletir nas capacidades atuais da sua arquitetura e infraestrutura atual, e sobretudo nos custos de manter/estender a abordagem atual, em comparação com a migração para uma abordagem de Big Data Warehousing como a retratada neste livro. Se atualmente a organização não consegue dar as respostas pretendidas ou no tempo adequado, devido à incapacidade de armazenar ou processar Big Data, então possivelmente estará na hora de adotar uma solução de Big Data (Warehousing). E através desta solução, as organizações podem esperar:
i) tempos de resposta mais curtos a qualquer indicador ou pergunta cujos dados estejam armazenados no Big Data Warehouse;
ii) possibilidades analíticas muito maiores dado que estes repositórios conseguem integrar uma maior variedade de dados independentemente do seu formato;
iii) uma redução de custos significativa quando a organização opta por tecnologia de Big Data totalmente open source (maioria das tecnologias atuais), clusters com commodity hardware (conceito usado para descrever máquinas com hardware comum e facilmente extensível/substituível) ou modelos de preços elásticos na
cloud.

E é tudo, o nosso obrigado pelo tempo dispensado, e ficamos aguardar pelos seus próximos livros. :)


Sobre os autores:

Maribel Yasmina Santos - Professora Associada no Departamento de Sistemas de Informação da Universidade do Minho. Investigadora do Centro de Investigação ALGORITMI e líder do SEMAG (Software-based Information Systems Engineering and Management Group), no ALGORITMI. As suas áreas de interesse a nível de investigação incluem Business Intelligence and Analytics, Data Warehousing (DWing), Big Data Warehousing (BDWing) e Online Analytical Processing (OLAP).

Carlos Costa - Professor Convidado no campo dos Sistemas de Informação da Universidade do Minho. Foi engenheiro sénior de Big Data, investigador e developer de software. Autor e coautor de várias publicações científicas e técnicas nas áreas de Big Data, DWing e Data Science.



Para quem chegou até aqui, temos uma surpresa. Temos para oferecer dois exemplares do livro "Big Data – Concepts, Warehouse and Analytics" e para te habilitares a ganhar um deles só tens que participar preenchendo o seguinte formulário:



Sem comentários:

Enviar um comentário (problemas a comentar?)

[pub]