#Dobras 31 // Sistema de Recomendação Netflix: Algoritmos, Valor de Negócios e Inovação

Por Carlos Gomez-Uribe*

O texto escrito por Carlos Gomez-Uribe, vice-presidente de produtos de inovação da Netflix, e Neil Hunt, CEO da Netflix, traduzido pela pesquisadora de graduação em Psicologia Caroline Carmona, em linhas gerais, discute a variedade de algoritmos presentes na plataforma que fazem parte do Sistema de Recomendação Netflix, bem como o valor de negócios dos algoritmos, seus processos de melhoramento e os problemas ainda em aberto da empresa.

Os autores ao longo do texto, todavia, demonstram partir de um pressuposto questionável de que há uma gama infinita de escolhas em diferentes aspectos da vida  e o sistema de recomendação baseado nos algoritmos apresenta-se como um dispositivo inovador, com um nível de personalização jamais visto antes. Capaz de aliviar o sofrimento contemporâneo que rodeia a tomada de decisão envolvendo tais escolhas, essas tecnologias da plataformas são vendidas no texto sob uma ótica  mercadológica e de negócios. Nesse sentido, a rede discursiva construída ao longo do texto está muito mais interessada em descrever de modo sucinto a operacionalidade do sistema de recomendação e seus algoritmos do que no caminho de evidenciar as técnicas, instrumentos e relações envolvidas no surgimento dessas tecnologias da plataforma Netflix.

O sistema de recomendação da Netflix consiste, basicamente, em uma coleção de diferentes algoritmos, que servem para diferentes casos e se integram para criar uma “experiência completa” na plataforma.  Apesar de a “Internet TV” ser considerada uma questão de escolha, eles entendem que humanos são péssimos em escolher e quando há muitas opções, ficam sobrecarregados, não escolhem nenhuma das opções ou fazem más escolhas. O problema desse sistema de recomendação é o mesmo enfrentado na avaliação de estrelas, quando esta era o foco. Hoje, há uma variedade de data do que cada usuário faz na plataforma (qual aparelho usa, o tempo do dia, dia da semana , intensidade, o lugar em que cada vídeo foi descoberto).

A netflix Homepage, por sua vez, é a primeira página que o usuário vê ao fazer login  e a principal apresentação das recomendações, na qual  2 de cada 3 horas transmitidas na plataforma são descobertas. Concentrando-se, assim, na arquitetura dessa página de início, o artigo apresenta a operacionalidade de cada algoritmo desenvolvido.

PVR – Personalized Video Ranker

Esse algoritmo ordena todo o catálogo de vídeos (ou subconjuntos selecionado por gênero ou outra filtragem) para cada perfil de membro de forma personalizada. A ordem resultante é usada para selecionar a ordem dos vídeos no gênero  em outras linhas da página e é a razão pela qual a mesma linha de gênero mostrada para diferentes membros pode mostrar vídeos completamente diferentes. Isso ocorre devido à usabilidade do PVR por temas (usado para classificar subconjuntos arbitrários no catálogo), o que também limita o quão personalizado ele pode ser. Dessa forma,  ele funciona melhor quando mesclado com sinais personalizados ou com uma dose dos vídeos mais populares não personalizados.

Top- N Video Ranker

Este é o algoritmo usado para o Top Picks (Sugestões para o Usuário A). O mais interessante nesse algoritmo é que ele realiza a mais fina  e personalizada recomendação no catálogo inteiro para cada membro. Ele é otimizado e avaliado usando métricas e algoritmos que olham apenas para os carros-chefe da catalogação que o algoritmo produz, e não na classificação de todo o algoritmo- catálogo, como é o caso do PVR.

É importante destacar aqui que o Top-N e o PVR são similares em algumas tarefas, combinando personalização com popularidade e identificando e incorporando tendências de visualização em diferentes janelas de tempo que variam de um dia a um ano.

Na figura (1) acima podemos visualizar como ocorre a exibição da linha “Comédia”, selecionada pelo PVR , bem como a recomendação pelo algoritmo Top-N Video Ranker da linha “Sugestões para o Usuário Carol Carmona” na Homepage da plataforma

 

Trending Now (Populares na Netflix)

Esse algoritmo da linha “Populares na Netflix”, por sua vez, é classificado como um algoritmo mais dinâmico no que tange sua duração na Homepage (dura alguns minutos ou talvez alguns dias). São poderosos preditores de vídeos que os usuários assistem, principalmente quando combinados com uma dose de personalização, o que dá origem ao Ranking dos mais populares . Há dois tipos de Trends: 1) os que se repetem a cada mês, mas que tem um tempo de efeito curto como os vídeos assistidos durante o “Dia dos Namorados” e 2) eventos que ocorreram fora da plataforma, por exemplo uma barragem que estourou e assolou uma área, que aumenta o interesse de documentários e filmes sobre desastres ambientais e grandes corporações.

Continue Watching (Continuar Assistindo)

Em contraste, o “Continue Assistindo Ranker” classifica o subconjunto de títulos visualizados recentemente com base na melhor estimativa do que o membro pretende retomar ou relembrar, ou se o membro abandonou algo não tão interessante quanto o previsto. Os sinais  que os autores descrevem, como usados, incluem o tempo decorrido desde a visualização, o ponto de abandono (meio programa vs. início ou fim), se diferentes títulos foram vistos e os dispositivos usados.

Video-Video Similarity (Sims)

Uma linha BYW (“Porque Você Assistiu”) ancora suas recomendações a um único vídeo assistido pelo membro. O vÍdeo-viÍeo algoritmo de similaridade, o “Sims”, conduz as recomendações nessas linhas. O algoritmo do Sims é o primeiro algoritmo da lista não-personalizado, que calcula uma lista ordenada de vídeos – os semelhantes – para todos os vídeos do catálogo. Mesmo que o ranking dos Sims não seja personalizado, a escolha das quais as linhas BYW fazem em uma página inicial é personalizada e o subconjunto de BYW vídeos recomendados em uma determinada linha BYW se beneficiam da personalização, dependendo de  quais subconjuntos dos vídeos semelhantes estima-se que o membro iria gostar (ou já assistiu).

Page Generation: Row Selection and Ranking (Seleção de Linhas e Ranking)

Os vídeos escolhidos para cada linha representam a estimativa da plataforma das melhores escolhas de vídeos para um usuário específico. Mas a maioria dos membros apresentam diferentes estilos de suas melhores escolhas de vídeos e muitas contas são divididas com membros da família. Pensando em oferecer um seleção de linhas diversificada, a página de geração de algoritmos usa o output (saída) de todos os algoritmos já descritos anteriormente para construir cada página de recomendações, levando em conta a relevância de cada linha para um usuário, assim como a diversidade da página. Por haver muitas linhas na página inicial, há um algoritmo totalmente personalizado e matemático que seleciona e ordena as linhas de um grande grupo de candidatos para criar um pedido otimizado para relevância e diversidade. O algoritmo atual não usa um modelo, portanto, é mais livre para otimizar a experiência, por exemplo,  para escolher não ter uma linha BYW para uma determinada página e dedicar metade da página para as linhas BYW para outra homepage.

Evidence (Seleção de Informações para o Vídeo Recomendado)

Juntos esse algoritmos realizam uma experiência completa no sistema de recomendação Netflix. Porém, há outros algoritmos  como Evidence Selection Ones (seleção de evidências) que opera junto aos algoritmos de recomendação, a fim de   definir a experiência no Netflix e ajudar os membros a determinar quais vídeos são os certos ou as melhores escolhas para eles. Esse algoritmo é pensado contendo todas as informações mostradas no canto superior esquerdo da página, incluindo a classificação por estrelas prevista  (que foi o foco no prêmio Netflix); a sinopse; outros fatos exibidos sobre o vídeo, como qualquer prêmios, elenco ou outros metadados; e as imagens usadas para apoiar as recomendações nas linhas e em outros lugares na interface do usuário. Ele avalia todas as possibilidade de itens que há no display para cada recomendação, para selecionar algumas que o Netflix julga que ajudará mais o usuário ver a recomendação, por exemplo, ele vai escolher se mostrará um filme que venceu um Oscar ou, ao invés disso, um filme similar a outro vídeo assistido pelo usuário; qual imagem da que existem no banco de dados será utilizada na recomendação.

Figura 2: O filme “Lazzaro Felice” por exemplo apresenta como itens selecionados pelo Evidence a relevância de 78%, a sinopse, o elenco, a direção e uma determinada capa que chamaria mais atenção desse usuário em específico

 

Logo depois de caracterizar os algoritmos da Homepage, o artigo passa a página de Busca do Netflix, que influencia cerca de 20% dos usuários (os outros 80% ficam a cargo do sistema de recomendação da página inicial) e, dessa forma, requer seu próprio conjunto de algoritmos.  Conforme o apontamento dos autores, os usuários pesquisam com frequência por vídeos, atores ou gêneros no catálogo. Assim, utiliza-se de informação recuperada e técnicas relacionadas para encontrar os vídeos relevantes e exibi-los para os membros ou usuários (Figura 3).

No entanto, como os membros também costumam procurar vídeos, atores ou gêneros que não estão no catálogo ou para conceitos gerais, a busca se transforma em um problema de recomendação. Nesses casos, a pesquisa recomenda vídeos para uma determinada consulta como resultados alternativos para uma pesquisa com falha. (Figura 4)

A experiência de pesquisa é construída em torno de vários algoritmos. Um algoritmo tenta encontrar os vídeos que correspondem a uma determinada consulta, por exemplo, para exibir Friends para a consulta parcial “frien.” (Figura 5 ). Outro algoritmo prevê interesse em um conceito dado  da consulta parcial, por exemplo, identificando o conceito French Movies para a consulta “fren”. E um terceiro algoritmo encontra recomendações de vídeo para um determinado conceito, por exemplo, para vídeos recomendados sob o conceito French Movies (Figura 6). Os algoritmos de pesquisa combinam reproduzir dados, dados de pesquisa e metadados para chegar aos resultados e recomendações oferecidas.

 

Sobre  o valor de negócio

Os autores ressaltam que o sistema de recomendação desenvolvido ajuda a ganhar  o que eles denominam como “momentos de verdade”, isto é, quando um membro inicia uma sessão e dá-se suporte a esse membro para encontrar algo interessante em poucos segundos, é possível impedir o abandono do serviço por uma opção alternativa de entretenimento.

Já a personalização permite encontrar  vídeos para um público de um nicho relativamente pequeno, o que não faria sentido para os modelos de TV de transmissão, já que  o seu público seria muito pequeno para suportar receitas significativas de publicidade, ou para ocupar uma transmissão. Isso se torna evidente nos dados da plataforma, que mostram que a recomendação do sistema com personalização espalha a visualização em muitos vídeos muito mais uniformemente do que sistema  não personalizado.

Para tornar isso mais preciso, houve a introdução de  uma métrica específica, a ECS (o tamanha efetivo do catálogo). Ela nada mais é que uma métrica  que descreve como a visualização é através dos itens no catálogo. Se a maioria das visualizações vier de um único vídeo, será perto de 1. Se todos os vídeos geram a mesma quantidade de visualização, é perto do número de vídeos no catálogo. Caso contrário, é algo entre os dois.

Mais importante, a personalização permite aumentar significativamente a chances de sucesso ao oferecer recomendações. Uma métrica que chega a isso é o takerate (taxa de captação)—a fração de recomendações oferecidas resultando no play. As duas linhas no gráfico mostram o take rate em função da popularidade de um vídeo e outra em função da classificação PVR. As recomendações levam a aumentos significativos no engajamento geral com o produto (por exemplo, horas de streaming) e taxas de cancelamento de assinatura mais baixas.

Logo, a rotatividade mensal dos assinantes é de apenas um dígito, e muito disso é devido à falhas de pagamento. A redução da rotatividade mensal aumenta o valor de  tempo de vida de um assinante existente e reduz o número de novos assinantes que se precisa adquirir para substituir membros cancelados. O efeito combinado de personalização e recomendações economiza à Netflix mais de US $ 1 bilhão por ano.

Sobre o processo de melhoramento dos algoritmos

O algoritmo de recomendação produz frequentemente a resposta errada, e é simplesmente impossível  determinar quando a distinção entre boas de excelentes recomendações é ou não confiável. O primeiro problema apontado, então, gira em torno de como saber  quando uma variante de algoritmo é melhor ou pior que outra.

O modelo de negócios de assinatura sugere uma estrutura para encontrar a resposta.  Ele baseia-se na taxa de assinatura mensal que os membros atuais pagam e é proporcional ao número de membros e, a três processos que afetam esse número: 1) a taxa de aquisição de novos membros; 2) a taxa de cancelamento; 3) a taxa dos ex-membros; Se houver a criação de  um serviço mais atraente, oferecendo melhores recomendações personalizadas, há uma maior indução de membros que estavam em cima do muro a ficar mais tempo e melhorar a retenção.

As alterações no produto afetam diretamente apenas os membros atuais. Assim, a principal medida de mudanças nos algoritmos de recomendação é  melhorar a retenção de membros. Apesar das taxas de retenção já serem altas o suficiente, há uma correlação entre o engajamento (tempo que o usuário permanece na plataforma)  e a melhoria da retenção (taxa de assinantes). Projeta-se então frequentemente experimentos com os chamados testes A-B para comparar o envolvimento na Netflix com o cancelamento de membros.

Em suma, eles atribuem, aleatoriamente, membros diferentes a experiências diferentes, o que chama-se de células: 1) célula de controle: vídeo diferente , mesmo algoritmo, criando o padrão; 2) células de teste: outras células. Em seguida, permite-se que os membros de cada célula interajam com o produto ao longo de um período  de meses, geralmente de 2 a 6 meses. E finalmente, é feita uma análise os dados resultantes para responder várias perguntas sobre o comportamento dos membros a partir de uma perspectiva estatística.

Há, além desse, um segundo problema: embora tenham encontrado várias vitórias claras, vê-se mais ganhos globais de engajamento que não são grandes o suficiente para afetar as taxas de retenção, e ainda mais engajamento local  que não muda taxas gerais de streaming ou retenção (nuances do teste A-B). A escala de tempo do teste AB é longa e demorada para tornar o processo mais rápido.

A tentativa de contorno ao problema é utilizar  um tipo diferente de experimentação com base na análise de dados históricos(experimentação offline), não explicada de forma esclarecedora pelos autores. Esta experimentação offline muda de  algoritmo para algoritmo, mas sempre consiste em calcular uma métrica para cada variante do algoritmo. Ele descreve quão bem as variantes do algoritmo se ajustam ao engajamento anterior do usuário.

Esses mesmos experimentos offline, por sua vez,  permitem iterar rapidamente em protótipos de algoritmo e remover as variantes candidatas que são usadas em experimentos A / B reais, ou seja, uma iteração rápida para protótipos de algoritmo por meio de experimentação offline, analisando dados para quantificar quão bem um novo algoritmo pode prever o engajamento de um membro gera uma suposição , que nem sempre é verdadeira:   os membros teriam se engajado no produto exatamente da mesma maneira, por exemplo, jogando os mesmos vídeos, o novo algoritmo foi usado para gerar recomendações. Uma vez que se vê resultados suficientemente encorajadores em experimentos, constrói-se um Teste AB teste para usar o novo algoritmo para gerar recomendações para os membros.Se o teste AB for bem-sucedido, muda-se o produto para usar esse novo algoritmo por padrão. Se o teste AB, por outro lado, stiver negativo ou negativo, abandona-se a direção de pesquisa ou volta-se para o mundo da experimentação de planos para tentar tornar o novo algoritmo melhor para um possível teste A B futuro.

Sobre os problemas ainda em aberto

É preciso que a equipe de pesquisa e desenvolvimento encontre uma melhor alternativa à experimentação offline para iterar com a mesma rapidez  (mais preditivo com testes AB). Assim, foram criadas duas possibilidades: 1) testes AB, baseados em intercalação e focados em métricas de algoritmos locais, como taxas de cliques (o que a maioria das demais empresas utilizam); 2) desenvolver novas métricas de experimentos offline. Um outro problema apontado, mas que não possui ainda uma alternativa é o equilíbrio de conteúdo longo e curto, ainda muito desproporcionais na plataforma.

Sobre os algoritmos Globais (Inovação)

As licenças da Netflix, algumas vezes são exclusivas e se alteram de país para país, região por região. Assim, os catálogos diferem. A empresa, então,   busca agrupar países que apresentam catálogos similares e rodam todos os algoritmos por região. Porém a ideia é criar um algoritmo global, compartilhando dados por todos os países, incluindo dados de engajamento e o catálogo de vídeo para cada país.

Há um interesse também em modelos que levem em conta que  o idioma e o subtítulo disponíveis combinem com o idioma e o subtítulo que cada usuário em cada país sinta-se confortável. Ou seja, se um membro só fica confortável em assistir em tailandês e considera-se que ele adoraria assistir “House of Cards”, mas não há um subtítulo ou áudio, talvez seja melhor  não recomendar essa série ou é possível incluir essa língua para recomendá-la para o usuário.

Segundo Neil, parte do objetivo da empresa é espalhar conteúdo original e quebrar com as barreiras de licença global. Querem  mostrar, como exemplo, o melhor drama Francês na Ásia e o melhor animê japonês na Europa. Como é muito caro ter todas as línguas disponíveis, é preciso saber e aprender qual língua cada membro entende e lê e como eles assistem (áudio original, com ou sem subtítulo), para, dessa forma é possível  sugerir o idioma e o subtítulo apropriado para os membros.

Member Coldstarting (Início Rápido para Novos Membros)

Por último, há um enfoque sobre os novos membros no que tange à impossibilidade de criar um sistema de recomendação com algoritmos eficazes e personalizados para alguém que acabou de entrar na plataforma. Logo, há uma pesquisa de dados no processo de inscrição, no qual se pede aos novos membros que selecionem vídeos conteúdo popular algoritmicamente como entrada para os outros algoritmos.

Os autores também, nesse final, constroem como entendem a relação do homem com o  mundo neoliberal: um mundo com um número crescente de escolhas e que devem ser decididas em todos os aspectos de sua vida como  na mídia, videos, músicas e livros, outras questões baseadas no gosto, como férias, aluguel, restaurantes e assim por diante, mas mais importante, em torno de áreas como a saúde, planos de seguro e tratamentos e testes, pesquisas de emprego, educação e aprendizagem, namoro e encontrar parceiros de vida e muitas outras áreas nas quais a escolha é importante. Entendem assim, que com esse sistema de recomendação desenvolvido para utilização da riqueza de dados é possível tornar  algumas dessas escolhas gerenciáveis, orientando as pessoas para as melhores opções para serem avaliadas, resultando em melhores decisões. É como se a plataforma conseguisse tirar o peso do sofrimento do sujeito contemporâneo, oferecendo-lhe escolhas já personalizadas e orientadas para uma melhor tomada de decisão, uma visão um tanto quanto pretensiosa.

//

*Tradução de Caroline Carmona, graduanda em Psicologia pela UFRJ e pesquisadora do MediaLab.UFRJ.