HuFeiHu-Blog-CSDN博客

原创 MetaWRAP 安装与配置

MetaWRAP 安装1、安装Python环境Minconda2https://repo.anaconda.com/miniconda/Miniconda2-latest-Linux-x86_64.shbash Miniconda2-latest-Linux-x86_64.sh2、安装MetaWrap# 配置，按照下面的顺序配置，顺序很重要conda config --add channels defaultsconda config --add channels conda-forgec

2021-10-31 21:17:48 7998 7

原创面试算法大全-滑动窗口总结

17、滑动窗口滑动窗口算法leetcode经典例题无重复字符的最长子串滑动窗口class Solution { public int lengthOfLongestSubstring(String s) { if(s.length()==0){ return 0; } int max=0; int start=0;//记录子字符串开始的位置 HashMap<Character,I

2021-06-14 09:51:47 367

原创面试算法大全-双指针技巧总结

16、双指针技巧双指针具体就是用两个变量动态存储两个或多个结点，来方便我们进行一些操作。通常用在线性的数据结构中，比如链表和数组。常用的双指针思想有：快慢指针、碰撞指针、滑动窗口等。15.2.1 左右指针 //nums 数组中查找target的位置public int searchInsert(int[] nums, int target) { int left = 0, right = nums.length - 1; while(left <= ri

2021-06-14 09:50:41 303

原创面试算法大全-二分查找总结

15、二分查找public class BinarySearch { /** *第一种：递归 */ public static int recursionBinarySearch(int[]arr,int key,int low,int high){ if(key<arr[low]||key>arr[high]||low>high){ return-1; } int middle

2021-06-14 09:49:00 194

原创面试算法大全-并查集总结

14 、并查集并查集是一种树型的数据结构，用于处理一些不交集（Disjoint Sets）的合并及查询问题。有一个联合-查找算法（Union-find Algorithm）定义了两个用于此数据结构的操作： Find：确定元素属于哪一个子集。它可以被用来确定两个元素是否属于同一子集。 Union：将两个子集合并成同一个集合。14.1 并查集总结并查集的实现public class QuickUnionUF { //存储若干棵树 private int[] parent

2021-06-14 09:47:51 195

原创面试算法大全-深度优先遍历和广度优先遍历

13.1 深度优先遍历和广度优先遍历算法总结广度优先搜索算法（Breadth-First-Search，缩写为 BFS），是一种利用队列实现的搜索算法。简单来说，其搜索过程和 “湖面丢进一块石头激起层层涟漪” 类似。深度优先搜索算法（Depth-First-Search，缩写为 DFS），是一种利用递归实现的搜索算法。简单来说，其搜索过程和 “不撞南墙不回头” 类似。 BFS 的重点在于队列，而 DFS 的重点在于递归。这是它们的本质区别。

2021-06-14 09:46:07 491 2

原创面试算法大全-分治算法总结

12、分治12.1 分治算法总结分治法在每一层递归上都有三个步骤：（1）分解：将原问题分解为若干个规模较小，相互独立，与原问题形式相同的子问题。（2）求解：若子问题规模较小而容易被解决则直接解，否则递归地解各个子问题。（3）合并：将各个子问题的解合并为原问题的解。//伪代码Divide-and-Conquer(P) if |P| ≤ n0 then return(ADHOC(P)) 将P分解为较小的子问题 P1 ,P2 ,...,Pk

2021-06-14 09:39:32 173

原创面试算法大全-贪心算法总结

11、贪心11.1 贪心算法总结贪心算法是指在每个阶段做选择的时候都做出当前阶段（或状态）最好的选择，并且期望这样做到的结果是全局最优解（但未必是全局最优解）。基本步骤步骤1：从某个初始解出发；步骤2：采用迭代的过程，当可以向目标前进一步时，就根据局部最优策略，得到一部分解，缩小问题规模；步骤3：将所有解综合起来。贪心算法与动态规划的不同在于它对每个子问题的解决方案都做出选择，不能回退。动态规划则会保存以前的运算结果，并根据以前的结果对当前进行选择，有回退功能。11.2

2021-06-03 16:28:09 213

原创面试算法大全-动态规划总结

动态规划三要素：（1）重叠子问题，（2）最优子结构，（3）状态转移方程。思考状态转移方程：明确[状态]—>定义dp数组/函数的含义—>明确选择—>明确base case动态规划解题范例：斐波那契数列的定义是 f(n + 1) = f(n) + f(n - 1)，生成第 n 项的做法有以下几种：递归法：原理：把 f(n)问题的计算拆分成 f(n-1和 f(n-2)两个子问题的计算，并递归，以 f(0)和 f(1)为终止条件。缺点：大量重复的递归计算，例如 f(n)和 f(n

2021-06-03 16:26:17 252

原创面试算法大全-回溯算法总结

9、回溯9.1 回溯算法总结（DFS）回溯算法和DFS一个样子void backtracking(参数) { if (终止条件) { 存放结果; return; } for (选择：本层集合中元素（树中节点孩子的数量就是集合的大小）) { 处理节点; backtracking(路径，选择列表); // 递归回溯，撤销处理结果 }}代码方面，回溯算法的框架：result = []d

2021-06-03 16:21:26 163

原创面试算法大全-递归总结

8.递归8.1 递归算法总结构成递归需具备的条件:1 . 子问题须与原始问题为同样的事，且更为简单；2 . 不能无限制地调用本身，须有个出口，化简为非递归状况处理。直接或者间接调用自身的算法叫做递归算法。8.2 经典题目源码总结二叉搜索树的范围和方法一：深度优先搜索class Solution { int ans; public int rangeSumBST(TreeNode root, int L, int R) { ans = 0;

2021-06-03 16:19:38 171

原创面试算法大全-树与二叉树总结

6、树结构6.1 树数据结构体系6.1.1 二叉树和基本实现二叉树数据结构定义：public class TreeNode { int val; TreeNode left; TreeNode right; public TreeNode() { } public TreeNode(int val) { this.val = val; } public TreeNode(int val, TreeNode lef

2021-06-03 16:17:33 199

原创面试算法大全-队列总结

5.1 队列的定义和特点5.2 队列的实现5.2.1 用数组实现队列// 使用数组模拟队列-编写一个ArrayQueue类class ArrayQueue { private int maxSize; // 表示数组的最大容量 private int front; // 队列头 private int rear; // 队列尾 private int[] arr; // 该数据用于存放数据, 模拟队列 // 创建队列的构造器 public ArrayQueue(int arrMaxSi

2021-06-03 16:14:28 170

原创面试算法大全-栈总结

4、栈4.1 栈的定义和特点[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hbNpVdLE-1622707812799)(C:\Users\HuFeiHu\AppData\Roaming\Typora\typora-user-images\image-20201112140549673.png)]（1）栈的存储结构栈既然是一种线性结构，就能够以数组或链表（单向链表、双向链表或循环链表）作为底层数据结构。（2）栈的操作栈的常用操作为：弹栈，通常命名为pop压栈，

2021-06-03 16:10:33 172

原创算法面试大全-字符串总结

3、字符串3.1 基本概念(1)回文(2)字串(连续)(3)子序列(不连续)(4)前缀树(trie树)(5)后缀树和后缀数组(6)匹配(7)字典序3.2 题目类型[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XanudyZV-1622707400090)(C:\Users\HuFeiHu\AppData\Roaming\Typora\typora-user-images\image-20201110073052624.png)][外链图片转存失败,源站可

2021-06-03 16:05:36 197

原创面试算法大全-链表总结

2、链表链表常用的有 3 类：单链表、双向链表、循环链表。2.1 链表的概念和实现2.1.1 单项链表节点定义private static class Node<E> { E item; Node<E> next; Node(E element, Node<E> next) { this.item = element; this.next = next; }}单链表实现public

2021-06-03 16:00:42 258

原创面试算法大全-数组总结

1、数组1.1 一维数组1.1.1遍历public class Arraytest { public static void main(String[] args) { int[] arr={1,3,4,5,6,8,9}; //顺序遍历 for (int i = 0; i < arr.length; i++) { System.out.print(arr[i]); }

2021-06-03 15:55:46 169

转载 kafka connect

一. Kafka Connect简介　　Kafka是一个使用越来越广的消息系统，尤其是在大数据开发中（实时数据处理和分析）。为何集成其他系统和解耦应用，经常使用Producer来发送消息到Broker，并使用Consumer来消费Broker中的消息。Kafka Connect是到0.9版本才提供的并极大的简化了其他系统与Kafka的集成。Kafka Connect运用用户快速定义并实现各种C...

2019-04-13 16:03:48 947

转载进阶Java架构师必看的15本书

1、大型网站技术架构：核心原理与案例分析本书通过梳理大型网站技术发展历程，剖析大型网站技术架构模式，深入讲述大型互联网架构设计的核心原理，并通过一组典型网站技术架构设计案例，为读者呈现一幅包括技术选型、架构设计、性能优化、Web安全、系统发布、运维监控等在内的大型网站开发全景视图。本书作者李智慧，曾在阿里巴巴担任技术专家，参与阿里巴巴基础技术平台开发和架构设计。2、分布式服务框架原理与...

2019-03-21 22:57:48 1016

转载 FlinkX--基于flink的分布式数据同步工具

GitHub地址：https://github.com/DTStack/flinkx.git1 什么是FlinkXFlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线数据同步框架，实现了多种异构数据源之间高效的数据迁移。不同的数据源头被抽象成不同的Reader插件，不同的数据目标被抽象成不同的Writer插件。理论上，FlinkX框架可以支持任意数据源类型的数据同步工作。作为...

2019-02-07 16:17:00 27639 2

转载 Python之系统交互

本文转自：http://www.cnblogs.com/yyds/p/7288916.htmlos与commands模块 subprocess模块 subprocess.Popen类总结我们几乎可以在任何操作系统上通过命令行指令与操作系统进行交互，比如Linux平台下的shell。那么我们如何通过Python来完成这些命令行指令的执行呢？另外，我们应该知道的是命令行指令的执行通常有两...

2019-01-24 20:54:30 352

转载 Python 大规模数据存储与读取、并行计算：Dask库简述

本文转自：https://blog.csdn.net/sinat_26917383/article/details/78044437数据结构与pandas非常相似，比较容易理解。原文文档：http://dask.pydata.org/en/latest/index.htmlgithub：https://github.com/daskdask的内容很多，挑一些我比较看好的内容着重点一下...

2019-01-21 20:51:47 2964

转载 Dubbo的使用及原理浅析

Dubbo是什么？Dubbo是阿里巴巴SOA服务化治理方案的核心框架，每天为2,000+个服务提供3,000,000,000+次访问量支持，并被广泛应用于阿里巴巴集团的各成员站点。Dubbo[]是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含:远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列...

2019-01-21 15:40:20 246

转载构建实时流数据平台实践指南

本文转自：https://www.jdon.com/bigdata/stream-data-platform.html　　如今流处理stream processing，事件数据和实时等词语非常流行，它们经常和 Kafka, Storm, Samza, 以及 Spark的 Streaming module等具体技术有关，本指南是介绍如何将这些技术堆栈架构到具体实践中。这些最佳实践经验来自于Lin...

2019-01-20 00:44:17 748

转载 Apache Tez基本知识

官方blog:http://hortonworks.com/blog/author/arun_murthy/svn源码：http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/看到一篇很不错的文章：http://dongxicheng.org/mapreduce-nextgen/apache-te...

2019-01-20 00:44:06 679

转载 Druid-简介

本文转自：https://yq.aliyun.com/articles/58778?spm=a2c4e.11153940.blogcont58779.37.2625548a2SUN0KDruid 是目前比较流行的高性能的，分布式列存储的OLAP框架(具体来说是MOLAP)。它有如下几个特点：一. 亚秒级查询 druid提供了快速的聚合能力以及亚秒级的OLAP查询能力，多租户的设...

2019-01-20 00:43:52 1395

转载 Apache Tez最新进展

为了更高效地运行存在依赖关系的作业（比如Pig和Hive产生的MapReduce作业），减少磁盘和网络IO，Hortonworks开发了DAG计算框架Tez。Tez是从MapReduce计算框架演化而来的通用DAG计算框架，可作为MapReduceR/Pig/Hive等系统的底层数据处理引擎，它天生融入Hadoop 2.0中的资源管理平台YARN，且由Hadoop 2.0核心人员精心打造，势必将会...

2019-01-20 00:43:43 1182

转载一文读懂 Apache Kudu

本文转自：https://www.jianshu.com/p/83290cd817ac前言Apache Kudu是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展，使用Raft协议进行一致性保证，并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。本文将为您介绍Kudu的一些基本概念...

2019-01-20 00:43:33 1121

转载实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣

From http://www.dataguru.cn/article-9532-1.html 分布式流处理需求日益增加，包括支付交易、社交网络、物联网（IOT）、系统监控等。业界对流处理已经有几种适用的框架来解决，下面我们来比较各流处理框架的相同点以及区别。分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算，但我们期望延迟...

2019-01-20 00:43:15 613

转载 Presto简介

是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构，多个节点管道式执⾏⽀持任意数据源（通过扩展式Connector组件），数据规模GB~PB级使用的技术，如向量计算，动态编译执⾏计划，优化的ORC和Parquet Reader等presto不太支持存储过程，支持部分标准sql...

2019-01-20 00:43:01 82527 1

转载实时流Streaming大数据：Storm,Spark和Samza

　当前有许多分布式计算系统能够实时处理大数据，这篇文章是对Apache的三个框架进行比较，试图提供一个快速的高屋建瓴地异同性总结。Apache Storm　　在Storm中，你设计的实时计算图称为toplogy，将其以集群方式运行，其主节点会在工作节点之间分发代码并执行，在一个topology中，数据是在spout之间传递，它发射数据流作为不可变的key-value匹配集合，这种key-v...

2019-01-20 00:42:35 315

转载 Phoenix入门到精通

摘要：此Phoenix系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoenix入门、在做架构设计和技术选型的同学能有一些帮助。概述Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API创建表，插入和查询HBASE，也支持二级索引、事物以及多种SQL层优化。此...

2019-01-20 00:42:23 520

转载 Apache NiFi简介

一个易用、强大、可靠的数据处理与分发系统。基于Web图形界面，通过拖拽、连接、配置完成基于流程的编程，实现数据采集等功能一、什么是NiFi?NiFi是美国国家安全局开发并使用了8年的可视化数据集成产品，2014年NAS将其贡献给了Apache社区，2015年成为Apache顶级项目传统的数据流解决方案往往会遇到以下挑战:网络错误硬盘错误软件崩溃人为错误数...

2019-01-20 00:41:54 14187

转载机器学习H2O AI框架简介

1. H2O框架优势：自己实现分布式计算框架，算法种类全，有深度学习算法，同时可以通过Sparkling-water将 h2o 和spark 进行完美整合a.底层数据层底层数据读取Hdfs数据 s3数据 SQL 数据 noSQL数据 s3Amazon Simple Storage Service 亚马逊的云存储结构 Hive其实就是读取HDFS...

2019-01-19 22:11:11 7198

转载一文读懂数字孪生的应用及意义

本文转自：https://baijiahao.baidu.com/s?id=1612730768875518690&wfr=spider&for=pc 今天的数字化技术正在不断地改变每一个企业。未来，所有的企业都将成为数字化的公司，这不只是要求企业开发出具备数字化特征的产品，更指的是通过数字化手段改变整个产品的设计、开发、制造和服务过程，并通过数字化的手段连接企业的内部和外...

2019-01-19 22:04:12 13229

转载十年之后，数字孪生将这样改变我们的工作与生活

本文转自：https://baijiahao.baidu.com/s?id=1617158077142839496&wfr=spider&for=pc 资本实验室·今日创新观察聚焦前沿科技创新与传统产业升级齐达数字孪生是近几年兴起的非常前沿的新技术，简单说就是利用物理模型，使用传感器获取数据的仿真过程，在虚拟空间中完成映射，以反映相对应的实体的全生命周期过程。...

2019-01-19 22:02:47 945

转载 Flume原理解析

本文转自：https://www.cnblogs.com/zhangyinhua/p/7803486.html#_label0 阅读目录(Content)一、Flume简介二、Flume特点三、Flume的一些核心概念 3.1、Agent结构　　 3.2、source 3.3、Channel 3.4、Sink 四、Flume拦截器、数据流以及可靠性 4.1...

2019-01-19 21:58:53 254

转载 Ambari 功能简介

背景最近在做关于Hadoop集群的可视化部署相关的调研，发现了Ambari这个有趣的东西，在使用的过程中，整理了一部分功能列表，在此分享。Ambari简介Ambari是Hortonworks开源的Hadoop平台的管理软件，具备Hadoop组件的安装、管理、运维等基本功能，提供Web UI进行可视化的集群管理，简化了大数据平台的安装、使用难度。功能列表操作级别：Host Leve...

2019-01-19 21:35:43 1925 1

转载阿里开源首款自研科学计算引擎 Mars

日前，阿里巴巴正式对外发布了分布式科学计算引擎 Mars 的开源代码地址，开发者们可以在Github上获取源代码并参与开发。Mars 突破了现有大数据计算引擎的关系代数为主的计算模型，将分布式技术引入科学计算/数值计算领域，极大地扩展了科学计算的计算规模和效率。目前已应用于阿里巴巴及其云上客户的业务和生产场景。下面，我们将详细介绍Mars的设计初衷和技术架构，希望和大家共同交流探讨。G...

2019-01-19 20:55:16 1310

转载物联网服务器搭建资料汇总

物联网服务器搭建资料汇总一文理清散乱的物联网里开发者必须关注的技术！物联网平台架构设计MQTT学习笔记——MQTT协议体验 Mosquitto安装和使用 Mosquitto简要教程（安装/使用/测试）搭建你的物联网——workerman tcp服务器UDP服务器端和客户端程序设计 TCP服务器端和客户端程序设计MQTT官网 MQTT推荐的各种服务器和客户端使用的各种语言...

2019-01-19 20:47:40 1556

台球运动中主球运动轨迹的仿真分析

空空如也