找回密码
 注册
关于网站域名变更的通知
查看: 129|回复: 0
打印 上一主题 下一主题

FPGA/CPLD设计四大技巧

[复制链接]
  • TA的每日心情
    开心
    2023-6-2 15:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2023-1-12 16:36 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    导读: 本文讨论的四种常用FPGA/cpld设计思想与技巧:乒乓操作、串并转换、流水线操作、数据接口同步化,都是FPGA/cpld逻辑设计的内在规律的体现,合理地采用这些设计思想能在FPGA/CPLD设计工作中取得事半功倍的效果。/ y' s! p% i# k3 ]9 r
    7 r' {. S7 A1 v* r* M# S8 J+ J1 }. K2 d+ @
    1 N. c/ `6 W  V# rFPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
    0 X) ]0 }, L: s% n3 T  P
    ' k) L' @7 J, _FPGA/CPLD的设计思想与技巧是一个非常大的话题,由于篇幅所限,本文仅介绍一些常用的设计思想与技巧,希望本文能引起工程师们的注意,如果能有意识地利用这些原则指导日后的设计工作,将取得事半功倍的效果!0 r) k" n9 e$ y
    0 J$ L6 `* C. L% p

    6 N9 m5 v/ A  v+ C, G7 F1、乒乓操作: }9 S: k" X# x1 C* U9 p% G! b3 p& u, l6 l, N

    $ I3 ^6 S1 \( `9 R6 a7 i" ~" l; b“乒乓操作”是一个常常应用于数据流控制的处理技巧,典型的乒乓操作方法如图1所示。3 J# _$ R* a( i7 g- X+ P6 V! r' v/ J
    $ |( e8 K! O  \. r6 g: g9 x! m$ O. R, T. \$ L  @0 {9 y
    乒乓操作的处理流程为:输入数据流通过“输入数据选择单元”将数据流等时分配到两个数据缓冲区,数据缓冲模块可以为任何存储模块,比较常用的存储单元为双口RAM(DPRAM)、单口RAM(SPRAM)、FIFO等。在第一个缓冲周期,将输入的数据流缓存到“数据缓冲模块1”;在第2个缓冲周期,通过“输入数据选择单元”的切换,将输入的数据流缓存到“数据缓冲模块2”,同时将“数据缓冲模块1”缓存的第1个周期数据通过“输入数据选择单元”的选择,送到“数据流运算处理模块”进行运算处理;在第3个缓冲周期通过“输入数据选择单元”的再次切换,将输入的数据流缓存到“数据缓冲模块1”,同时将“数据缓冲模块2”缓存的第2个周期的数据通过“输入数据选择单元”切换,送到“数据流运算处理模块”进行运算处理。如此循环。$ u1 h+ E1 m# b( L, p0 c5 v# W& N  W+ X* Q
    ) e' L! S6 \  ?( y1 Z5 |
    $ W6 P. A8 t3 ~# Y5 R4 v7 P- @3 a乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、相互配合的切换,将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处理。把乒乓操作模块当做一个整体,站在这个模块的两端看数据,输入数据流和输出数据流都是连续不断的,没有任何停顿,因此非常适合对数据流进行流水线式处理。所以乒乓操作常常应用于流水线式算法,完成数据的无缝缓冲与处理。, R: ?! ]  u: |7 q& F
    " H. c$ Z* l/ V" \9 S. |( z: [) t* ?/ {/ i( }- D( Q! @2 r
    乒乓操作的第二个优点是可以节约缓冲区空间。比如在WCDMA基带应用中,1个帧是由15个时隙组成的,有时需要将1整帧的数据延时一个时隙后处理,比较直接的办法是将这帧数据缓存起来,然后延时1个时隙进行处理。这时缓冲区的长度是1整帧数据长,假设数据速率是3.84Mbps,1帧长10ms,则此时需要缓冲区长度是38400位。如果采用乒乓操作,只需定义两个能缓冲1个时隙数据的RAM(单口RAM即可)。' Y5 Q9 b1 b/ v9 {" I. n- D* h2 ]) \. k3 a6 Q( {

    ' R7 k/ Q5 n7 W) o% d+ @7 l9 c. o( r当向一块RAM写数据的时候,从另一块RAM读数据,然后送到处理单元处理,此时每块RAM的容量仅需2560位即可,2块RAM加起来也只有5120位的容量。5 Q+ G8 R6 T6 Q4 {1 @5 m2 b! H$ G" z" q- O  }# Q# Y# K
    ( o+ j* Y) N+ K! T$ w' C" C% |4 r! p- r% S, E- n) ?
    另外,巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。如图2所示,数据缓冲模块采用了双口RAM,并在DPRAM后引入了一级数据预处理模块,这个数据预处理可以根据需要的各种数据运算,比如在WCDMA设计中,对输入数据流的解扩、解扰、去旋转等。假设端口A的输入数据流的速率为100Mbps,乒乓操作的缓冲周期是10ms。以下分析各个节点端口的数据速率。% r) ?7 P0 _( C# l1 Y

    ( d3 u3 a) I  i" i3 O! s5 E1 pA端口处输入数据流速率为100Mbps,在第1个缓冲周期10ms内,通过“输入数据选择单元”,从B1到达DPRAM1。B1的数据速率也是100Mbps,DPRAM1要在10ms内写入1Mb数据。同理,在第2个10ms,数据流被切换到DPRAM2,端口B2的数据速率也是100Mbps,DPRAM2在第2个10ms被写入1Mb数据。在第3个10ms,数据流又切换到DPRAM1,DPRAM1被写入1Mb数据。; L) B, V: K5 d3 L
    # }8 T7 f1 i( y7 U# W; t3 J$ U8 K# B; y4 F9 I
    仔细分析就会发现到第3个缓冲周期时,留给DPRAM1读取数据并送到“数据预处理模块1”的时间一共是20ms。有的工程师困惑于DPRAM1的读数时间为什么是20ms,这个时间是这样得来的:首先,在在第2个缓冲周期向DPRAM2写数据的10ms内,DPRAM1可以进行读操作;; s0 c5 j) g# G6 O, f
    4 Y& k# y6 J! _: X& z) t. n7 D% `; l1 Q
    # ~5 h5 L! @; X/ \9 e
      g% P, B7 ~) ^在第1个缓冲周期的第5ms起(绝对时间为5ms时刻),DPRAM1就可以一边向500K以后的地址写数据,一边从地址0读数,到达10ms时,DPRAM1刚好写完了1Mb数据,并且读了500K数据,这个缓冲时间内DPRAM1读了5ms;在第3个缓冲周期的第5ms起(绝对时间为35ms时刻),同理可以一边向500K以后的地址写数据一边从地址0读数,又读取了5个ms,所以截止DPRAM1第一个周期存入的数据被完全覆盖以前,DPRAM1最多可以读取20ms时间,而所需读取的数据为1Mb,所以端口C1的数据速率为:1Mb/20ms=50Mbps。因此,“数据预处理模块1”的最低数据吞吐能力也仅仅要求为50Mbps。同理,“数据预处理模块2”的最低数据吞吐能力也仅仅要求为50Mbps。换言之,通过乒乓操作,“数据预处理模块”的时序压力减轻了,所要求的数据处理速率仅仅为输入数据速率的1/2。. \: [: k7 D+ h6 o' A+ _- _: K! \" u
    . F$ C/ {! m1 f& T* Y3 L
    通过乒乓操作实现低速模块处理高速数据的实质是:通过DPRAM这种缓存单元实现了数据流的串并转换,并行用“数据预处理模块1”和“数据预处理模块2”处理分流的数据,是面积与速度互换原则的体现!
    4 {2 ^- q0 {4 C6 e) W' R- R  {( q- }, W+ A* A7 M8 ^9 y* |- E+ k4 r: C/ i
    2、串并转换设计技巧9 j& J9 E6 {! J( F' \9 E2 U9 v; b6 c
    9 y: D! w" b9 N9 X9 k/ {* t, O, W$ s$ I' o1 X8 H" W% v
    串并转换是FPGA设计的一个重要技巧,它是数据流处理的常用手段,也是面积与速度互换思想的直接体现。) C2 _, x7 b. U( \# o* I$ {7 [/ p

    * Y4 J# D4 s1 o2 a6 M& k串并转换的实现方法多种多样,根据数据的排序和数量的要求,可以选用寄存器、RAM等实现。前面在乒乓操作的图例中,就是通过DPRAM实现了数据流的串并转换,而且由于使用了DPRAM,数据的缓冲区可以开得很大,对于数量比较小的设计可以采用寄存器完成串并转换。如无特殊需求,应该用同步时序设计完成串并之间的转换。比如数据从串行到并行,数据排列顺序是高位在前,可以用下面的编码实现:5 ?/ D+ Y" P- c0 U3 x* b
    ( K* A' P& }8 u: y
    $ ^% m9 d" g# e2 \) p7 K# I5 I' Y1 f/ S7 j
    prl_temp《={prl_temp,srl_in};8 @6 t1 V& ?2 T; _, V, V
    3 M: M) R$ K6 h9 k
    3 t, v" N) N: C3 n7 B4 Z( X其中,prl_temp是并行输出缓存寄存器,srl_in是串行数据输入。* [; F. X" V) p3 g
    * E6 J/ T: P( S9 b2 b# @9 A1 I$ ~# s
    对于排列顺序有规定的串并转换,可以用case语句判断实现。对于复杂的串并转换,还可以用状态机实现。串并转换的方法比较简单,在此不必赘述。7 E% s8 P* z. g; L6 w1 y- k! T$ v
    2 ?) G; G" |4 p1 j$ R4 d0 n  Z" g3 I7 [  G% D- s# [
    3、流水线操作设计思想! [0 d, r8 F/ N
    / O4 t# N0 E1 [( `$ i% b, U
    ! V% y& G4 ^! c+ B3 }: K; R首先需要声明的是,这里所讲述的流水线是指一种处理流程和顺序操作的设计思想,并非FPGA、ASIC设计中优化时序所用的“Pipelining”。. `- D+ V1 C1 Z2 ~8 N) J
    + m2 a: h2 x7 S. x% v9 S3 w! Q3 }1 s; F0 G7 Z: D7 d
    9 m. V6 \2 S4 K- s- I0 \5 |流水线处理是高速设计中的一个常用设计手段。如果某个设计的处理流程分为若干步骤,而且整个数据处理是“单流向”的,即没有反馈或者迭代运算,前一个步骤的输出是下一个步骤的输入,则可以考虑采用流水线设计方法来提高系统的工作频率。* V: {$ s+ I, i/ u: i
    * i! l" H( ]2 P; |! m# \* x( p8 k% B( g% n2 `) b
    6 w) V4 g; N$ @! G/ k) v: C/ W1 Y流水线设计的结构示意图如图3所示。其基本结构为:将适当划分的n个操作步骤单流向串联起来。流水线操作的最大特点和要求是,数据流在各个步骤的处理从时间上看是连续的,如果将每个操作步骤简化假设为通过一个D触发器(就是用寄存器打一个节拍),那么流水线操作就类似一个移位寄存器组,数据流依次流经D触发器,完成每个步骤的操作。流水线设计时序如图4所示。3 z1 }+ P2 X4 }) p# l9 G8 ^1 x

    ) ~. K* ]: y# W8 w* P" n" i流水线设计的一个关键在于整个设计时序的合理安排,要求每个操作步骤的划分合理。如果前级操作时间恰好等于后级的操作时间,设计最为简单,前级的输出直接汇入后级的输入即可;如果前级操作时间大于后级的操作时间,则需要对前级的输出数据适当缓存才能汇入到后级输入端;如果前级操作时间恰好小于后级的操作时间,则必须通过复制逻辑,将数据流分流,或者在前级对数据采用存储、后处理方式,否则会造成后级数据溢出。) i5 e$ X. {- b4 K% O
    * J: C% Z" j5 T+ |  q& ?( _/ I. a6 j8 N5 t7 x6 t/ q" w8 j: m! r3 h) f! ^
    在WCDMA设计中经常使用到流水线处理的方法,如RAKE接收机、搜索器、前导捕获等。流水线处理方式之所以频率较高,是因为复制了处理模块,它是面积换取速度思想的又一种具体体现。1 b* N* ?  O2 f$ i' @
    2 B! V" ^8 \) @3 C! r9 Q6 H( l: [, A' L4 f4 m$ p
    9 y2 I0 b  i& d7 p* D- E4、数据接口的同步方法
    4 B" `5 @4 G4 C9 O, Q) M% T& b: ^1 Q* o" m
    数据接口的同步是FPGA/CPLD设计的一个常见问题,也是一个重点和难点,很多设计不稳定都是源于数据接口的同步有问题。
    7 @, e6 [( ~8 n5 I7 U5 {, A& |- Q7 m, N& q) \
    在电路图设计阶段,一些工程师手工加入BUFT或者非门调整数据延迟,从而保证本级模块的时钟对上级模块数据的建立、保持时间要求。还有一些工程师为了有稳定的采样,生成了很多相差90度的时钟信号,时而用正沿打一下数据,时而用负沿打一下数据,用以调整数据的采样位置。这两种做法都十分不可取,因为一旦芯片更新换代或者移植到其它芯片组的芯片上,采样实现必须从新设计。而且,这两种做法造成电路实现的余量不够,一旦外界条件变换(比如温度升高),采样时序就有可能完全紊乱,造成电路瘫痪。
    3 }$ v7 k1 ?! u  d1 j/ X3 S: O. Y( y
    下面简单介绍几种不同情况下数据接口的同步方法:% Q3 E, ^; G) z& b' i) C. Q! \/ u
    ; g8 K" J3 J: v. W' R: z0 ]% Q
      [+ Z( l9 N. I  [6 x1. 输入、输出的延时(芯片间、PCB布线、一些驱动接口元件的延时等)不可测,或者有可能变动的条件下,如何完成数据同步?- k* j8 g9 i& I; [, {) g) Q, |* ^3 U4 Z+ b* p1 K7 w  E8 N
    ' Y( l6 F; Z* g# |  i; b
    " h& G6 G& T6 l$ i: A2 u( e, ?% m对于数据的延迟不可测或变动,就需要建立同步机制,可以用一个同步使能或同步指示信号。另外,使数据通过RAM或者FIFO的存取,也可以达到数据同步目的。5 J+ |/ r& Z, w! R4 v7 m* r

    $ H& G# f# E& r: [4 C1 h* x4 p把数据存放在RAM或FIFO的方法如下:将上级芯片提供的数据随路时钟作为写信号,将数据写入RAM或者FIFO,然后使用本级的采样时钟(一般是数据处理的主时钟)将数据读出来即可。这种做法的关键是数据写入RAM或者FIFO要可靠,如果使用同步RAM或者FIFO,就要求应该有一个与数据相对延迟关系固定的随路指示信号,这个信号可以是数据的有效指示,也可以是上级模块将数据打出来的时钟。对于慢速数据,也可以采样异步RAM或者FIFO,但是不推荐这种做法。$ g3 ?( L! h2 X
    * q$ H0 ^. R/ I) ~/ [0 Y% Y; `2 s" h. S* k6 ^6 A+ j1 x! W
    数据是有固定格式安排的,很多重要信息在数据的起始位置,这种情况在通信系统中非常普遍。通讯系统中,很多数据是按照“帧”组织的。而由于整个系统对时钟要求很高,常常专门设计一块时钟板完成高精度时钟的产生与驱动。而数据又是有起始位置的,如何完成数据的同步,并发现数据的“头”呢?
    5 Z! O% D, i. N4 b( X2 n- z( o3 q. P% p+ b" I0 d7 V$ d
    - C4 n9 d6 l4 \/ u数据的同步方法完全可以采用上面的方法,采用同步指示信号,或者使用RAM、FIFO缓存一下。; \* @! Y! K0 b, k3 |/ H2 W
    2 y% b' E$ Q5 d* F# S. A2 K" t$ \0 p% I7 v! d9 J6 k/ K5 d6 a6 I# A# N. m
    找到数据头的方法有两种,第一种很简单,随路传输一个数据起始位置的指示信号即可,对于有些系统,特别是异步系统,则常常在数据中插入一段同步码(比如训练序列),接收端通过状态机检测到同步码后就能发现数据的“头”了,这种做法叫做“盲检测”。. y0 D8 R: i+ B0 M9 \6 Y
    / b, t9 J  e" E- x( F' u4 B
    上级数据和本级时钟是异步的,也就是说上级芯片或模块和本级芯片或模块的时钟是异步时钟域的。
    8 y; s) z4 G8 k* O
    1 w1 ~9 ^/ X. `, C- f1 Y% N前面在输入数据同步化中已经简单介绍了一个原则:如果输入数据的节拍和本级芯片的处理时钟同频,可以直接用本级芯片的主时钟对输入数据寄存器采样,完成输入数据的同步化;如果输入数据和本级芯片的处理时钟是异步的,特别是频率不匹配的时候,则只有用处理时钟对输入数据做两次寄存器采样,才能完成输入数据的同步化。需要说明的是,用寄存器对异步时钟域的数据进行两次采样,其作用是有效防止亚稳态(数据状态不稳定)的传播,使后级电路处理的数据都是有效电平。但是这种做法并不能保证两级寄存器采样后的数据是正确的电平,这种方式处理一般都会产生一定数量的错误电平数据。所以仅仅适用于对少量错误不敏感的功能单元。
    . Q! C: d' ?- o  [2 J1 B( j
    / B6 i$ e+ S. i" o$ O% E为了避免异步时钟域产生错误的采样电平,一般使用RAM、FIFO缓存的方法完成异步时钟域的数据转换。最常用的缓存单元是DPRAM,在输入端口使用上级时钟写数据,在输出端口使用本级时钟读数据,这样就非常方便的完成了异步时钟域之间的数据交换。( d# Q/ [- N% Z2 l0 Y/ d- f0 Z- q1 }
    2 k) ~. N1 L1 D# [+ t+ S. T- V& W) {2 p
    ( j1 K$ r. L: t- y2. 设计数据接口同步是否需要添加约束?2 z1 J+ G6 g7 i" {9 T' i: v
    1 F3 F" D3 R' c0 f5 J, |, @. f9 X( B9 d% L5 d( E
    . q2 d( V2 O/ y8 Q7 L6 Q2 K建议最好添加适当的约束,特别是对于高速设计,一定要对周期、建立、保持时间等添加相应的约束。0 D$ k8 c. U8 V! ]9 l3 |9 N, N* {+ ^

    ( }8 v3 ?0 P" G' [5 |8 f) h5 x这里附加约束的作用有两点:4 F# x. D# b7 X0 V  d$ N; l
    % K7 C/ v2 s* V6 E: g& j3 D  [! Y, L' \8 e& |1 H" t  g; P' i1 r* s6 t
    a. 提高设计的工作频率,满足接口数据同步要求。通过附加周期、建立时间、保持时间等约束可以控制逻辑的综合、映射、布局和布线,以减小逻辑和布线延时,从而提高工作频率,满足接口数据同步要求。7 g5 ]6 W) @- K* E" d/ |/ u+ A
    ; |7 n. P  X6 Z+ {  ?
    b. 获得正确的时序分析报告。几乎所有的FPGA设计平台都包含静态时序分析工具,利用这类工具可以获得映射或布局布线后的时序分析报告,从而对设计的性能做出评估。静态时序分析工具以约束作为判断时序是否满足设计要求的标准,因此要求设计者正确输入约束,以便静态时序分析工具输出正确的时序分析报告。
    * G' |# P+ `2 G+ g2 v- a- X# N; \
    ( K5 t: m* P' \7 cXilinx和数据接口相关的常用约束有Period、OFFSET_IN_BEFORE、OFFSET_IN_AFTER、OFFSET_OUT_BEFORE和OFFSET_OUT_AFTER等;Altera与数据接口相关的常用约束有Period、tsu、tH、tco等。
    & k" U2 [  ~: @- w; A+ s# K4 N' {『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
    8 ?$ u, E5 j/ I- a; O# ^
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-8-24 06:09 , Processed in 0.156250 second(s), 27 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表